Почему в программе abbyy finereader при работе с ластиком появляется серый цвет
Совет: Если символы в текстовом окне ABBYY FineReader отображаются некорректно (в словах на месте некоторых букв стоят значки "?" или "□"), это означает, что шрифты, выбранные на закладке Сохранить, не содержат всех символов, входящих в распознаваемый язык. Установите шрифт (группа Шрифты, меню Сервис>Опции, закладка Сохранить), поддерживающий все символы языка документа (например, Arial Unicode MS или Bitstream Cyberbit), и перераспознайте документ. Более подробно о шрифтах для поддерживаемых языков см. раздел "Шрифты, необходимые для корректного отображения символов поддерживаемых языков в редакторе ABBYY FineReader".
Распознанный текст выводится в окно Текст. При сохранении текста в приложение оформление документа сохраняется в соответствии с опциями форматирования, устанавливаемыми на закладке Сохранить и в диалоге Форматы.
Неуверенно распознанные символы выделяются цветом. Вы можете отменить выделение слов с неуверенно распознанными символами: на закладке .Вид (меню Сервис>Опции) снимите отметку с пункта Выделять неуверенно распознанные символы.
Редактор ABBYY FineReader поддерживает два режима просмотра документа: режим с полным сохранением исходного оформления документа и черновой режим просмотра.
В режиме с полным сохранением исходного оформления документа блоки с распознанным текстом, таблицами и картинками отображаются именно там, где они были в исходном изображении. Таким образом, в этом режиме сохраняется исходный вид изображения: колонки, таблицы, картинки и буквицы (большие буквы на несколько строк в абзаце). Блок, в котором находится курсор, является активным. При перемещении курсора с помощью клавиатуры последовательность обхода блоков определяется их порядковыми номерами. Если текст блока не умещается внутри его границ (например, в результате редактирования распознанного текста), то часть текста неактивного блока может быть не видна на экране. Признаком этого являются специальные красные маркеры на границах блока. Когда блок становится активным, его границы расширяются таким образом, чтобы весь его текст был виден на экране целиком.
В черновом режиме редактора не отображаются: левый отступ; выравнивание абзаца (все абзацы прижаты к левому краю); цвет и фон символов. Для показа текста используется шрифт одного размера (по умолчанию 12 пт.). При этом сохраняется шрифт и форматирование текста: полужирный, курсив, подчеркнутый, верхние и нижние индексы.
Переход из одного режима в другой осуществляется нажатием кнопок (режим отображения исходного оформления документа) и (черновой режим редактора) в окне Текст.
Вы можете поменять установленный по умолчанию размер шрифта для показа в черновом режиме. Для этого:
- В меню Сервис выберите пункт Опции.
- На закладке Вид укажите нужный размер шрифта в пункте Размер шрифта в черновом режиме.
Редактор системы ABBYY FineReader предоставляет следующие возможности по редактированию текста:
Копирование, вырезание, вставка выделенных фрагментов текста
Чтобы скопировать выделенный текст:
Качество распознавания зависит от качества исходного изображения и отвыбранных настроек сканирования.
● Настройка параметров сканирования и открытияизображений
● Выбор интерфейса сканирования
Подробнее о сканировании через интерфейс ABBYY FineReader и через интерфейс драйвера сканера, особенностях
этих интерфейсов и способе переключения между ними.
● Настройка яркости сканирования
● Если в исходном изображении мелкий шрифт
● Сканирование книжного разворота
● Как сфотографировать текст
Данная статья поможет вам выбрать режим работы фотоаппарата и получитьснимок документа, пригодный для
распознавания текста.
● Автоматическая предобработка изображений
● Как обработать изображение вручную
Выбрать необходимые параметры вы можете непосредственно в диалогах открытияили сканирования изображений (если вы используете для сканирования интерфейсABBYY FineReader ), а также на закладке С канировать/Открыть диалога Опции (менюСервис>Опции…).
Внимание! Если вы изменили настройки программы вдиалоге Опции , то необходимо отсканировать или открытьизображение заново. Только после этого ваше изображение будет обработано суказанными настройками.
На закладке С канировать/Открыть диалогаОпции вы можете изменить следующие настройки:
● Запуск автоматического анализа ираспознавания полученных изображений.
Анализ и распознавание документа ABBYY FineReader по умолчанию выполняются автоматически. При необходимости вы можете изменитьэтот режим. Возможны следующие варианты:
● Автоматически распознавать полученныеизображения
Анализ и распознавание документа будут производиться автоматически.
● Автоматически анализировать полученныеизображения
Анализ документа будет выполняться автоматически, а распознавание нужнобудет запускать вручную.
● Отключить автоматический анализ ираспознавание изображения
Отсканированные или открытые изображения будут добавлены в документ FineReader . Анализ и распознавание
документа нужно будет запускать вручную. Такой режим, как правило, используетсядля документов, имеющих
сложную структуру.
● Способы обработки изображений.
● Выполнять предобработку изображений
Если вы хотите отсканировать и распознать книгу или открываете изображение,полученное с помощью
фотокамеры, включите эту опцию. Тогда программа, в зависимости от типа входногоизображения, выполнит его
предобработку: удалит шумы с цифровых фотографий, исправит перекос, нечеткость , искажение перспективы,
выровняет документ по линиям текста.
● Определять ориентацию страницы
Включите эту опцию для автоматического определения ориентации страниц,добавляемых в документ FineReader .
● Делить разворот книги
Если вы сканируете разворот книги или открываете изображения сдвоенныхстраниц, включите эту опцию. Тогда,
в процессе добавления страниц в документ FineReader ,изображения будут разделяться на отдельные страницы.
Замечание. Вы можете не использовать опциипредобработки изображений при сканировании или открытии страниц документа, авыполнить необходимую обработку в уже открытом документе с помощью редактораизображений.
Подробнее см. «Как обработать изображение вручную».
● Интерфейс сканера, который будетиспользоваться при сканировании.
В программе ABBYY FineReader возможны следующиеварианты взаимодействия программы со сканером:
1. Через интерфейс ABBYY FineReader .
В этом случае для настройки режима сканирования используется диалогпрограммы ABBYY FineReader . Он
позволяет устанавливать:
● Разрешение, яркость и тип изображения.
● Опции предобработки изображений:
● Определять ориентацию страницы — включите эту опцию для автоматического определения ориентациистраницы при сканировании
● Делить разворот книги — включите эту опцию для автоматического разбиения сдвоенных страницна отдельные изображения
● Выполнять предобработку изображений — включите эту опцию для выполнения автоматической обработкиотсканированных изображений
● Опции для сканирования многостраничныхдокументов:
● Использовать автоподатчик (ADF)
● Применять автоматическое двустороннеесканирование (если данная возможность поддерживается сканером)
● Установить задержку между сканированиемстраниц на указанное количество секунд
Замечание. Для некоторых моделей сканеров опция И спользовать интерфейс ABBYY FineReader может быть недоступна.
2. Через интерфейс TWAIN–драйвера сканера или WIA–драйвера сканера.
Для настройки опций сканирования используется диалог драйвера сканера. Видокна и описание его элементов вы
найдете в документации, прилагаемой к сканеру.
Внимание! Для того чтобы правильно подключитьсканер, обратитесь к документации, прилагаемой к устройству.
При установке не забудьте установить необходимое программное обеспечение,поставляемое вместе со сканером.
По умолчанию сканирование выполняется через интерфейс ABBYY FineReader .
Вы можете легко переключать интерфейс сканирования:
1. Откройте диалог Опции на закладке С канировать/Открыть(меню Сервис>Опции…).
2. В группе Сканер установите переключатель в одно из положений: Использоватьинтерфейс ABBYY FineReader или
И спользовать интерфейс сканера.
Особенности входного изображения
Пример хорошего (пригодного для распознавания)
«разорванные»; светлые, тонкие буквы
● Уменьшите яркость (чтобы изображение стало темнее)
● Отсканируйте в сером (в этом случае осуществляется автоподбор яркости)
искаженные и залитые; склеенные символы; темные ,
● Увеличьте яркость (сделать изображение светлее)
● Отсканируйте в сером (в этом случае осуществляется автоподбор яркости)
Особенности входного изображения
300 dpi — для обычных текстов (размер шрифта 10 и более пунктов).
400–600 dpi — для текстов, набранных мелким шрифтом (9 и менее пунктов).
Разрешение изображения показываетнасколько детальным является данное изображение.Разрешение обычно
измеряется в dpi ( dots per inch ) — количестве точек,приходящихся на один дюйм.
Разрешение, оптимальное для распознавания, равно 300 dpi .
Внимание! Для качественного распознавания текстанеобходимо, чтобы разрешение изображения по вертикали и по горизонталисовпадало.
● Если разрешение изображения меньше 250 dpi или больше 600 dpi .
● Если изображение имеет нестандартноеразрешение.
При сканировании книжного разворота две страницы попадают на одноизображение.
Для повышения качества распознавания необходимо разделить такое изображение надва. В программе существует специальный режим, при котором книжный разворотавтоматически разделяется на две части и превращается в две отдельные страницыдокумента ABBYY FineReader .
Как отсканировать книжный разворот или сдвоенные страницы:
1. Откройте диалог Опции на закладке С канировать/Открыть(меню Сервис>Опции…).
2. В группе Обработка изображения отметьте опцию Д елитьразворот книги.
3. Отсканируйте страницы.
Опция автоматического разделения сдвоенных страниц имеетсятакже в диалоге открытия изображений (меню
Файл >О ткрыть PDF/изображение… ) и в диалоге сканирования ABBYY FineReader . Подробнее см. «Выбор интерфейса сканирования».
Внимание! Если изображение содержит текст накитайском или японском языке, воспользуйтесь редактором изображений для разделения страниц вручную. Автоматическое разделение страницы длятаких изображений не поддерживается.
Фотосъемка документов требует определенной подготовки фотографа, а также налагает ограничения на характеристики
фотоаппарата и режим съемки .
Замечание. Технические параметры вашего фотоаппаратаи инструкции по работе с ним приведены в описании вашего устройства и другойприлагаемой к нему документации.
Ниже приведены требования к фотоаппарату и рекомендации по выбору режима съемки .
Требования к фотоаппарату
● Размер матрицы: вычисляется пропорциональноформату страницы изображения, из расчета 2 млн.пикселов для формата А 4 . Соответственно, для съемки страниц небольшого формата, например, визитныхкарточек, размер матрицы может быть меньше.
● Переменная дистанция фокусировки. Нерекомендуется использовать фотоаппараты с фиксированным фокусом
( сфокусированные на гиперфокальное расстояние).Такие камеры обычно встречаются в сотовых телефонах и КПК.
● Размер матрицы: вычисляется пропорциональноформату страницы изображения, из расчета 5 млн.пикселов для формата А 4 .
● Возможность отключения фотовспышки.
● Возможность установки диафрагмы вручную —т.е. наличие режима приоритета диафрагмы или ручного режима.
● Режим ручной фокусировки.
● Объектив с оптической стабилизациейизображения, при его отсутствии рекомендуется использовать штатив.
Рекомендации по проведению фотосъемки
По возможности обеспечьте хорошее освещение, лучше всего дневное. Еслииспользуется подсветка, то лучше
использовать подсветку двумя лампами с разных сторон, чтобы избежатьобразования теней.
Как располагать фотоаппарат
Для съемки документов рекомендуется использоватьштатив. Объектив должен располагаться параллельно поверхности съемки и по центру фотографируемого изображения.
Фотоаппарат должен быть удален от страницы настолько,чтобы при максимальном оптическом увеличении страница полностью умещалась вкадре. Обычно это расстояние около 50–60 см.
Если освещение позволяет, вспышку лучше всего отключить, поскольку она создает пересвеченные области ирезкие
тени. При недостаточном освещении, если съемка ведется с достаточного расстояния (~50 сантиметров), можноиспользовать вспышку.
Замечание. При использовании вспышки желательноподсветить документ.
Внимание! Категорически не рекомендуетсяиспользовать вспышку при съемке документов,отпечатанных на глянцевой бумаге.
По возможности установите баланс белого по цвету бумаги. Если вашфотоаппарат не позволяет произвольно задавать
баланс белого, выберите режим, максимально отвечающий условиям съемки .
Что делать если.
Недостаточно освещения для фотосъемки
При недостаточном освещении рекомендуется:
● Выбрать небольшое значение диафрагмы,т.е. максимально открыть диафрагму. Если съемка ведется при ярком дневном свете, значение диафрагмы лучшеувеличить, чтобы получить более резкий снимок.
● Выбрать большую чувствительность матрицы (большеезначение ISO).
● Использовать ручную фокусировку, так какавтоматический фокус может срабатывать плохо (аппарат не можетсфокусироваться).
Снимок слишком темный и неконтрастный
Постарайтесь улучшить освещение. Если такой возможности нет — установитеменьшее значение диафрагмы.
Возможно, автофокус плохо срабатывает из–за отсутствия света. Попробуйтеулучшить освещение. Если это не помогает, используйте ручную фокусировку.
Если нерезкая только часть снимка — попробуйте выставить большее значение диафрагмы.Снимайте с большего расстояния при максимальном оптическом увеличении. Наводитефокус на точку, расположенную между центром и
краем изображения.
При недостаточном освещении в автоматическом режиме используются большиевыдержки, что отрицательно сказывается на резкости получаемого изображения.Поэтому рекомендуется дополнительно:
● Использовать стабилизатор изображения.
● Использовать автоспуск. Это позволитизбежать подрагивания камеры при нажатии на кнопкуспуска. Такие проблемы могут возникать даже при наличии штатива.
Вспышка создает пересвеченную область в центре кадра.
Отключите вспышку. Если нет возможности использовать другие источники света,снимайте с большего расстояния.
На качество распознавания могут отрицательно влиять искажение строк,перекос, наличие шумов и другие дефекты,
которые свойственны отсканированным изображениям и цифровым снимкам.
Для устранения подобных дефектов в программе предусмотрена опция автоматическойпредобработки изображений.
Если она включена, то, в зависимости от типа входного изображения, программасама определит, какая корректировка необходима, и выполнит её: удалит шумы сцифровых фотографий, выровняет изображение при перекосе, выровняет документ полиниям текста, исправит искажение перспективы.
Замечание. Для выполнения данной операции можетпотребоваться значительное время.
Чтобы при сканировании и открытии изображений выполнялась их автоматическаяпредобработка:
1. Откройте диалог Опции (меню Сервис>Опции…).
2. Убедитесь, что на закладке С канировать/Открыть вгруппе Обработка изображения отмечена опция Выполнять предобработкуизображений.
Внимание! Включать/отключать опцию автоматическойпредобработки можно также в диалоге открытия изображений
(меню Файл >О ткрыть PDF/изображение…) и вдиалоге сканирования ABBYY FineReader . Подробнее см.«Выбор интерфейса сканирования».
Замечание. Если в процессе сканирования или открытияизображений опция В ыполнятьпредобработку изображений
была отключена, вы можете отредактировать изображение вручную с помощьюредактора изображений.
ABBYY FineReader 10 позволяет проводитьавтоматическую предобработку изображений — когда программа сама
определяет, какая корректировка необходима для данного изображения, и выполняет ее .
● Фотокоррекция — устранить неровность строк текста, шумы и нечеткость изображения
● Повернуть и отразить —повернуть изображение, чтобы привести те кст к ст андартномунаправлению
(горизонтально, слева направо)
● Разбить — разбитьизображение на отдельные изображения, например, разделить сдвоенную страницу
● Обрезать — удалитьненужные края изображения
● Инвертировать —инвертировать цвета на изображении, чтобы привести те кст к ст андартномувиду ( темный текст на светлом фоне)
● Разрешение изображения — изменить разрешение изображения
● Ластик — удалитьчасть изображения
В этом разделе описывается, как настроить параметры распознавания,приводятся нестандартные ситуации, решение
которых может потребовать некоторых дополнительных настроек. Вы узнаете овозможных причинах возникновения ошибок и ухудшения качества распознавания, атакже о том, как устранить некоторые проблемы и, по возможности,
избежать их возникновения.
● Настройка параметров распознавания
● Если в исходном документе сложная структураи после распознавания она не сохранилась
● Редактирование формы и положения областей
● Если картинка на странице выделенанеправильно
● Если штрих–код на странице не найден
● Если таблица на странице не найдена
● Если в таблице неправильно выделены ячейки
● Как отредактировать свойства текста
● Если вертикальный или инвертированный текстне распознался
● Если в исходном документе есть декоративные(нестандартные) шрифты
● Если в распознанном тексте некорректноотображается шрифт или на месте некоторых букв стоят значки «?» или
Правильно установленные параметры распознавания помогут вам быстро получить качественныйдокумент, пригодный
для дальнейшего редактирования. Выбор параметров зависит не только от объема и сложности исходного документа, но и от того, каквы намерены использовать распознанный документ.
Выбрать необходимые параметры вы можете на закладке Р аспознатьдиалога Опции (меню Сервис>Опции…). Внимание! Распознаваниестраниц, добавленных в документ ABBYY FineReader ,выполняется в автоматическом режиме с текущими настройками программы. Вы можетеотключить автоматический анализ и распознавание добавленных изображений назакладке С канировать/Открыть диалога Опции(меню Сервис>Опции…).
Замечание. Если вы изменили язык распознавания,выделили области на изображении вручную или изменили другие настройкипрограммы, выполните распознавание заново.
На закладке Р аспознать диалога Опциивы можете изменить настройки для следующих групп опций:
Выберите один из режимов распознавания.
В ABBYY FineReader 10 предусмотрено два режимараспознавания:
Данный режим пригоден для распознавания как простых, так и сложныхдокументов. Например, для документов,
содержащих текст на цветном фоне, или для документов, содержащих таблицы, в томчисле таблицы без линий сетки и таблицы с цветными ячейками.
Замечание. По сравнению с Быстрым режимом распознавания, Тщательный режим требуетбольше времени,
но обеспечивает лучшее качество распознавания.
Данный режим рекомендуется для обработки больших объемов документов с простым оформле
Возможно, окончательная победа цифровых технологий уже не за горами, но сегодня мы все еще находимся в переходном периоде и вынуждены приводить разнородные потоки и источники информации к «общему знаменателю». Оцифровка печатных материалов (OCR, Optical Character Recognition), одна из наиболее типичных задач, хорошо знакома отечественным пользователям и на просторах СНГ однозначно ассоциируется с ABBYY FineReader. Популярность этого продукта вполне заслуженна, а компания-разработчик не почивает на лаврах и неутомимо отслеживает современные тенденции и развивает свое детище. Так, в девятой версии FineReader стал работать не с отдельными блоками или даже страницами, а с целыми документами (ADRT, Adaptive Document Recognition Technology), что позволило ему гораздо правильнее воссоздавать их структуру, включая такие элементы как таблицы, колонтитулы и пр. В десятой приоритет сместился в сторону качественной обработки изображений, полученных не со сканеров, а с цифровых фотокамер. Популярность последних продолжает расти, так, согласно информации ABBYY, фотокамеры для оцифровки печатной продукции (учебников и научной литературы, юридических и деловых документов, газет и журналов, анкет и пр.) применяют более 30% пользователей. Представленный в конце августа FineReader 11 также имеет немало полезных нововведений, хотя выделить главное направление довольно сложно. Скорее, в нынешней версии разработчики сосредоточились на совершенствовании накопленных технологий и, конечно, на повышении удобства работы.
Общая информация
На текущий момент доступны две редакции FineReader 11 — Professional и Corporate. Home пока осталась в 10-й версии. На сайте ABBYY есть довольно объемная таблица с описанием возможностей всех трех редакций, хотя проводить такое сравнение не совсем корректно — наверняка со временем появится и FineReader 11 Home Edition, который сократит отставание от старших собратьев. Однако принципиально картину это не изменит — функциональность редакции Home сильно урезана. Так, отсутствуют возможности обработки документов PDF, DjVu, XPS; распознавание штрихкодов; встроенный редактор; вывод во многие форматы; поддержка многоядерных процессоров и пр. Конечно, кому-то базовой функциональности будет достаточно, особенно для эпизодического применения, но в общем случае сниженная стоимость не компенсирует потери.
К примеру, последние версии FineReader характеризуются отличной, практически линейной масштабируемостью, т. е. на двух вычислительных ядрах программа будет работать почти вдвое быстрее чем на одном, на трех — втрое, на четырех — вчетверо и т. д. Заглянув в Task Manager после запуска редакции Professional или Corporate, вы увидите несколько процессов FineExec, ответственных за обработку изображений, — их будет два для двухъядерного процессора или на единицу меньше числа ядер, если последних больше двух (одно резервируется для интерфейса программы и других системных задач). А при обработке многостраничного документа будет отлично заметно, как одновременно распознаются несколько страниц. В общем, это весомый плюс, особенно при большой нагрузке.
Рис. 1. Каждому вычислительному ядру — свой рабочий процесс. За счет этого обеспечивается отличная масштабируемость и максимальная утилизация ресурсов.
Однако между ними также имеется существенная разница. Прежде всего, редакция Corporate предназначена для использования в организациях и, соответственно, обеспечивает гибкое управление лицензиями. Последние бывают двух основных типов: per-seat, закрепляемая за конкретным компьютером (т. е. по сути аналогичная персональной лицензии), и concurrent (распределенная), которую допускается использовать на любом компьютере. Распределенные лицензии позволяют установить FineReader Corporate на произвольном числе рабочих мест, при этом сервер лицензий будет автоматически выдавать имеющиеся лицензии при запуске клиентской программы и вновь забирать при завершении. Если корректно оценить потребность сотрудников в OCR (а большинство наверняка будет использовать FineReader лишь от случая к случаю), то комбинацией per-seat и concurrent лицензий можно добиться существенной экономии по сравнению с приобретением для всех персональных продуктов — даже при том, что корпоративные лицензии дороже: 4180-3200 р. за per-seat и 6260-5330 р. за concurrent (в зависимости от пакета лицензий) против 3590 р. за электронную поставку FineReader 11 Professional.
- возможность создавать пользовательские сценарии, аналогичные встроенным типовым задачам;
- режим совместной работы с одним документом, когда несколько пользователей могут параллельно выполнять различные действия;
- передачу документов на серверы SharePoint;
- режим Цензура, позволяющий в буквальном смысле вымарать лишнюю информацию, причем, в документах, которые поддерживают графический и текстовый слои, она будет удалена из обоих;
- программу ABBYY Hot Folder, обеспечивающую автоматическую обработку документов, поступающих в папку, почтовый ящик или на FTP-сервер;
- программу ABBYY Business Card Reader для преобразования визиток в электронные контакты.
Рис. 2. Редакция Corporate предлагает не только специфическое лицензирование, но и ряд дополнительных функций. К примеру только в ней можно создавать дополнительные сценарии работы (Мои задачи)
Системные требования и установка
- операционная система Windows XP, Windows Server 2003 или более новая;
- процессор с частотой от 1 ГГц;
- объем оперативной памяти не менее 1 ГБ плюс по 512 МБ на каждое вычислительное ядро;
- 700 МБ дискового пространства непосредственно для установки и столько же для рабочих файлов.
Программа более чувствительна к производительности процессора, ресурсы которого обычно задействуются на все 100%, чем к объему оперативной памяти.
FineReader умеет напрямую работать со сканерами и МФУ, поддерживающими интерфейсы TWAIN или WIA. Изображения оригиналов можно также получать с помощью цифровых фотокамер, минимальным требованием является 2 Мп на лист формата A4, рекомендуется 5 Мп. Однако на деле более важно наличие автоматической или ручной фокусировки, никакие мегапиксели не помогут встроенным в телефон камерам с фиксированным фокусом. Естественно, съемку крайне желательно вести при хорошем освещении, с помощью штатива, отрегулировав баланс белого и т. д. Хотя встроенные в FineReader 11 инструменты способны скорректировать некоторые недочеты цифровых снимков, сильно рассчитывать на них не стоит.
Установка FineReader 11 довольно проста — настолько, что даже не описана в руководстве пользователя. Инсталляционная процедура запустится на языке, указанном в системных настройках, но на первом же экране можно выбрать нужную локализацию. Выборочная установка позволит отказаться от некоторых инструментов и функций, вроде ABBYY Screenshot Reader (для распознавания снимков экрана) и интеграции в сторонние приложения. Но все это относится к клиентской части, в основном, к редакции Professional. FineReader 11 Corporate в общем случае предполагает сетевое развертывание, описание которого приведено в руководстве администратора. С дистрибутивного диска вначале нужно установить сервер и менеджер лицензий. Последний представляет собой управляющую утилиту и также может размещаться на любой рабочей станции. Сервер лицензий на самом деле не требует серверной ОС, а учитывая минимальную вычислительную нагрузку, его вполне разумно установить в виртуальной машине. Принципиально только соединение с Интернетом, так как с помощью менеджера лицензий необходимо регистрировать и активировать имеющиеся лицензии.
Для установки FineReader 11 Corporate на рабочие станции есть несколько способов, самый простой (но не всегда самый эффективный) — формирование административного дистрибутива в папке общего доступа и запуск инсталляции на каждом рабочим месте. При этом все параметры сервера лицензий будут прописаны автоматически, так что никаких дополнительных действий не понадобится. При использовании per-seat лицензий FineReader 11 Corporate можно устанавливать и локально.
В дальнейшем менеджер лицензий позволяет объединять лицензии в пулы, закреплять за группами пользователей, принудительно назначать и забирать их и т. д. Но в простых вариантах (к примеру, только concurrent лицензии и одинаковые потребности у всех пользователей) в этом даже нет необходимости, все будет происходить автоматически.
Рис. 4. Менеджер лицензий позволяет контролировать использование лицензий и, при необходимости, управлять их распределением
Работа с FineReader 11
Несмотря на то, что за ABBYY FineReader стоит целая отрасль искусственного интеллекта и весьма изощренные алгоритмы, сама по себе программа достаточно проста и интуитивна. По сути она решает одну единственную задачу — распознавание текста, соответственно, в ней нет изобилия инструментов и сложных меню, хотя все необходимые опции и средства появляются при работе с конкретными объектами, будь то изображение, выделенный блок или распознанный текст. За последнее время интерфейс программы практически не менялся (никаких «лент») и это хорошо, так как пользователи предыдущих версий найдут привычные инструменты на своих местах. Работать с FineReader можно двумя основными способами: либо воспользоваться одним из типовых сценариев, к примеру, со сканера сразу в EPUB, либо проделать основные операции вручную. В любом случае обработка документов состоит из четырех основных этапов: получение изображения, его распознавание, проверка, сохранение результата, — и на каждом доступно некоторое количество опций и дополнительных возможностей, способных существенно повлиять на качество результата. С опытом каждый пользователь отработает собственный стиль взаимодействия с FineReader, но для начала вполне разумно полагаться на автоматические настройки, тем более, что программа оповестит о всех проблемах, скажем, о необходимости отсканировать с большим разрешением оригиналы, на которых имеется мелкий шрифт. Кроме того, в рабочем документе отмечаются все неуверенно распознанные символы, так что их можно будет быстро проверить, в том числе, в специальном окне с укрупненным фрагментом оригинала. В большинстве случаев FineReader и сам примет правильные решения, особенно если сомнения возникают в известных словах, в противном случае имеет смысл добавить слово в словарь и повторить распознавание. При возникновении большого количества ошибок следует обратить внимание на качество оригинала и его изображения — это самый важный фактор, нивелировать который в дальнейшем практически невозможно.
Рис. 5. Выбранный режим может сильно повлиять на результат, причем программа не восстанавливает стандартные настройки — перед сменой задания необходимо это делать самостоятельно
Для сравнения доступных режимов обработки был проведен небольшой тест. В качестве оригинала был взят 10-страничный, отпечатанный на цветном принтере материал со сравнительно сложной версткой, но почти без иллюстраций. Такое задание можно считать достаточно типичным, так как главной задачей программ распознавания является именно извлечение текста. Затем в опциях FineReader 11 была отключена автоматическая обработка и сформированы три документа: один в черно-белом режиме и два в цветном, отсканированные в цвете и в оттенках серого. Сканирование выполнялось на МФУ с разрешением 300 dpi, что также является типичной ситуацией. Все прочие настройки FineReader 11 не менялись, в частности, использовался тщательный режим собственно распознавания. Серии операций по распознаванию проводились на компьютере с двухъядерным процессором, усредненные результаты можно видеть в следующей таблице:
Очевидно, ускорение обработки в черно-белом режиме зависит от характера исходного документа и качества отпечатков. На самом деле экономия времени начнется еще на этапе сканирования, которое в цвете осуществляется намного дольше. Очень большая разница также наблюдается на первом «холодном» прогоне, что, вероятно, связано с размерами изображений. При повторных обработках скорости выравниваются, хотя разница все же присутствует, пусть и не такая большая, как обещано разработчиками. Естественно, в цветном режиме ABBYY FineReader требуется больше оперативной памяти, а вот процессор во всех случаях задействовался фактически одинаково — на 100% в процессе обработки, и несколько ниже при дополнительных операциях (сохранении и т. д.).
Рис. 7. Специальный режим проверки позволяет оперативно просмотреть все неуверенно распознанные символы и при необходимости внести коррективы или занести в словарь новые слова
Несмотря на достаточно высокое качество оригинала, в черно-белом режиме значительно большее число символов было распознано неуверенно. Однако, львиная доля их приходилась на фрагменты с изображениями. При этом на одной чисто текстовой странице лучшее качество распознавания оказалось именно в черно-белом режиме. Сканирование в оттенках серого считается ABBYY FineReader 11 оптимальным для OCR, с чем, пожалуй, можно согласиться, глядя на результаты теста. По физическим характеристикам, в том числе скорости, серый режим близок к черно-белому, а по качеству распознавания — к цветному. Справедливости ради, отметим, что результаты в черно-белом режиме было несложно значительно улучшить, предварительно разметив иллюстрации или добавив в словарь несколько часто встречающихся в документе аббревиатур (в них программа ошибалась наиболее часто). Тем не менее, цветной режим со сканированием в оттенках серого действительно выглядит не компромиссом, а оптимальным выбором.
Дополнительные возможности
Несмотря на прозрачность работы и наличие типовых сценариев, ABBYY FineReader 11 имеет в своем арсенале и достаточно тонкие инструменты, которые при умелом использовании существенно могут облегчить жизнь пользователям. К примеру, программу можно обучить для работы с декоративными шрифтами или специальными символами (вначале, конечно, следует убедиться, что она с ними не справляется). Хотя это довольно трудоемкий процесс, и применять его целесообразно только в исключительных случаях. Другим примером могут служить шаблоны областей для обработки однотипных документов. Достаточно проанализировать один образец, скорректировать его разметку, выделить нужные блоки и сохранить шаблон. В дальнейшем его можно будет применять к аналогичным документам, не повторяя рутинную работу. В полной мере возможности этой функции раскрываются при использовании вместе с Hot Folder для автоматической обработки документов.
Рис. 8. ABBYY Hot Folder позволяет настроить все параметры задания, чтобы в дальнейшем распознавание проходило в полностью автоматическом режиме
ABBYY Hot Folder, в свою очередь, является одним из дополнительных компонентов FineReader 11 (только редакции Corporate). Это специализированный планировщик, управляющий заданиями для автоматической обработки документов. По указанному расписанию он может проверять один из типов источников (папки, ftp-серверы, почтовые ящики, документы ABBYY FineReader, которые сами по себе также являются папками) и инициировать их обработку с предварительно настроенными параметрами. Типичное применение Hot Folder — централизованное распознавание документов, которые вводятся сотрудниками через сетевые МФУ. Как правило такие устройства умеют сохранять отсканированные изображения в папках общего доступа, за которыми как раз и будет следить Hot Folder.
Рис. 9. ABBYY Business Card Reader достаточно уверенно справляется с визитками, несмотря на разницу в их оформлении
Еще одним полезным дополнением FineReader 11 Corporate является ABBYY Business Card Reader — программа для распознавания визитных карточек. В ней все настройки и OCR-алгоритмы адаптированы для решения исключительно своей узкой задачи, пользователь может лишь скорректировать используемые языки. Разом можно сканировать несколько визиток, главное — одинаково их позиционировать в сканере. Для отличных результатов достаточно разрешения в 600 dpi, при этом не только корректно распознаются мелкие шрифты, но и достаточно уверенно идентифицируются различные поля: имя, фамилия, должность, телефоны, адреса и т. д. Ошибки случаются, в основном, в не совсем стандартных ситуациях, когда, к примеру, длинное название должности занимает сразу две строки. Экспортировать данные можно в файлы vCard или непосредственно в контакты Microsoft Outlook.
Рис. 10. ABBYY Screenshot Reader захватывает указанную часть экрана и распознает в ней текстовую информацию
Наконец, еще одно дополнение — ABBYY Screenshot Reader — присутствует в редакциях и Corporate, и Professional. Как и следует из названия, данная программа распознает информацию на экране компьютера (можно выделять окно или прямоугольную область). Таким образом, к примеру, можно быстро извлечь информацию о программной ошибке для поиска в базе знаний. Результат можно сохранять в файлах распространенных форматов или копировать в буфер обмена.
Резюме
ABBYY FineReader 11 сделал еще несколько шагов к тому, чтобы освободить пользователей от рутины и приблизить нашу жизнь к цифровому будущему. В программе внешняя простота сочетается с мощными алгоритмами, что позволяет даже неподготовленным пользователям добиваться хороших результатов. Все нововведения нынешней версии наверняка будут оценены по достоинству, начиная с повышенной производительности и заканчивая поддержкой популярных форматов электронных книг. Преимущества редакции Corporate также очевидны, хотя, с учетом более высокой стоимости лицензии, ее внедрение требует предварительной оценки реальной потребностей в OCR всех сотрудников.
Иногда нет времени для того чтобы создать новый документ и необходимо срочно:
- отредактировать сканированный чертеж или схему, внести в документ дополнения, комментарии;
- вставить в сканированный рисунок формы документа поля для заполнения;
- просто получить чистый, без помарок и лишнего грязного фона документ.
Для этого сканированный документ предварительно необходимо преобразовать в черно-белый, при необходимости устранить перекос, и очистить от "мусора".
Предвижу вопрос - почему бы не включить при сканировании черно-белый режим? Можно, но качество полученного изображения в этом случае будет на порядок ниже, чем в рассмотренном примере.
Существуют специализированные программы для этих целей, такие как Spotlight Pro, но они сложны в использовании, и для их освоения требуется значительное время.
Я хочу предложить более простой, но эффективный вариант обработки сканированных документов, с помощью программы оптического распознавания текста ABBYY FineReader 9.0.
Сканировать документ, можно непосредственно из интерфейса программы или вставить для обработки уже сканированный рисунок.
Для наглядности и усложнения задачи, мы возьмем уже сканированный разворот книги, с перекосом страниц и пожелтевшими от времени страницами. Используя программу ABBYY FineReader 9.0, преобразуем рисунок в черно-белый, исправим перекос и очистим от мусора.
- Запускаем программу ABBYY FineReader и в меню Сервис, выбираем команду Опции.
В открывшемся окне, во вкладке Сканировать/Открыть, отмечаем пункт Не обрабатывать полученные изображения, так как распознавать текст мы не будем - нам нужно только изображение. Выбираем параметры Обработки изображения:
Как видим из рисунка, выбрав соответствующие пункты обработки изображения, мы практически полностью можем автоматизировать нашу работу.
Рис 2 - В меню Файл, выбираем команду Открыть PDF/изображение. , и выбираем наше изображение (программа поддерживает все распространенные форматы рисунков, а так же pdf и DjVu файлы). В результате, мы получим две страницы черно-белого изображения с исправленным перекосом.
Для сохранения изображения в меню Файл, выбираем команду Сохранить изображение как. . Выбираем любой из поддерживаемых форматов:
Bitmap, черно-белый (*.bmp; *.dib; *.rle)
Bitmap, серый (*.bmp; *.dib; *.rle)
Bitmap, цветной (*.bmp; *.dib; *.rle)
DCX, черно-белый (*.dcx)
DCX, серый (*.dcx)
DCX, цветной (*.dcx)
JBIG2 (*.jb2; *.jbig2)
JPEG 2000, серый (*.jp2; *.j2k)
JPEG 2000, цветной (*.jp2; *.j2k)
JPEG, серый (*.jpg; *.jpg)
JPEG, цветной (*.jpg; *.jpg)
PCX, черно-белый (*.pcx)
PCX, серый (*.pcx)
PCX, цветной (*.pcx)
PNG, черно-белый (*.jpg)
PNG, серый (*.jpg)
PNG, цветной (*.jpg)
TIFF, черно-белый, несжатый (*.tif; *.tiff)
TIFF, черно-белый, packbits (*.tif; *.tiff)
TIFF, черно-белый, сжатие: ZIP (*.tif; *.tiff)
TIFF, черно-белый, сжатие: LZW (*.tif; *.tiff)
TIFF, черно-белый, Group4 (*.tif; *.tiff)
TIFF, серый, несжатый (*.tif; *.tiff)
TIFF, серый, Packbits (*.tif; *.tiff)
TIFF, серый, сжатие: JPEG (*.tif; *.tiff)
TIFF, серый, сжатие: ZIP (*.tif; *.tiff)
TIFF, серый, сжатие: LZW (*.tif; *.tiff)
TIFF, цветной, несжатый (*.tif; *.tiff)
TIFF, цветной, Packbits (*.tif; *.tiff)
TIFF, цветной, сжатие: JPEG (*.tif; *.tiff)
TIFF, цветной, сжатие: ZIP (*.tif; *.tiff)
TIFF, цветной, сжатие: LZW (*.tif; *.tiff)
PDF (*.pdf)
Очищенные сканы страниц от "мусора" и с исправленным искажением строк.Хочется отметить, многие в настоящее время переводят свои документы (чертежи, схемы, книги. ) в электронный вид. При большом объеме работ, удобнее использовать для этих целей фотоаппарат. С некоторыми моделями сканеров и фотоаппаратов, поддерживающих функцию переснятия документов, программа ABBYY FineReader, идет в комплекте. При выборе инструмента для перевода документов в электронный вид, следует учесть это, так как FineReader, с учетом её основного назначения - оптического распознавания текста, для тех, кто работает с документами не менее полезная программа, чем текстовый редактор.
Для черчения схем электрических
GOST Electro for Visio
Библиотека трафаретов символов условных обозначений элементов электрических схем
+
руководство в формате видео.Для черчения схем инженерных
Библиотека Visio Инженерные системы
Библиотека трафаретов символов условных обозначений элементов инженерных схем
+
руководство в формате видео.Для черчения схем электрических и инженерных
Библиотеки трафаретов Visio
символов условных обозначений элементов электрических схем
+
символов условных обозначений элементов инженерных схем
+
руководство в формате видео.Очистить от мусора
Распознаваемое изображение может быть сильно "замусорено", т.е. содержать много лишних точек, возникших в результате сканирования документов среднего или низкого качества. Точки, близко расположенные к контурам букв, могут отрицательно сказаться на качестве распознанного текста. Чтобы уменьшить количество лишних точек, можно воспользоваться опцией Очистить от мусора. Для этого:
- Выберите пункт Очистить изображение от мусора в меню Изображение>Обработать изображения.
Если вы хотите очистить от "мусора" отдельный блок, то:
- Выберите пункт Очистить блок от мусора в меню Изображение>Обработать изображения.
Внимание! Если исходный текст был очень светлым или в исходном тексте использовался очень тонкий шрифт, то применение функции Очистить изображение от мусора может привести к исчезновению точек, запятых или тонких элементов букв, что ухудшает качество распознавания.
Разрешение изображения - это параметр, определяющий, какое количество точек, составляющих изображение, приходится на единицу длины. Разрешение обычно измеряется в dpi - количестве точек, приходящихся на один дюйм. Для качественного распознавания текста с помощью системы ABBYY FineReader необходимо, чтобы разрешение изображения по вертикали и по горизонтали совпадало, и при этом разрешение находилось в пределах допустимого диапазона (50 - 3200 dpi). Рекомендованный диапазон разрешения - 200 - 600 dpi, разрешение оптимальное с точки зрения распознавания - 300 dpi.
Слишком большое или слишком маленькое разрешение может приводить к ухудшению качества распознавания. У некоторых форматов изображения разрешение отсутствует (например, у *.bmp файлов). Изображения могут также иметь нестандартное разрешение (например, 204*96 dpi), что тоже может повлиять на качество распознавание.
Система ABBYY FineReader проверяет разрешение каждого изображения и при обнаружении "подозрительного" изображения автоматически исправляет его разрешение, при этом физические размеры изображения (его длина и ширина) не изменяются. Такое изображение помечается значком в окне Пакет. При наведении мыши на такое изображение возникает всплывающая подсказка.
В открывшемся диалоге укажите тип изображения (отсканированное изображение, изображение, полученное по факсу, или снимок экрана). Вы также можете указать точное значение разрешения в поле Другое разрешение.
При сканировании книг возможно искажение строк текста в той части изображения, где страница примыкала к переплету. На изображениях, полученных с помощью фотокамеры, строки текста также могут искажаться по краям изображения. Для того чтобы устранить искажения строк:
- нажмите кнопку или выберите в меню Изображение>Обработать изображение>Устранить искажение строк.
Замечание. Для выполнения данной операции может потребоваться значительное время.
Некоторые сканеры инвертируют изображения при сканировании (черный цвет переводят в белый, а белый в черный). Чтобы получить стандартное представление документа (черный шрифт на белом фоне):
В меню Изображение>Обработать изображения выберите пункт Инвертировать.
Замечание. Если вы сканируете или открываете инвертированные изображения, то перед добавлением в пакет таких изображений отметьте пункт Инвертировать изображение в группе Сканировать/Открыть в диалоге Дополнительные опции. Для того чтобы открыть диалог Дополнительные опции, щелкните по кнопке Дополнительные опции на закладке Общие диалога Опции (меню Сервис>Опции).
При распознавании изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз, и строки должны быть горизонтальными. По умолчанию программа при распознавании определяет и корректирует ориентацию изображения автоматически. Если ориентация изображения была определена ошибочно, то на закладке Сканировать/Открыть снимите отметку с пункта Определять ориентацию страницы (при распознавании) и поверните изображение вручную.
Чтобы повернуть изображение:
на 90 градусов вправо - нажмите кнопку или выберите в меню Изображение>Повернуть/Отразить изображение пункт Повернуть по часовой стрелке.
на 90 градусов влево - нажмите кнопку или выберите в меню Изображение>Повернуть/Отразить изображение пункт Повернуть против часовой стрелки.
на 180 градусов - выберите в меню Изображение>Повернуть/Отразить изображение пункт Повернуть на 180 градусов.
Если вы хотите исключить какой-то участок текста из распознавания или на изображении имеются большие участки мусора, то вы можете стереть такие участки. Для этого:
Выберите инструмент (на панели в окне Изображение) и, нажав на левую кнопку мыши, выделите участок изображения, который вы хотите удалить. Отпустите кнопку, выделенная часть изображения будет удалена.
Иногда в результате сканирования по краям изображения появляются зачерненные поля. В таком случае перед распознаванием можно выполнить обрезку изображения, удалив ненужные фрагменты. С помощью инструмента обрезки изображения можно также получить изображение стандартного размера (соответствующего одному из стандартных форматов, например, А4, А5).
На панели Изображение (в окне Изображение) выберите инструмент (вы также можете воспользоваться командой Обрезать изображение в меню Изображение);
Изображение будет открыто в окне Обрезать изображение, контур изображения будет выделен черной линией. Для того чтобы:
Выбрать наиболее удобный режим просмотра изображения, воспользуйтесь выпадающим списком, находящимся в левом нижнем углу окна изображения;
Обрезать ненужные края изображения, потяните мышью черную линию, обрамляющую изображение, или маркеры, находящиеся в углах контура изображения. Часть изображения, которая будет отрезана, выделяется серым цветом. Щелкните по кнопке Обрезать;
Привести изображение к стандартному размеру, выберите нужный формат из выпадающего списка Привести к;
Не выполнять обрезку открытого изображения и перейти к следующему изображению, нажмите кнопку Пропустить;
Всегда работать только с выбранным изображением (не переходить к следующему изображению пакета после окончания работы с текущим изображением), снимите отметку с опции Перейти к следующей странице.
Обрезку изображения рекомендуется выполнять до того, на изображении будут выделены блоки и изображение будет распознано.
Цвет рамки в окне Обрезать изображение можно изменить на закладке Вид диалога Опции (меню Сервис>Опции). В списке Объекты выберите пункт Блок обрезки изображения, затем щелкните по кнопке Цвет и в открывшемся диалоге выберите нужный цвет рамки.
- Увеличить/Уменьшить масштаб изображения
На панели Изображение (в окне Изображение) выберите инструмент / и щелкните мышью на изображении. Изображение увеличится/уменьшится в два раза.
Щелкните правой кнопкой мыши на изображении и в локальном меню выберите пункт Масштаб и нужный вам масштаб.
Вы можете получить следующую информацию об открытом изображении: ширину и высоту изображения в точках; вертикальное и горизонтальное разрешение в точках на дюйм (dpi); тип изображения. Чтобы просмотреть информацию об изображении:
Щелкните правой кнопкой на изображении и в локальном меню выберите пункт Свойства. В открывшемся диалоге выберите закладку Изображение.
Вы можете напечатать одно изображение, открытое в окне Изображение, несколько изображений, выделенных в окне Пакет, или все изображения. Для этого:
В меню Файл выберите пункт Печать>Изображение и в открывшемся диалоге Печать установите параметры печати (принтер, количество печатаемых страниц, количество копий и т.д.)
Для отмены последнего действия на панели Стандартная нажмите кнопку Отменить .
Читайте также:
- Прошить ps3 в омске
- Как поменять язык в эксель гугл
- Как в ворде вставить картинку поверх текста
- Как соединить изображение в автокаде
- Программа shareit для компьютера