Существует ли возможность настройки параметров распознавания документа в abbyy finereader
Бывает, что изображение, которое распознается сильно "замусорено", то есть хранить большое количество лишних точек, которые возникли, как итог сканирования документов плохого или среднего качества. Точки, близко размещенные к контурам символов, могут отрицательно сказаться на распознавании текста. Чтобы сократить численность лишних точек, возможно использовать опцию выполнить очистку от мусора. Для сего: В меню Изображение нужно выбрать выполнить очистку изображения от мусора
Файн ридер: Режимы распознавания
Вы можете выбрать Быстрое распознавание и Тщательное распознавание. Режим Тщательное распознавание пригоден для того чтобы распознавать документы любой сложности. Примечание. В сравнении с Быстрым режимом, это режим нуждается в большем количестве времени, однако обеспечивает лучший уровень качества распознавания. Режим Быстрое распознавание советуется для того чтобы обрабатывать большие объемы документов с хорошим качеством печати и элементарным оформлением. Для того чтобы выбрать режим распознавания в «Режим распознавания» нужно выбрать одну из опций: Быстрое распознавание или Тщательное распознавание.
Файн ридер: Параметры группы Обучение
Согласно стандартных настроек Распознавание с обучением отключено. Для того чтобы во время распознавания производить обучение файн ридер неизвестным символам, выберите опцию Распознавание с обучением. Распознавание с обучением применяется для того чтобы распознавать следующие тексты: Тексты с декоративными шрифтами и специальными символами. Тексты плохого качества, объем которых более ста страничек. В момент распознавания у вас есть возможность пользоваться встроенными эталонами или сотворить собственный эталон.
Файн ридер: Инвертировать изображение
Определенные сканеры инвертируют изображения в момент сканирования. Для получения стандартного представления документа в меню Изображение нужно выбрать Инвертировать. Примечание: когда Вы получаете инвертированные изображения нужно перед добавлением изображения на закладке Сканирование/Открытие в группе Обработка выбрать Инвертировать.
Файн ридер: Зеркально отразить или Повернуть изображение
В момент распознавания изображение обязано обладать стандартной ориентацией: текст обязан читаться сверху донизу, и строчки обязаны быть горизонтальными. Согласно стандартных настроек программа в момент распознавания корректирует и определяет ориентацию изображения в автоматическом режиме. Ежели ориентация изображения определилась ошибочно, то на закладке Сканирование/Открытие нужно убрать галочку устанавливать ориентацию странички и повернуть изображения в ручном режиме.
Файн ридер: Получить инфу относительно изображения
У вас есть возможность получить следующую инфу относительно открытого изображения: Высоту и ширину изображения в точках; горизонтальное и вертикальное разрешение в dpi (точках на дюйм); тип изображения.
Файн ридер: Распечатка изображения
У вас есть возможность распечатать одно изображение, открытое в окошке Изображение, определенное количество графических файлов, выделенных в окошке Пакет, либо же все изображения.
Правильно установленные параметры распознавания помогут вам быстро получить качественный документ, пригодный для дальнейшего редактирования. Выбор параметров зависит не только от объема и сложности исходного документа, но и от того, как вы намерены использовать распознанный документ.
Выбрать необходимые параметры вы можете на закладке Распознать диалога Опции (меню Сервис>Опции…).
Внимание! Распознавание страниц, добавленных в документ ABBYY FineReader, выполняется в автоматическом режиме с текущими настройками программы. Вы можете отключить автоматический анализ и распознавание добавленных изображений на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции…).
Замечание. Если вы изменили язык распознавания, выделили области на изображении вручную или изменили другие настройки программы, выполните распознавание заново.
На закладке Распознать диалога Опции вы можете изменить настройки для следующих групп опций:
Режим распознавания
Выберите один из режимов распознавания.
В ABBYY FineReader 10 предусмотрено два режима распознавания:
-
Тщательное распознавание
Данный режим пригоден для распознавания как простых, так и сложных документов. Например, для документов, содержащих текст на цветном фоне, или для документов, содержащих таблицы, в том числе таблицы без линий сетки и таблицы с цветными ячейками.
Для выбора режима распознавания в группе Режим распознавания выберите одну из опций: Тщательное распознавание или Быстрое распознавание.
Обучение
По умолчанию режим Распознавание с обучением отключен. Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию Распознавание с обучением.
Распознавание с обучением используется для распознавания следующих текстов:
- Для набора которых использованы декоративные шрифты
- В которых встречаются специальные символы (например, отдельные математические символы)
- Большого объема (более 100 страниц) текста плохого качества
При распознавании вы можете использовать встроенные эталоны или создать собственный эталон. Для этого выберите нужную опцию в группе Обучение.
Перед распознаванием программа выделяет на изображениях страниц области различных типов: Текст, Картинка, Таблица и Штрих-код. Области разных типов имеют различные цвета рамок. Они выделяются для того, чтобы указать системе, какие участки изображения надо распознавать и в каком порядке. Так воспроизводится исходное оформление страницы.
Выделенная область является активной. Для того чтобы сделать область активной достаточно щелкнуть на ней курсором мыши. Перемещаться по областям можно с помощью клавиши Tab. Последовательность обхода областей определяется их порядковыми номерами. По умолчанию порядковые номера областей не отображаются в окне Изображение, а отображаются только в том случае, если пользователь выбрал функцию перенумерации областей.
Если текст области не умещается внутри ее границ (например, в результате редактирования распознанного текста), то часть текста неактивной области может быть не видна на экране. Признаком этого являются специальные красные маркеры на границах области. Когда область становится активной, ее границы расширяются таким образом, чтобы весь текст был виден на экране целиком.
Инструменты для ручной разметки и редактирования областей расположены на панели окна Изображение, а также на всплывающих панелях инструментов для областей Текст, Картинка и Таблица (всплывающая панель инструментов появляется у активной области).
Внимание! После того, как все операции по редактированию областей будут завершены, запустите распознавание еще раз.
- Выберите один из инструментов на панели окна Изображение:
Вы можете выделить новую область, не выбирая нужный инструмент на панели окна Изображение. Достаточно выделить область на изображении курсором мыши, удерживая следующие клавиши:
- Ctrl+Shift — выделить область Текст
- Alt+Shift — выделить область Картинка
- Ctrl+Alt — выделить область Таблица
- Ctrl+Shift+Alt — выделит область Штрих-код.
Вы можете изменить тип области. Для этого в контекстном меню выделенной области выберите Изменить тип области, а затем — нужный тип.
- Установите курсор мыши на границу области.
- Нажмите левую кнопку мыши и потяните в нужную сторону.
- Отпустите кнопку мыши.
Замечание. Если вы установите курсор мыши на угол области, то при движении мыши будут одновременно изменяться вертикальная и горизонтальная границы области.
- На всплывающей панели инструментов для областей типа Текст или Картинка выберите инструмент / .
- Установите курсор мыши внутри области и выделите часть изображения в прямоугольник. Данный прямоугольник будет добавлен к области или удален из нее.
- При необходимости передвиньте границу области.
- Указанные инструменты применяются только для областей типа Текст и Картинка. Нельзя добавить/удалить прямоугольную часть области для таблицы или штрих-кода.
- Вы также можете изменять границы области, добавляя на них новые узлы (точки разбиения). Получившиеся отрезки можно перемещать мышью в любом направлении. Чтобы добавить новый узел, подведите курсор, удерживая клавиши Ctrl+Shift, к нужной точке границы (курсор при этом примет форму перекрестия) и щелкните мышью. На границе области появится новый узел.
- Выберите один из инструментов , или на панели окна Изображение и, удерживая клавишу Ctrl, щелкните мышью на требуемых областях. Чтобы отменить выделение уже выбранной области щелкните на ней повторно.
- Выберите область и, удерживая клавишу Ctrl, мышью переместите область.
- В меню Области выберите пункт Перенумеровать области.
- Выделите области в том порядке, в котором вы хотите видеть их содержимое в выходном документе.
Замечание. Автоматическая нумерация областей при анализе страниц осуществляется слева направо независимо от направления текста на изображении.
- Выберите инструмент и щелкните на область, которую вы хотите удалить.
- Выделите области, которые вы хотите удалить, затем в контекстном меню выберите пункт Удалить область.
- Выделите области, которые вы хотите удалить, затем нажмите клавишу Delete.
Для того чтобы удалить все области:
- Выберите пункт Удалить все области и текст в контекстном меню окна Изображение.
Внимание! Если вы удаляете область с уже распознанного изображения, то одновременно с этим в окне Текст удаляется текст, соответствующий этой области.
- На панели Свойства области (контекстное меню области>Свойства области) выберите направление текста в выпадающем списке Ориентация.
Подробнее о редактировании свойств текста в текстовых областях см. в статье «Как отредактировать свойства текста».
"Если настройки распознавания настроены правильно, то это дает возможность практически сразу же получить качественный документ, подходящий для последующего редактирования. Выбор пар-ров находится в зависимости от того, каким образом Вы собираетесь пользоваться распознанным документом. Необходимые нужно выбирать на закладке Распознать диалогового окна Опции. Обратите внимание: Распознавание страничек, добавленных в файл файн ридер, работает в автоматическом режиме с установленными параметрами программы. У вас есть возможность выполнить отключение автоматического анализа и распознавания добавленных изображений. Для этого в диалоговом окне Опции нужно перайти на закладку Сканировать/Открыть. Примечание. Во время изменения языка распознавания, выделения областей ручками, либо же изменения других параметров файн ридер, то процесс распознвания требуется запустить снова.
скачать абби файн ридер с ключом
abbyy finereader скачать: Режим распознавания
В файн ридер можно выбрать либо Тщательное распознавание, либо Быстрое распознавание.
Первый режим пригоден для распознавания любых документов, включая таблицы с цветными ячейками и таблицы без линий сетки. Этот режим занимает большое количество времени.
Второй же режим используется для того чтобы обрабатывать большие объемы документов с хорошим качеством печати и простым оформлением.
Файн ридер: Стереть область изображения
Когда Вы желаете исключить какой-то сегмент текста из зоны распознавания или у Вас на картинке имеются огромные фрагменты мусора, то у вас есть возможность стереть подобные участки.
Файн ридер: Распознавание табличек
Вы можете выбрать требуемый для данного файла метод распознавания табличек.
Искать таблички с однозначно заданными разделителями. Данную опцию нужно включать, дабы в виде таблицы были распознаны лишь таблицы, которые имеют черные разделители.
Во всякой ячейке таблички не больше одной строчки текста. Данную опцию нужно включать, дабы в каждую ячейку таблицы в момент распознавания помещалось не более одной строки текста. В противном случае ячейки таблички обычно содержат несколько текстовых строк, другими словами они являются многострочными.
Систему распознавания текста в FineReader можно описать очень просто.
У нас есть страница с текстом, мы разбираем ее на текстовые блоки, затем блоки разбираем на отдельные строчки, строчки на слова, слова на буквы, буквы распознаем, дальше по цепочке собираем все обратно в текст страницы.
Выглядит очень просто, но дьявол, как обычно, кроется в деталях.
Про уровень от документа до строки текста поговорим как-нибудь в следующий раз. Это большая система, в которой есть много своих сложностей. В качестве некоторого введения, пожалуй, можно оставить здесь вот такую иллюстрацию к алгоритму выделения строк.
В этой статье мы начнём рассказ про распознавание текста от уровня строки и ниже.
Небольшое предупреждение: система распознавания FineReader – очень большая и постоянно дорабатывается в течение многих лет. Описывать эту систему целиком со всеми ее нюансами, во-первых, лучше кодом, во-вторых, займет очень-очень много места, в-третьих, почитайте это. Поэтому к написанному далее рекомендуем относиться как к некой очень обобщенной теории, стоящей за практической системой. То есть общие идеи и направления в технологии примерно похожи на правду, но чтобы понять до мелочей, что же там на практике происходит, лучше не читать эту статью, а работать у нас над разработкой этой системы.
Граф линейного деления
Итак, у нас есть черно-белое изображение строки текста. На самом деле изображение, конечно, серое или цветное, а черно-белым становится после бинаризации (про бинаризацию тоже нужно писать отдельную статью, а пока отчасти может помочь вот это).
Так вот, пусть есть черно-белое изображение строки текста. Нужно его поделить на слова, а слова — на символы для распознавания. Базовая идея, как обычно, очевидна – ищем на изображении строки вертикальные белые просветы, а дальше кластеризуем их по ширине: широкие просветы – это пробелы между словами, узкие – между символами.
Идея замечательная, но в реальной жизни ширина пробелов может быть очень неоднозначным показателем, к примеру, для текста с наклоном или неудачного сочетания символов или слипшегося текста.
Решений у проблемы, в общем, два. Решение первое – считать некую «видимую» ширину просветов. Человек может практически любой текст, даже на незнакомом языке, точно поделить на слова, а слова — на символы. Это происходит потому, что мозг фиксирует не вертикальное расстояние между символами, а некий видимый объем пустого пространства между ними. Решение хорошее, мы его, конечно, используем, только работает оно не всегда. К примеру, текст может быть повреждён при сканировании и некоторые нужные просветы могут уменьшиться или, наоборот, сильно увеличиться.
Это приводит нас ко второму решению – графу линейного деления. Идея в следующем – если есть несколько вариантов, где поделить строку на слова, а слова на буквы, то давайте отметим все возможные точки деления, которые мы смогли придумать. Кусок изображения между двумя отмеченными точками будем считать кандидатом буквы (или слова). Вариант графа линейного может быть простым, если текст хороший и нет проблем с определением точек деления или сложным, если изображение было плохое.
Теперь задача. Есть множества вершин графа, нужно найти путь от первой вершины до последней, проходящий через какое-то количество промежуточных вершин (не обязательно все) с наилучшим качеством. Начинаем думать, что это напоминает. Вспоминаем курс оптимального управления из института, понимаем, что это подозрительно похоже на задачи динамического программирования.
Давайте подумаем, что нам нужно, чтобы алгоритм перебора всех вариантов не взорвался.
Для каждой дуги в графе нужно определить её качество. Если мы работаем с графом линейного деления слова на символы, то каждая дуга у нас – это символ. В роли качества дуги мы используем уверенность распознавания символа (как её посчитать — поговорим позднее). А если работаем с ГЛД на уровне строки, то каждая дуга этого ГЛД – вариант распознавания слова, который в свою очередь был получен из символьного графа. То есть нам нужно уметь оценивать общее качество полного пути в графе линейного деления.
Качество полного пути в графе мы будем определять как сумму качества всех дуг МИНУС штраф за весь вариант. Почему именно минус? Это дает нам возможность быстро оценить максимально возможное качество варианта пути по сумме качества дуг этого пути, а это значит, что большинство вариантов мы будем отсекать еще до подсчета общего качества варианта.
Таким образом, для ГЛД мы приходим к стандартному алгоритму динамического программирования – находим точки линейного деления, строим путь от начала до конца по дугам с наибольшим качеством, высчитываем итоговую стоимость построенного варианта. А дальше перебираем пути в ГЛД в порядке уменьшения суммарного качества элементов с постоянным обновлением найденного лучшего варианта, пока не поймем, что все необработанные варианты заведомо хуже, чем текущий лучший вариант.
Гипотезы изображения
Прежде чем мы спустимся на уровень распознавания отдельных слов, у нас есть еще одна тема, которая не обсуждалась, – гипотезы изображения фрагмента.
Идея в следующем – у нас есть изображение текста, с которым мы собираемся работать. Очень хочется все изображения обрабатывать одинаковым образом, но правда в том, что в реальном мире изображения все разные – они могут быть получены из разных источников, они могут быть разного качества, они могут быть по-разному отсканированы.
С одной стороны, кажется, что разнообразие возможных искажений должно быть очень велико, но если начать разбираться, обнаруживается только ограниченный набор возможных искажений. Поэтому мы используем систему гипотез текста.
- Быстрый способ выяснить, применима ли данная гипотеза к текущему изображению, причем сделать это только на основе характеристик изображения, до распознавания.
- Метод для исправления на изображении проблем конкретной гипотезы.
- Критерий качества правильности выбора гипотезы по итогам распознавания изображения, плюс, возможно, рекомендации для следующих гипотез.
На изображении выше можно увидеть гипотезы для различной бинаризации и контрастности исходного изображения.
В результате обработка гипотез выглядит так:
На изображениях показано последовательное применение гипотез белого шума и сжатого текста.
Оценка качества слова
Остались нераскрытыми две важных темы: оценка общего качества распознавания слова и распознавание символов. Распознавание символа – тема на несколько разделов, поэтому сначала обсудим оценку качества распознанного слова.
Итак, у нас есть некий вариант распознавания слова. Первое, что приходит на ум, – проверить его по словарю и дать ему штраф, если оно в словаре не нашлось. Идея хорошая, но не все языки есть словари, не все слова в тексте могут быть словарными (имена собственные, к примеру), и, если уж мы углубляемся в сложности, – не всё в тексте вообще может быть словами в стандартном понимании этого термина.
Чуть раньше мы говорили, что любые оценки за слово целиком должны быть отрицательными, чтобы у нас нормально работал перебор по ГЛД. Сейчас нам это начнет активно мешать, поэтому давайте зафиксируем, что у нас есть некая заранее определенная максимальная положительная оценка слова, слову мы даем положительные бонусы, а финальный отрицательный штраф определяем как разность набранных бонусов и максимальной оценки.
Ок, пусть мы распознаём фразу «Вася прилетает рейсом SU106 в 23.55 20/07/2015». Мы, конечно, можем оценивать здесь качество каждого слова по общим правилам, но это будет достаточно странно. Скажем, и SU106 и Вася вполне понятные в данной строке слова, но очевидно, что правила образования у них разные и, по идее, верификация тоже должна быть разной
Отсюда появляется идея моделей. Модель слова – это некое обобщенное описание конкретного типа слов в языке. У нас, конечно, будет модель стандартного слова в языке, но также будут модели чисел, аббревиатур, дат, сокращений, имен собственных, URL и т.д.
Что нам дают модели и как их нормально использовать? Фактически мы обращаем в обратную сторону нашу систему проверки слова – вместо того чтобы для варианта слова долго узнавать, что же это такое, мы даем каждой модели решать, подходит ли ей данный вариант слова и насколько хорошо она его оценивает.
Из самой постановки задачи формируются наши требования к архитектуре модели. Модель должна уметь:
- Быстро сказать, подходит или нет для нее вариант слова. Стандартная проверка включает все проверки разрешенных наборов символов для каждой буквы в слове. Скажем, в словарном слове пунктуация должна быть только в начале или в конце, а в середине слова набор пунктуации сильно ограничен, и сочетание пунктуации сильно ограничено (супер-способность?!), а в модели числа в основном должны быть цифры, кроме разрешенного в данном языке символьного суффикса (10-ое, 10 th ).
- Уметь по своей внутренней логике оценить качество распознаваемого слова. К примеру, слово из словаря должно явно оцениваться выше, чем просто набор символов.
При оценке качества модели не стоит забывать, что наша задача в итоге – сравнивать модели между собой, поэтому их оценки должны быть согласованы. Более-менее нормальный способ этого добиться – это относиться к оценке модели как к оценке вероятности построить слово по данной модели. Скажем, словарных слов в обычном языке достаточно много, и получить словарное слово при неправильном распознавании несложно. А вот собрать нормальный, подходящий под все правила телефонный номер уже гораздо сложнее.
В итоге при распознавании некоторого фрагмента строки у нас получается примерно такая схема:
Отдельным пунктом при оценке вариантов распознавания идут дополнительные эмпирические штрафы, не вписывающиеся ни в концепцию моделей, ни в оценку распознавания. Скажем, «ООО Рога и копыта» и «000 Рога и копыта» выглядят как два одинаково нормальных варианта (особенно если в шрифте 0 (ноль) и О (буква О) слабо отличаются пропорциями). Но при этом достаточно очевидно, какой вариант распознавания должен быть правильным. Для таких небольших конкретных знаний о мире сделана отдельная система правил, которая может дополнительно штрафовать не понравившиеся ей варианты после оценок моделей.
Про само распознавание поговорим уже в следующей части этого поста. Подписывайтесь на блог компании, чтобы не пропустить :)
Файн ридер: Пользовательские языки и эталоны
Вы можете сохранить настройки пользовательских языков и эталонов или загрузить настройки, которые были ранее сохранены. Для выполнения сохранения файлов эталонов и языков нужно кликнуть на Сохранить в файл… Далее указать наименование файла и кликните Сохранить. Для выполнения загрузки файлов эталонов и языков нужно кликнуть на загружать из файла… В открывшемся окне нужно выбрать документ формата FBT и кликните Открыть."
Верно установленные настройки распознавания помогут получить качественный документ, подходящий для последующего редактирования. Выбор пар-ров находится в зависимости от сложности и объема оригинала документа, а также от его применения.
Избрать необходимые настройки у вас есть возможность на закладке Распознавать диалогового окна Опции. Распознавание страничек, добавленных в файн ридер, работает в автоматическом режиме с текущими параметрами программы. У вас есть возможность выполнить отключение автоматического анализа и распознавания добавленных графических файлов на закладке Сканировать/Открыть диалогового окна Опции.
Файн ридер: Увеличить/Уменьшить масштаб изображения
На панели Изображение нужно выбрать соответствующее инструментальное средство и кликнуть мышкой на картинке.
Читайте также: