Abbyy распознавание буфера обмена
Сегодня мы познакомим Вас с программой ABBYY Screenshot Reader которая способна создавать снимки разных областей экрана: отдельной выделенной области, всего экрана монитора, окна или области открытого приложения. И хотя это стандартная функция многих программ подобного рода, но в данном приложении есть свои уникальные возможности.
Помимо сохранения скриншотов, ABBYY Screenshot Reader может распознавать текст на изображениях и сохранять его в программе редактирования. Например, надо извлечь часть текста из файла PDF или скопировать текст из видео файла, который просматривается во время воспроизведения видео. Простым способом это сделать не получится - воспользуйтесь услугами программы ABBYY Screenshot Reader. А еще программа способна делать снимки экрана с задержкой по времени.
Основные возможности ABBYY Screenshot Reader:
- Создание снимков любой части экрана
- Распознавание текста из выбранной области экрана
- Поддержка графических форматов для сохранения изображений: JPEG (JPG, JPEG ), PNG, Bitmap (BMP, DIB, RLE)
- Форматы сохранения файлов: TXT, RTF, DOC, CSV, XLS, ODT
- Распознавание некоторых языков программирования (С/С++, Basic, Pascal, JAVA и т. д.), цифр и простых химических формул
- Многоязычный интерфейс программы (24 языка)
- Распознавание текста на 188 языках
Предупредим, что качество исходного документа или файла имеет большое значение при использовании функции распознавания. Возможны ошибки в распознанном тексте, вставленный в редактируемый формат. Поэтому, проверяйте текст на наличие ошибок.
Настройки ABBYY Screenshot Reader
В ABBYY Screenshot Reader простой и понятный интерфейс. Слева в окне программы находятся параметры для выбора необходимых действий, справа находится кнопка «Сделать снимок».
В строке «Снимок» можно выбрать область экрана для создания скриншота:
- Области — снимок области экрана, произвольно выбранной пользователем
- Окна — снимок окна запущенного приложения, части окна приложения
- Экрана — снимок всего экрана монитора
- Экрана с отсрочкой — снимок экрана с отсрочкой по времени в 5 секунд
В строке «Язык» по умолчанию стоит опция «Авто». Программа самостоятельно определяет язык распознавания, но при необходимости, пользователь может выбрать необходимый язык.
В строке «Передать» необходимо выбрать, куда передать распознанный текст или скриншот:
- Текст в буфер обмена — сохранение распознанного теста в буфер обмена
- Текст в Microsoft Word — сохранение распознанного текста в документе Word
- Текст в файл — сохранение распознанного текста в файл
- Таблицу в буфер обмена — сохранение распознанной таблицы в буфер обмена
- Таблицу в Microsoft Excel — сохранение распознанной таблицы в таблицу Excel
- Таблицу в файл — сохранение распознанной таблицы в файл
- Изображение в буфер обмена — сохранение изображения в буфер обмена
- Изображение в файл — сохранение изображение в файл
- Изображение по электронной почте — сохранение и отправка изображения по электронной почте
При выборе сохранение в файл, открывается диалоговое окно, в котором необходимо указать имя файла и формат файла для сохранения на жестком диске.
Создание снимка экрана в ABBYY Screenshot Reader
Следует выбрать нужные настройки в окне программы ABBYY Screenshot Reader перед созданием снимка экрана: что следует захватить на экране и куда передать изображение. В данном случае выбрали: Снимок области экрана и Передачу изображения в буфер обмена.
Для создания скриншота, нужно нажать на кнопку «Сделать снимок», или на клавиши клавиатуры «Alt» + «Enter».
С помощью курсора мыши, нажимая на левую кнопку мыши, выделите необходимую область на экране монитора. Для сохранения снимка, нужно нажать на ссылку «Сделать снимок», расположенную под выделенной областью, или два раза кликнуть левой кнопкой мыши.
Для отмены захвата экрана, нажмите на клавишу «Esc», или кликните правой кнопкой мыши. После чего остается лишь вставить скриншот из буфера обмена в окно программы, например, в текстовый редактор Word.
Распознавание текста в ABBYY Screenshot Reader
Чтобы получить тест из изображения выполним вполне простые и несложные действия в ABBYY Screenshot Reader:
1) Откройте файл, документ, программу.
2) Сделайте при помощи ABBYY Screenshot Reader снимок нужной области.
3) Сохраните распознанный текст в редактируемом формате.
Для распознавания текста выполняем следующее действия: извлекаем текст в буфер обмена, делаем снимок экрана.
Открываем программу Блокнот, а затем вставляем распознанный текст в окно текстового редактора.
Для сохранения таблицы в Microsoft Excel выполняем следующее действия.
Например, на YouTube нашли обучающее видео по работе с таблицами Excel. Выделили область на видео, а после сделали снимок экрана.
Происходит процесс распознавания и сохранения текста в ABBYY Screenshot Reader.
Запускаем редактор электронных таблиц Excel, в котором откроется скопированная таблица из видео.
В современном мире зачастую работа происходит на ноутбуке, планшете и смартфоне. Вы когда-нибудь перекидывали тексты и картинки на почту, чтобы переместить на другое устройство? Если да, то поймёте о чём мы. Сегодня в Mobile Monday расскажем про общий буфер обмена.
Android-совет. Общий буфер обмена
На Android-устройствах, к сожалению, нет аналогичной «яблочной» системы общего буфера обмена. Но облачный буфер возможен между Android и Windows/Mac устройствами.
Для этого можете воспользоваться программой ALT-C. Удобная утилита, которая представляет собой приложения, устанавливаемые на смартфон/планшет и лэптоп/ПК. Чтобы ALT-C вступила в действие:
Готово! Теперь вы можете привычным способом копировать и вставлять текст. Копируете на компьютере, вставляете на Android-девайс и наоборот.
А ещё приложение хранит в буфере до 50 последних скопированных элементов.
ABBYY-совет. Документы всегда под рукой
Вы можете сделать свою жизнь чуточку проще с ABBYY FineScanner. Уделите несколько минут времени дома и отсканируйте все ваши документы, которые могут срочно понадобиться. Это могут быть паспорт, водительские права, СНИЛС, свидетельство о регистрации ИП, если вы предприниматель, и многое другое. Не забудьте проставить теги, по которым за мгновение найдете нужный документ. Это просто: тапните на иконку дополнительных настроек рядом с документом и выберите “Свойства”.
А если у вас уже были сфотографированы документы, их можно импортировать в FineScanner, а на iPad можно также воспользоваться Drag&Drop. Подробнее про импорт в FineScanner читайте в ABBYY-совете. Таким образом можно удалить лишний фон и сконвертировать в PDF, например!
Из первых рук. Совет от коллеги
Автор сегодняшней рубрики Ольга Титова, Руководитель мобильных продуктов для разработчиков
Ещё год назад я смотрела на все сайклстудии и не понимала, зачем туда люди ходят. Какой может быть интерес в том, чтобы собираться по 30 человек и просто крутить педали?! Но прошлой зимой подруга уговорила меня попробовать и это стало началом регулярных тренировок.
Оказалось, что сайклинг - это не только крутить педали. Ещё нужно работать с сопротивлением (т.е. ты то в гору едешь, то по прямой), вставать, отжиматься от руля и делать упражнения с гантелями. И все это в такт музыки.
Честно признаюсь, к середине первой тренировки мне было так тяжело, что я хотела сбежать, но не смогла открепить специальные ботинки от байка :( В итоге, осталась, поймала настроение и открыла второе дыхание.
ABBYY Screenshot Reader являет собой далеко не стандартный скриншоттер с выбором областей фотографирования экрана монитора, встроенным графическим редактором и дополнительным функционалом типа расшаривания снимков в соцсетях или их публикации на бесплатных фотохостингах. Программа предлагает весьма скудный функционал касаемо части фотографирования экрана. Имеются лишь базовые функции создания снимков отдельных областей – всего экрана, отдельно окон, отдельно прямоугольных областей.
Отсрочка создания снимка экрана не настраивается, а предусматривает лишь предустановленные 5 секунд для подготовки. Нет ни создания снимков со скроллингом, ни встроенного графического редактора, ни возможности снятия видео с экрана монитора, нет никаких дополнительных коммуникационных функций.
Однако ABBYY Screenshot Reader все же может быть интересен многим пользователям – ведь минимальный набор инструментов скриншоттера дополняется весьма уникальной функцией попутного преобразования снимков экрана в текст. В программу внедрена технология оптического распознавания символов компании ABBYY, специализирующейся на создании программного обеспечения для конвертирования изображений в текст. В частности, для распознавания текста на рынке софта довольно популярным продуктом является ABBYY FineReader (читайте подробнее о программах для распознавания текста с картинки). Его возможности преобразования изображений в текст в формате скриншоттера и представлены в отдельной программе ABBYY Screenshot Reader.
Будь это PDF-книга, будь это онлайн-библиотека или обычный сайт, где запрещено копирование отображаемых материалов, будь это любая печатная информация в формате изображений, презентаций, мультимедиа – проблема легко решается созданием снимка нужной части экрана и его конвертированием в текст «на лету».
ABBYY Screenshot Reader, как и прочие программные продукты этого разработчика, является платной. На сайте компании доступна пробная версия программы, которую можно бесплатно тестировать 15 дней.
После установки пробной версии ABBYY Screenshot Reader при первом ее запуске необходимо выбрать «Продолжить».
Ни один снимок экрана программа не сделает, пока не будет осуществлена регистрация пробной версии. Проще всего это сделать, выбрав первый предлагаемый способ регистрации – через Интернет.
После заполнения необходимых полей формы регистрации программа заработает.
Как и любой скриншоттер, Screenshot Reader находится в системном трее, откуда можно оперативно вызвать окно с функциями программы. Для создания обычного снимка экрана в окне программы необходимо выбрать область фотографирования и дальнейшую участь изображения – копирование в буфер обмена или сохранение в файл. Если в системе установлен почтовый клиент, тогда можно воспользоваться возможностью формирования снимка экрана в качестве вложения электронного письма. Далее, собственно, что и остается, так это нажать кнопку фотографирования экрана.
ABBYY Screenshot Reader сохраняет скриншоты в стандартные форматы файлов изображений - BMP, JPG, PNG.
Чтобы инструмент распознал текст с экрана, в его окне необходимо выставить нужный язык и выбрать способ вывода данных из выпадающего списка графы «Передать». Это копирование распознанного текста или таблиц в буфер обмена, а также непосредственное их сохранение в файл. А чтобы программа не обрабатывала лишние элементы, в качестве объекта съемки лучше выбрать либо окно, либо прямоугольную область экрана.
Сохранение текста и таблиц возможно в TXT- и RTF-файлы, а также в файлы Microsoft Word и Excel.
Пару секунд – и скриншот преобразится в текст.
ABBYY Screenshot Reader умеет распознавать тексты на 179 языках, и, если имеем дело с языком, отличным от русского и английского, предустановленных в окне программы, его можно установить, выбрав из списка поддерживаемых.
Инструмент настолько минималистичен, что в его настройках вы не найдете ничего более, чем возможность крепления поверх остальных окон, снятие программы с автозагрузки, включение и отключение звуков.
Возможно, окончательная победа цифровых технологий уже не за горами, но сегодня мы все еще находимся в переходном периоде и вынуждены приводить разнородные потоки и источники информации к «общему знаменателю». Оцифровка печатных материалов (OCR, Optical Character Recognition), одна из наиболее типичных задач, хорошо знакома отечественным пользователям и на просторах СНГ однозначно ассоциируется с ABBYY FineReader. Популярность этого продукта вполне заслуженна, а компания-разработчик не почивает на лаврах и неутомимо отслеживает современные тенденции и развивает свое детище. Так, в девятой версии FineReader стал работать не с отдельными блоками или даже страницами, а с целыми документами (ADRT, Adaptive Document Recognition Technology), что позволило ему гораздо правильнее воссоздавать их структуру, включая такие элементы как таблицы, колонтитулы и пр. В десятой приоритет сместился в сторону качественной обработки изображений, полученных не со сканеров, а с цифровых фотокамер. Популярность последних продолжает расти, так, согласно информации ABBYY, фотокамеры для оцифровки печатной продукции (учебников и научной литературы, юридических и деловых документов, газет и журналов, анкет и пр.) применяют более 30% пользователей. Представленный в конце августа FineReader 11 также имеет немало полезных нововведений, хотя выделить главное направление довольно сложно. Скорее, в нынешней версии разработчики сосредоточились на совершенствовании накопленных технологий и, конечно, на повышении удобства работы.
Общая информация
На текущий момент доступны две редакции FineReader 11 — Professional и Corporate. Home пока осталась в 10-й версии. На сайте ABBYY есть довольно объемная таблица с описанием возможностей всех трех редакций, хотя проводить такое сравнение не совсем корректно — наверняка со временем появится и FineReader 11 Home Edition, который сократит отставание от старших собратьев. Однако принципиально картину это не изменит — функциональность редакции Home сильно урезана. Так, отсутствуют возможности обработки документов PDF, DjVu, XPS; распознавание штрихкодов; встроенный редактор; вывод во многие форматы; поддержка многоядерных процессоров и пр. Конечно, кому-то базовой функциональности будет достаточно, особенно для эпизодического применения, но в общем случае сниженная стоимость не компенсирует потери.
К примеру, последние версии FineReader характеризуются отличной, практически линейной масштабируемостью, т. е. на двух вычислительных ядрах программа будет работать почти вдвое быстрее чем на одном, на трех — втрое, на четырех — вчетверо и т. д. Заглянув в Task Manager после запуска редакции Professional или Corporate, вы увидите несколько процессов FineExec, ответственных за обработку изображений, — их будет два для двухъядерного процессора или на единицу меньше числа ядер, если последних больше двух (одно резервируется для интерфейса программы и других системных задач). А при обработке многостраничного документа будет отлично заметно, как одновременно распознаются несколько страниц. В общем, это весомый плюс, особенно при большой нагрузке.
Рис. 1. Каждому вычислительному ядру — свой рабочий процесс. За счет этого обеспечивается отличная масштабируемость и максимальная утилизация ресурсов.
Однако между ними также имеется существенная разница. Прежде всего, редакция Corporate предназначена для использования в организациях и, соответственно, обеспечивает гибкое управление лицензиями. Последние бывают двух основных типов: per-seat, закрепляемая за конкретным компьютером (т. е. по сути аналогичная персональной лицензии), и concurrent (распределенная), которую допускается использовать на любом компьютере. Распределенные лицензии позволяют установить FineReader Corporate на произвольном числе рабочих мест, при этом сервер лицензий будет автоматически выдавать имеющиеся лицензии при запуске клиентской программы и вновь забирать при завершении. Если корректно оценить потребность сотрудников в OCR (а большинство наверняка будет использовать FineReader лишь от случая к случаю), то комбинацией per-seat и concurrent лицензий можно добиться существенной экономии по сравнению с приобретением для всех персональных продуктов — даже при том, что корпоративные лицензии дороже: 4180-3200 р. за per-seat и 6260-5330 р. за concurrent (в зависимости от пакета лицензий) против 3590 р. за электронную поставку FineReader 11 Professional.
- возможность создавать пользовательские сценарии, аналогичные встроенным типовым задачам;
- режим совместной работы с одним документом, когда несколько пользователей могут параллельно выполнять различные действия;
- передачу документов на серверы SharePoint;
- режим Цензура, позволяющий в буквальном смысле вымарать лишнюю информацию, причем, в документах, которые поддерживают графический и текстовый слои, она будет удалена из обоих;
- программу ABBYY Hot Folder, обеспечивающую автоматическую обработку документов, поступающих в папку, почтовый ящик или на FTP-сервер;
- программу ABBYY Business Card Reader для преобразования визиток в электронные контакты.
Рис. 2. Редакция Corporate предлагает не только специфическое лицензирование, но и ряд дополнительных функций. К примеру только в ней можно создавать дополнительные сценарии работы (Мои задачи)
Системные требования и установка
- операционная система Windows XP, Windows Server 2003 или более новая;
- процессор с частотой от 1 ГГц;
- объем оперативной памяти не менее 1 ГБ плюс по 512 МБ на каждое вычислительное ядро;
- 700 МБ дискового пространства непосредственно для установки и столько же для рабочих файлов.
Программа более чувствительна к производительности процессора, ресурсы которого обычно задействуются на все 100%, чем к объему оперативной памяти.
FineReader умеет напрямую работать со сканерами и МФУ, поддерживающими интерфейсы TWAIN или WIA. Изображения оригиналов можно также получать с помощью цифровых фотокамер, минимальным требованием является 2 Мп на лист формата A4, рекомендуется 5 Мп. Однако на деле более важно наличие автоматической или ручной фокусировки, никакие мегапиксели не помогут встроенным в телефон камерам с фиксированным фокусом. Естественно, съемку крайне желательно вести при хорошем освещении, с помощью штатива, отрегулировав баланс белого и т. д. Хотя встроенные в FineReader 11 инструменты способны скорректировать некоторые недочеты цифровых снимков, сильно рассчитывать на них не стоит.
Установка FineReader 11 довольно проста — настолько, что даже не описана в руководстве пользователя. Инсталляционная процедура запустится на языке, указанном в системных настройках, но на первом же экране можно выбрать нужную локализацию. Выборочная установка позволит отказаться от некоторых инструментов и функций, вроде ABBYY Screenshot Reader (для распознавания снимков экрана) и интеграции в сторонние приложения. Но все это относится к клиентской части, в основном, к редакции Professional. FineReader 11 Corporate в общем случае предполагает сетевое развертывание, описание которого приведено в руководстве администратора. С дистрибутивного диска вначале нужно установить сервер и менеджер лицензий. Последний представляет собой управляющую утилиту и также может размещаться на любой рабочей станции. Сервер лицензий на самом деле не требует серверной ОС, а учитывая минимальную вычислительную нагрузку, его вполне разумно установить в виртуальной машине. Принципиально только соединение с Интернетом, так как с помощью менеджера лицензий необходимо регистрировать и активировать имеющиеся лицензии.
Для установки FineReader 11 Corporate на рабочие станции есть несколько способов, самый простой (но не всегда самый эффективный) — формирование административного дистрибутива в папке общего доступа и запуск инсталляции на каждом рабочим месте. При этом все параметры сервера лицензий будут прописаны автоматически, так что никаких дополнительных действий не понадобится. При использовании per-seat лицензий FineReader 11 Corporate можно устанавливать и локально.
В дальнейшем менеджер лицензий позволяет объединять лицензии в пулы, закреплять за группами пользователей, принудительно назначать и забирать их и т. д. Но в простых вариантах (к примеру, только concurrent лицензии и одинаковые потребности у всех пользователей) в этом даже нет необходимости, все будет происходить автоматически.
Рис. 4. Менеджер лицензий позволяет контролировать использование лицензий и, при необходимости, управлять их распределением
Работа с FineReader 11
Несмотря на то, что за ABBYY FineReader стоит целая отрасль искусственного интеллекта и весьма изощренные алгоритмы, сама по себе программа достаточно проста и интуитивна. По сути она решает одну единственную задачу — распознавание текста, соответственно, в ней нет изобилия инструментов и сложных меню, хотя все необходимые опции и средства появляются при работе с конкретными объектами, будь то изображение, выделенный блок или распознанный текст. За последнее время интерфейс программы практически не менялся (никаких «лент») и это хорошо, так как пользователи предыдущих версий найдут привычные инструменты на своих местах. Работать с FineReader можно двумя основными способами: либо воспользоваться одним из типовых сценариев, к примеру, со сканера сразу в EPUB, либо проделать основные операции вручную. В любом случае обработка документов состоит из четырех основных этапов: получение изображения, его распознавание, проверка, сохранение результата, — и на каждом доступно некоторое количество опций и дополнительных возможностей, способных существенно повлиять на качество результата. С опытом каждый пользователь отработает собственный стиль взаимодействия с FineReader, но для начала вполне разумно полагаться на автоматические настройки, тем более, что программа оповестит о всех проблемах, скажем, о необходимости отсканировать с большим разрешением оригиналы, на которых имеется мелкий шрифт. Кроме того, в рабочем документе отмечаются все неуверенно распознанные символы, так что их можно будет быстро проверить, в том числе, в специальном окне с укрупненным фрагментом оригинала. В большинстве случаев FineReader и сам примет правильные решения, особенно если сомнения возникают в известных словах, в противном случае имеет смысл добавить слово в словарь и повторить распознавание. При возникновении большого количества ошибок следует обратить внимание на качество оригинала и его изображения — это самый важный фактор, нивелировать который в дальнейшем практически невозможно.
Рис. 5. Выбранный режим может сильно повлиять на результат, причем программа не восстанавливает стандартные настройки — перед сменой задания необходимо это делать самостоятельно
Для сравнения доступных режимов обработки был проведен небольшой тест. В качестве оригинала был взят 10-страничный, отпечатанный на цветном принтере материал со сравнительно сложной версткой, но почти без иллюстраций. Такое задание можно считать достаточно типичным, так как главной задачей программ распознавания является именно извлечение текста. Затем в опциях FineReader 11 была отключена автоматическая обработка и сформированы три документа: один в черно-белом режиме и два в цветном, отсканированные в цвете и в оттенках серого. Сканирование выполнялось на МФУ с разрешением 300 dpi, что также является типичной ситуацией. Все прочие настройки FineReader 11 не менялись, в частности, использовался тщательный режим собственно распознавания. Серии операций по распознаванию проводились на компьютере с двухъядерным процессором, усредненные результаты можно видеть в следующей таблице:
Очевидно, ускорение обработки в черно-белом режиме зависит от характера исходного документа и качества отпечатков. На самом деле экономия времени начнется еще на этапе сканирования, которое в цвете осуществляется намного дольше. Очень большая разница также наблюдается на первом «холодном» прогоне, что, вероятно, связано с размерами изображений. При повторных обработках скорости выравниваются, хотя разница все же присутствует, пусть и не такая большая, как обещано разработчиками. Естественно, в цветном режиме ABBYY FineReader требуется больше оперативной памяти, а вот процессор во всех случаях задействовался фактически одинаково — на 100% в процессе обработки, и несколько ниже при дополнительных операциях (сохранении и т. д.).
Рис. 7. Специальный режим проверки позволяет оперативно просмотреть все неуверенно распознанные символы и при необходимости внести коррективы или занести в словарь новые слова
Несмотря на достаточно высокое качество оригинала, в черно-белом режиме значительно большее число символов было распознано неуверенно. Однако, львиная доля их приходилась на фрагменты с изображениями. При этом на одной чисто текстовой странице лучшее качество распознавания оказалось именно в черно-белом режиме. Сканирование в оттенках серого считается ABBYY FineReader 11 оптимальным для OCR, с чем, пожалуй, можно согласиться, глядя на результаты теста. По физическим характеристикам, в том числе скорости, серый режим близок к черно-белому, а по качеству распознавания — к цветному. Справедливости ради, отметим, что результаты в черно-белом режиме было несложно значительно улучшить, предварительно разметив иллюстрации или добавив в словарь несколько часто встречающихся в документе аббревиатур (в них программа ошибалась наиболее часто). Тем не менее, цветной режим со сканированием в оттенках серого действительно выглядит не компромиссом, а оптимальным выбором.
Дополнительные возможности
Несмотря на прозрачность работы и наличие типовых сценариев, ABBYY FineReader 11 имеет в своем арсенале и достаточно тонкие инструменты, которые при умелом использовании существенно могут облегчить жизнь пользователям. К примеру, программу можно обучить для работы с декоративными шрифтами или специальными символами (вначале, конечно, следует убедиться, что она с ними не справляется). Хотя это довольно трудоемкий процесс, и применять его целесообразно только в исключительных случаях. Другим примером могут служить шаблоны областей для обработки однотипных документов. Достаточно проанализировать один образец, скорректировать его разметку, выделить нужные блоки и сохранить шаблон. В дальнейшем его можно будет применять к аналогичным документам, не повторяя рутинную работу. В полной мере возможности этой функции раскрываются при использовании вместе с Hot Folder для автоматической обработки документов.
Рис. 8. ABBYY Hot Folder позволяет настроить все параметры задания, чтобы в дальнейшем распознавание проходило в полностью автоматическом режиме
ABBYY Hot Folder, в свою очередь, является одним из дополнительных компонентов FineReader 11 (только редакции Corporate). Это специализированный планировщик, управляющий заданиями для автоматической обработки документов. По указанному расписанию он может проверять один из типов источников (папки, ftp-серверы, почтовые ящики, документы ABBYY FineReader, которые сами по себе также являются папками) и инициировать их обработку с предварительно настроенными параметрами. Типичное применение Hot Folder — централизованное распознавание документов, которые вводятся сотрудниками через сетевые МФУ. Как правило такие устройства умеют сохранять отсканированные изображения в папках общего доступа, за которыми как раз и будет следить Hot Folder.
Рис. 9. ABBYY Business Card Reader достаточно уверенно справляется с визитками, несмотря на разницу в их оформлении
Еще одним полезным дополнением FineReader 11 Corporate является ABBYY Business Card Reader — программа для распознавания визитных карточек. В ней все настройки и OCR-алгоритмы адаптированы для решения исключительно своей узкой задачи, пользователь может лишь скорректировать используемые языки. Разом можно сканировать несколько визиток, главное — одинаково их позиционировать в сканере. Для отличных результатов достаточно разрешения в 600 dpi, при этом не только корректно распознаются мелкие шрифты, но и достаточно уверенно идентифицируются различные поля: имя, фамилия, должность, телефоны, адреса и т. д. Ошибки случаются, в основном, в не совсем стандартных ситуациях, когда, к примеру, длинное название должности занимает сразу две строки. Экспортировать данные можно в файлы vCard или непосредственно в контакты Microsoft Outlook.
Рис. 10. ABBYY Screenshot Reader захватывает указанную часть экрана и распознает в ней текстовую информацию
Наконец, еще одно дополнение — ABBYY Screenshot Reader — присутствует в редакциях и Corporate, и Professional. Как и следует из названия, данная программа распознает информацию на экране компьютера (можно выделять окно или прямоугольную область). Таким образом, к примеру, можно быстро извлечь информацию о программной ошибке для поиска в базе знаний. Результат можно сохранять в файлах распространенных форматов или копировать в буфер обмена.
Резюме
ABBYY FineReader 11 сделал еще несколько шагов к тому, чтобы освободить пользователей от рутины и приблизить нашу жизнь к цифровому будущему. В программе внешняя простота сочетается с мощными алгоритмами, что позволяет даже неподготовленным пользователям добиваться хороших результатов. Все нововведения нынешней версии наверняка будут оценены по достоинству, начиная с повышенной производительности и заканчивая поддержкой популярных форматов электронных книг. Преимущества редакции Corporate также очевидны, хотя, с учетом более высокой стоимости лицензии, ее внедрение требует предварительной оценки реальной потребностей в OCR всех сотрудников.
Систему распознавания текста в FineReader можно описать очень просто.
У нас есть страница с текстом, мы разбираем ее на текстовые блоки, затем блоки разбираем на отдельные строчки, строчки на слова, слова на буквы, буквы распознаем, дальше по цепочке собираем все обратно в текст страницы.
Выглядит очень просто, но дьявол, как обычно, кроется в деталях.
Про уровень от документа до строки текста поговорим как-нибудь в следующий раз. Это большая система, в которой есть много своих сложностей. В качестве некоторого введения, пожалуй, можно оставить здесь вот такую иллюстрацию к алгоритму выделения строк.
В этой статье мы начнём рассказ про распознавание текста от уровня строки и ниже.
Небольшое предупреждение: система распознавания FineReader – очень большая и постоянно дорабатывается в течение многих лет. Описывать эту систему целиком со всеми ее нюансами, во-первых, лучше кодом, во-вторых, займет очень-очень много места, в-третьих, почитайте это. Поэтому к написанному далее рекомендуем относиться как к некой очень обобщенной теории, стоящей за практической системой. То есть общие идеи и направления в технологии примерно похожи на правду, но чтобы понять до мелочей, что же там на практике происходит, лучше не читать эту статью, а работать у нас над разработкой этой системы.
Граф линейного деления
Итак, у нас есть черно-белое изображение строки текста. На самом деле изображение, конечно, серое или цветное, а черно-белым становится после бинаризации (про бинаризацию тоже нужно писать отдельную статью, а пока отчасти может помочь вот это).
Так вот, пусть есть черно-белое изображение строки текста. Нужно его поделить на слова, а слова — на символы для распознавания. Базовая идея, как обычно, очевидна – ищем на изображении строки вертикальные белые просветы, а дальше кластеризуем их по ширине: широкие просветы – это пробелы между словами, узкие – между символами.
Идея замечательная, но в реальной жизни ширина пробелов может быть очень неоднозначным показателем, к примеру, для текста с наклоном или неудачного сочетания символов или слипшегося текста.
Решений у проблемы, в общем, два. Решение первое – считать некую «видимую» ширину просветов. Человек может практически любой текст, даже на незнакомом языке, точно поделить на слова, а слова — на символы. Это происходит потому, что мозг фиксирует не вертикальное расстояние между символами, а некий видимый объем пустого пространства между ними. Решение хорошее, мы его, конечно, используем, только работает оно не всегда. К примеру, текст может быть повреждён при сканировании и некоторые нужные просветы могут уменьшиться или, наоборот, сильно увеличиться.
Это приводит нас ко второму решению – графу линейного деления. Идея в следующем – если есть несколько вариантов, где поделить строку на слова, а слова на буквы, то давайте отметим все возможные точки деления, которые мы смогли придумать. Кусок изображения между двумя отмеченными точками будем считать кандидатом буквы (или слова). Вариант графа линейного может быть простым, если текст хороший и нет проблем с определением точек деления или сложным, если изображение было плохое.
Теперь задача. Есть множества вершин графа, нужно найти путь от первой вершины до последней, проходящий через какое-то количество промежуточных вершин (не обязательно все) с наилучшим качеством. Начинаем думать, что это напоминает. Вспоминаем курс оптимального управления из института, понимаем, что это подозрительно похоже на задачи динамического программирования.
Давайте подумаем, что нам нужно, чтобы алгоритм перебора всех вариантов не взорвался.
Для каждой дуги в графе нужно определить её качество. Если мы работаем с графом линейного деления слова на символы, то каждая дуга у нас – это символ. В роли качества дуги мы используем уверенность распознавания символа (как её посчитать — поговорим позднее). А если работаем с ГЛД на уровне строки, то каждая дуга этого ГЛД – вариант распознавания слова, который в свою очередь был получен из символьного графа. То есть нам нужно уметь оценивать общее качество полного пути в графе линейного деления.
Качество полного пути в графе мы будем определять как сумму качества всех дуг МИНУС штраф за весь вариант. Почему именно минус? Это дает нам возможность быстро оценить максимально возможное качество варианта пути по сумме качества дуг этого пути, а это значит, что большинство вариантов мы будем отсекать еще до подсчета общего качества варианта.
Таким образом, для ГЛД мы приходим к стандартному алгоритму динамического программирования – находим точки линейного деления, строим путь от начала до конца по дугам с наибольшим качеством, высчитываем итоговую стоимость построенного варианта. А дальше перебираем пути в ГЛД в порядке уменьшения суммарного качества элементов с постоянным обновлением найденного лучшего варианта, пока не поймем, что все необработанные варианты заведомо хуже, чем текущий лучший вариант.
Гипотезы изображения
Прежде чем мы спустимся на уровень распознавания отдельных слов, у нас есть еще одна тема, которая не обсуждалась, – гипотезы изображения фрагмента.
Идея в следующем – у нас есть изображение текста, с которым мы собираемся работать. Очень хочется все изображения обрабатывать одинаковым образом, но правда в том, что в реальном мире изображения все разные – они могут быть получены из разных источников, они могут быть разного качества, они могут быть по-разному отсканированы.
С одной стороны, кажется, что разнообразие возможных искажений должно быть очень велико, но если начать разбираться, обнаруживается только ограниченный набор возможных искажений. Поэтому мы используем систему гипотез текста.
- Быстрый способ выяснить, применима ли данная гипотеза к текущему изображению, причем сделать это только на основе характеристик изображения, до распознавания.
- Метод для исправления на изображении проблем конкретной гипотезы.
- Критерий качества правильности выбора гипотезы по итогам распознавания изображения, плюс, возможно, рекомендации для следующих гипотез.
На изображении выше можно увидеть гипотезы для различной бинаризации и контрастности исходного изображения.
В результате обработка гипотез выглядит так:
На изображениях показано последовательное применение гипотез белого шума и сжатого текста.
Оценка качества слова
Остались нераскрытыми две важных темы: оценка общего качества распознавания слова и распознавание символов. Распознавание символа – тема на несколько разделов, поэтому сначала обсудим оценку качества распознанного слова.
Итак, у нас есть некий вариант распознавания слова. Первое, что приходит на ум, – проверить его по словарю и дать ему штраф, если оно в словаре не нашлось. Идея хорошая, но не все языки есть словари, не все слова в тексте могут быть словарными (имена собственные, к примеру), и, если уж мы углубляемся в сложности, – не всё в тексте вообще может быть словами в стандартном понимании этого термина.
Чуть раньше мы говорили, что любые оценки за слово целиком должны быть отрицательными, чтобы у нас нормально работал перебор по ГЛД. Сейчас нам это начнет активно мешать, поэтому давайте зафиксируем, что у нас есть некая заранее определенная максимальная положительная оценка слова, слову мы даем положительные бонусы, а финальный отрицательный штраф определяем как разность набранных бонусов и максимальной оценки.
Ок, пусть мы распознаём фразу «Вася прилетает рейсом SU106 в 23.55 20/07/2015». Мы, конечно, можем оценивать здесь качество каждого слова по общим правилам, но это будет достаточно странно. Скажем, и SU106 и Вася вполне понятные в данной строке слова, но очевидно, что правила образования у них разные и, по идее, верификация тоже должна быть разной
Отсюда появляется идея моделей. Модель слова – это некое обобщенное описание конкретного типа слов в языке. У нас, конечно, будет модель стандартного слова в языке, но также будут модели чисел, аббревиатур, дат, сокращений, имен собственных, URL и т.д.
Что нам дают модели и как их нормально использовать? Фактически мы обращаем в обратную сторону нашу систему проверки слова – вместо того чтобы для варианта слова долго узнавать, что же это такое, мы даем каждой модели решать, подходит ли ей данный вариант слова и насколько хорошо она его оценивает.
Из самой постановки задачи формируются наши требования к архитектуре модели. Модель должна уметь:
- Быстро сказать, подходит или нет для нее вариант слова. Стандартная проверка включает все проверки разрешенных наборов символов для каждой буквы в слове. Скажем, в словарном слове пунктуация должна быть только в начале или в конце, а в середине слова набор пунктуации сильно ограничен, и сочетание пунктуации сильно ограничено (супер-способность?!), а в модели числа в основном должны быть цифры, кроме разрешенного в данном языке символьного суффикса (10-ое, 10 th ).
- Уметь по своей внутренней логике оценить качество распознаваемого слова. К примеру, слово из словаря должно явно оцениваться выше, чем просто набор символов.
При оценке качества модели не стоит забывать, что наша задача в итоге – сравнивать модели между собой, поэтому их оценки должны быть согласованы. Более-менее нормальный способ этого добиться – это относиться к оценке модели как к оценке вероятности построить слово по данной модели. Скажем, словарных слов в обычном языке достаточно много, и получить словарное слово при неправильном распознавании несложно. А вот собрать нормальный, подходящий под все правила телефонный номер уже гораздо сложнее.
В итоге при распознавании некоторого фрагмента строки у нас получается примерно такая схема:
Отдельным пунктом при оценке вариантов распознавания идут дополнительные эмпирические штрафы, не вписывающиеся ни в концепцию моделей, ни в оценку распознавания. Скажем, «ООО Рога и копыта» и «000 Рога и копыта» выглядят как два одинаково нормальных варианта (особенно если в шрифте 0 (ноль) и О (буква О) слабо отличаются пропорциями). Но при этом достаточно очевидно, какой вариант распознавания должен быть правильным. Для таких небольших конкретных знаний о мире сделана отдельная система правил, которая может дополнительно штрафовать не понравившиеся ей варианты после оценок моделей.
Про само распознавание поговорим уже в следующей части этого поста. Подписывайтесь на блог компании, чтобы не пропустить :)
Приложение недели. Insight Timer
Cуета города, пробки, давка в метро, стресс на работе – это постоянно держит в напряжении. Чтобы жить в гармонии с собой и окружающими, нужно избавляться от стресса и негатива! В этом нам поможет медитация, а точнее приложение Insight Timer.
Ничего замысловатого в нём нет, но свою функцию выполняет на все 100%. Программа содержит в себе авторские курсы по мотивации, гармонии, изучению себя и тому подобное. Они часто пополняются. Вас встретит один бесплатный вводный курс, остальные необходимо приобретать отдельно за 379 руб. и 339 руб. на iOS и Android соответственно.
И главное – вкладка «Timer» поможет войти в гармонию с собой. Таймер засекает время, вы выбираете звук, под который начнется и закончится медитация, а также можно выбрать фоновое сопровождение. Медитировать можно, например, под пение птиц, под треск костра или шум океанских волн.
Помимо медитации можно выбрать йогу, прогулку, дыхание или даже молитву. Это важно лишь для статистики, в которой отражается прогресс и вид релаксации.
Расслабляемся вместе с iOS или Android.
iOS-совет. Универсальный буфер обмена
Как известно, Apple славится своей «экосистемой». Пользователи «яблочной» техники не дадут соврать, что использование нескольких устройств порой создаёт ощущение единого девайса в нескольких обличиях.
Чтобы «магия» заработала, нужно соблюдать следующие условия:
Сначала загляните сюда и проверьте, поддерживают ли ваши устройства Handoff.
Зайдите на всех устройствах в один iCloud-аккаунт.
На всех девайсах включены Wi-Fi и Bluetooth.
На каждом устройстве включена функция Handoff. Как это сделать:
- Компьютер Mac: откройте меню Apple (значок яблока в верхнем левом углу) → «Системные настройки» → «Основные». Установите флажок «Разрешить Handoff между этим Mac и Вашими устройствами iCloud».
- iPhone, iPad и iPod touch: перейдите в «Настройки» → «Основные» → Handoff, включите Handoff.
- Устройства находятся рядом друг с другом.
Таким образом, с помощью Универсального буфера обмена Apple вы можете переносить текст, изображения и другое содержимое между iPhone, iPad, iPod и Mac просто «Копипастом» ☺
Читайте также: