Abbyy finereader engine что это
FineReader Engine - комплект программных инструментов для разработчиков функционала для решений оптического распознавания текста.
Режимы распознавания
Выбирайте режим распознавания, чтобы настраивать скорость и точность обработки. Пользователям доступны Normal, Fast и Balanced режимы OCR и ICR-распознавания.
Режим распознавания Normal
Наиболее точный режим для наилучшего качества распознавания. Рекомендован, если распознаваемая информация в дальнейшем будет использоваться для других целей или качество распознавания играет первостепенную роль.
Режим распознавания Fast
Предназначен для обработки больших объемов документов, когда приоритетной является скорость распознавания. Этот режим позволяет увеличить скорость обработки на 200-250%.
Режим распознавания Balanced
Устанавливает промежуточные значения параметров скорости и качества распознавания по сравнению с режимами Normal и Fast.
Полнотекстовое и зональное распознавание
Существуют два типа распознавания – полнотекстовое и зональное. Полнотекстовое распознавание использует технологию распознавания печатного текста (OCR) и применяется в сценарии конвертации документов. Зональное, то есть распознавание на уровне областей, использует не только OCR, но и технологию распознавания рукопечатного текста (ICR), а также другие технологии, которые могут быть востребованы для распознавания специфических данных, расположенных в той или иной области на документе.
Несмотря на прогнозы о скором наступлении светлого безбумажного будущего, объём бумажных документов всё ещё огромен. Часть из них сканируется и продолжает свою «жизнь» уже в электронном варианте – но только в виде изображений. В среднем в организациях объем сканированных копий составляет 30% от всех документов , которые хранятся в электронном виде. В госсекторе он достигает 41,5%, в ритейле – 17%, в сфере услуг – 23%, в банках и телеком-сфере приближается к 45%. Когда сканы документов лежат себе в нужной папке или делают работу, для которой они предназначены, – это хорошо. Плохо, когда кто-то пытается использовать данные из этих сканов в мошеннических схемах или как-то иначе злоупотреблять ими. Чтобы конфиденциальная информация не «утекла», в информационные системы компаний устанавливают DLP – системы предотвращения утечек.
Контур информационной безопасности SearchInform предназначен для контроля информационных потоков в рамках локальной вычислительной сети. Контроль возможен двумя способами, в зависимости от используемого серверного компонента: в сети, либо на рабочих станциях пользователей. Серверные компоненты представляют собой платформы, на которых работают модули перехвата данных. Каждый модуль перехвата выступает в роли анализатора трафика и контролирует свой канал передачи данных.
Первый модуль перехватывает и при необходимости блокирует информационные потоки на уровне сети. Он позволяет работать с зеркалируемым трафиком, прокси-серверами, почтовыми серверами и прочим корпоративным ПО, например, Lynс. Сетевой трафик перехватывается на уровне сетевых протоколов (почта, интернет, мессенджеры, FTP, облачные хранилища). Второй – перехватывает и блокирует информацию с помощью агентов, которые устанавливаются на компьютеры сотрудников. При этом контролируются: интернет, корпоративная и личная электронная почта, все популярные мессенджеры (Viber, ICQ, и др.), Skype, облачные хранилища, FTP, Sharepoint, вывод документов на принтеры, использование внешних устройств хранения. Контролируется файловая система, активность процессов и сайтов, информация, отображаемая на мониторах ПК и улавливаемая микрофонами, нажатые клавиши, доступно удаленное онлайн-наблюдение за ПК.
Система также позволяет индексировать документы «в покое» — на рабочих станциях пользователей или сетевых устройствах – и может индексировать любую текстовую информацию из любых источников, которые имеют API или возможность подключения через ODBC.
Конфиденциальную информацию, которая не должна «утечь» система ищет разными способами: по ключевым словам с учётом морфологии и синонимов, по фразам с учетом порядка слов и расстояния между ними, по атрибутам или по признакам документов (формату, имени отправителя или получателя и др.). Алгоритмы анализа настолько чувствительны, что способны найти даже серьезно измененный документ, если он близок по смыслу или содержанию с «эталоном»
В системе можно задавать политики безопасности и следить за их исполнением. DLP умеет собирать статистику и создает отчеты по случаям нарушения политик безопасности.
Архитектура системы – для интересующихся – хорошо описана в этом обзоре, не будем повторяться.
Большую часть задач в DLP решает анализ текста. Но, как мы помним, во многих компаниях хранится и передаётся по разным каналам большое количество сканов (изображений) документов. Если оставить картинку «как есть» – картинкой, DLP-система не сможет с ней работать.
DLP-система SearchInform и раньше была оснащена технологией OCR. Но этот движок имел серьезные недостатки как в качестве распознавания, так и в скорости. Разработка собственного движка для SearchInform смысла не имела, потому начали искать готовые технологии. Сейчас в модуле SearchServer в качестве движка полнотекстового распознавания можно использовать технологии ABBYY.
Разработка поделилась на два направления. Во-первых, нужно было бесшовно интегрировать технологии ABBYY и создать удобный для пользователей DLP модуль распознавания. Во-вторых, адаптировать технологии распознавания и классификации документов ABBYY под прикладные задачи.
Первая задача была решена быстро: она была реализована через собственный преднастроенный инсталлятор в DLP-системе. Развёртывание модуля OCR на базе технологии ABBYY сводится к установке дополнительного компонента в стиле «далее – далее», и активации нужной «галочки» в DLP. Компонент устанавливается на сервер DLP, поэтому никакая настройка для «соединения» DLP и OCR не требуется в принципе, больше пользователю ничего делать не нужно.
Включение FineReader Engine реализовано через интерфейс DLP, включается в один клик путем выбора соответствующего пункта из выпадающего списка. Тут же доступны более подробные настройки (при желании).
Более того, пользователю не нужно взаимодействовать с ABBYY, лицензирование FineReader Engine осуществляется SearchInform на уровне лицензии к DLP. Реализация получилась действительно дружественная пользователю и понравилась клиентам SearchInform.
Со второй задачей – адаптацией технологии ABBYY под прикладные задачи – работы было существенно больше.
Когда программисты SearchInform начали изучать технологии, то выявили массу возможностей, потенциально полезных для решения ИБ-задач. Все привыкли, что ABBYY – это, прежде всего, OCR. Но FineReader Engine умеет ещё и классифицировать документы по внешнему виду и содержанию. Чтобы настроить процесс классификации, на первом этапе надо задать категории, по которым будут распределяться документы (например, «Паспорт», «Договор», «Чек»). После этого программу нужно обучить: «показать» документы, соответствующие каждому классу во всех возможных вариантах оформления.
Для того чтобы такая машинка заработала, классификатор сначала нужно обучить. Вы подбираете небольшую базу документов, представляющих каждую категорию, которую вы ходите определять. С помощью этой базы вы обучаете классификатор. Потом берёте другую базу, проверяете работу классификатора на ней, и если результаты вас устраивают, можно пускать классификатор «в бой».
При работе и обучении классификатор использует набор признаков, помогающих отделить документы одного типа от документов другого типа. Все признаки можно условно разделить на графические и текстовые.
Графические признаки хорошо разделяют группы документов, сильно внешне отличающиеся друг от друга. Условно говоря, если вы смотрите издали на документ так, что не можете прочитать текст на нём, но можете понять, какой у него тип, то графические признаки тут будут хорошо работать.
Так, графические признаки могут хорошо отделять слитный и неслитный текст, например, письма и платёжные квитанции. Они смотрят на размер изображения, плотность цветов в разных его частях, разные другие характерные элементы вроде вертикальных и горизонтальных линий.
А если внешне документы похожи, или одну группу, не читая текст, нельзя отделить от другой группы, то помогают текстовые признаки. Они очень похожи на те, что используются в спам-фильтрах и позволяют по характерным словам определять принадлежность документа к тому или иному типу. Отделять письма от договоров, чеки от визитных карточек удобно именно с помощью текстовых признаков.
Также текстовые признаки помогают отделять документы похожего вида, но отличающиеся значением одного или нескольких полей. Например, чеки из Макдональдса и Теремка внешне очень похожи, но если рассматривать их как текст, то отличия будут очень заметны.
В итоге классификатор для каждой обучающей выборки даёт больший вес тем текстовым или графическим признакам, которые позволяют наилучшим образом разделять документы из этой выборки по типам.
Разработчики SearchInform задали в программе несколько категорий документов, которые могли понадобиться пользователям в первую очередь – разные типы паспортов и банковские карты.
Категоризация паспортов и кредиток начинает работать у пользователя без обучения системы, фактически сразу после развертывания FineReader Engine. Пользователю достаточно включить в настройках классификатор – и все новые документы будут разбираться по категориям, для классификации документов из архива нужно просто перезапустить по ним проверку.
Вместе с тем, пользователю оставлена возможность создавать дополнительные категории. Он сам может задавать любые классы (категории), или добавлять свои документы в имеющиеся (паспорта и кредитки). Для этого ему нужно создать в специальной папке подпапки с названиями классов, положить туда эталоны документов и запустить процесс обучения. Эта процедура обычно выполняется совместно с инженерами SearchInform, которые все наглядно демонстрируют и рассказывают о требованиях к изображениям, совместно с заказчиком формируют базу эталонов, советуют, какие документы лучше подойдут как эталоны той или иной категории. Сразу после настройки идет проверка на реальных данных, часто после проверки нужна перенастройка, небольшая корректировка настроек или эталонов. Обычно это процедура занимает полчаса-час.
Точность классификации зависит от того, насколько система сможет «увидеть» разницу между документами в разных категориях. Если на обучение в двух разных категориях подать документы, похожие по внешнему виду и содержащие много одинаковых ключевых слов, технология начнёт путаться и точность классификации снизится.
Так, при детектировании сканов только главной страницы паспортов инженеры SearchInform столкнулись с большим количеством ложных срабатываний. Алгоритм ABBYY находил в архиве из 10 000 изображений 300 картинок, похожих на паспорта, в то время как паспортов там было всего несколько штук.
Если для произвольных категорий это допустимый процент релевантности, то для ключевых объектов, например, кредиток, это слишком большая погрешность. Чтобы улучшить уровень релевантности инженеры SearchInform разработали ещё и собственные алгоритмы проверки, которые применяются уже к результатам классификации ABBYY. Для каждой категории данных был создан индивидуальный валидатор, работающий только со своей группой.
Обработкой данных в DLP занимается специальный компонент – SearchServer. Когда этот компонент находит в перехваченных данных изображение (причем не важно, это часть документа или отдельная картинка), он передает его в модуль FineReader Engine, который выполняет оптическое распознавание и классифицирует изображения по заданным категориям. Причем вместе с категорией FineReader Engine отдает и «процент похожести» изображения на соответствующий класс, например, изображение №1 похоже на паспорт на 83%, изображение №2 похоже на водительское удостоверение на 35%. Результат передается в SearchServer. В SearchServer задан специальный параметр, для простоты понимания назовем его «минимально возможный процент» – по умолчанию он равен 40%. Если FineReader Engine присвоил процент меньше этого значения – класс удаляется, и в DLP этот документ идет без класса. Если процент выше, будет следующее:
1. Для паспортов и кредитных карт работает валидатор SearchInform, он проверяет документ как по распознанному тексту, так и графическую составляющую (например, для паспортов выясняется, есть ли на изображении лицо, в каком месте оно располагается, сколько пространства занимает, есть ли графические элементы, присущие только паспортам (для РФ – особый узор), другие характерные элементы). Чем больше «маркеров» подтвердится, тем выше будет итоговый «множитель». К примеру, классификатор FineReader Engine уверен в похожести изображения на паспорт на 63%, валидатор нашел на нем ключевые слова «Паспорт РФ», «Фамилия», «Кем выдан», а также фотографию, на которой детектировано лицо – в таком случае множитель равен, например, 1,5 – и итоговая релевантность получается 94,5%
Релевантность с такой пост-проверкой выросла в разы, а производительность осталась на прежнем уровне. Алгоритм ABBYY работает довольно быстро и применяется к большим массивам данных, что позволяет ускорить работу программы в несколько раз, валидатор категорий SearchInform работает медленнее, но благодаря классификации ABBYY он используется только при необходимости и применяется к существенно меньшему массиву данных.
Сложностью такой реализации стало то, что пришлось с нуля делать валидаторы для многих типов данных. Ведь те же паспорта разных стран имеют свои неповторимые особенности, и алгоритм поиска паспорта РФ абсолютно не подходит для поиска паспорта гражданина Украины. То же самое с кредитными картами – характеристики для VISA существенно отличаются от MasterCard.
2.Если документ похож на какую-то категорию, но она не относится к паспортам или кредиткам, релевантность, присвоенная модулем FineReader Engine, остается без изменений – валидатор SearchInform для таких категорий вообще не применяется.
После того, как вычислена итоговая релевантность, еще раз работает правило, в котором порогом служит уже не значение «минимальный процент похожести», а значение, настроенное пользователем. По умолчанию – 70%. Итого, если релевантность больше или равна этому значению – таким документам подтверждается класс, и по этому классу можно искать. Если она меньше, метка класса снимается и документ считается «без класса».
В «Контуре информационной безопасности» есть специализированные средства аналитики, позволяющие работать с архивом данных или выполнять заданные политики безопасности.
Безусловно, паспорта и кредитки относятся к критичным данным, поскольку содержат персональные данные, поэтому их контроль очень важен заказчикам. Более того, обычно крайне сложно разработать блокирующее правило, которое такие данные будет «резать» – при создании таких правил в реальных проектах возникает очень много тонкостей, которые выясняются постепенно, и каждый такой случай приводит к нарушению бизнес процессов у клиента (т.к. срабатывает блокировка). Поэтому чаще всего заказчики хотят просто видеть все движения подобных документов внутри организации и, особенно, за ее пределы. А учитывая то, что это могут быть не только паспорта\кредитки, но и любые другие типы данных – метод дает большую гибкость при анализе.
Также специалисты по информационной безопасности отслеживают передачу таких данных по «личным» каналам и хранение этих данных на носителях (хранение регламентировано, но если передача третьим лицам считается критичным нарушением, то копирование в «неправильную папочку» – незначительным нарушением).
Когда идет работа в штатном режиме, ИБ полагается на автоматику DLP и работает исключительно с отчетами системы. Когда идет какое-то расследование, начинаются пристальные проверки и с потоком данных начинают работать вручную. Если нужно выявить все действия, происходящие с объектом «паспорт», выставляется релевантность политики 70-80%, из миллиона событий отфильтровывается 500, они просматриваются вручную и принимаются соответствующие меры. Если произошло что-то серьезное, сужают политику до «сотрудник\дата\время» и релевантность сильно уменьшают (вплоть до 1%) – данных, не относящихся к делу, будет на порядок больше, но и вероятность пропустить критичные события сильно уменьшается.
Светлана Лузгина, служба корпоративных коммуникаций ABBYY,
Алексей Парфентьев, технический аналитик SearchInform
На прошлой неделе мы выпустили очередную версию OCR SDK – продукта для встраивания технологий распознавания текста в различные приложения. Уже в течение многих лет выпуск пользовательского коробочного FineReader’a мы дополняем тиражом кружек и маек выпуском соответствующих технологий в виде SDK – FineReader Engine (для краткости его зовем FRE).
Под катом я расскажу об улучшениях нового FRE по сравнению с предыдущими версиями.
Разрабатывая новую версию, мы ставим перед собой почти олимпийские цели – точнее, быстрее, функциональнее. Над точностью и функциональностью мы активно работали в девятой версии FineReader Engine и в этом отношении достигли заметных улучшений.
В десятой версии на первый план вышла скорость. К выпуску нам удалось ускорить Fast Mode (специальный скоростной режим распознавания) в 1,5–2 раза для большинства европейских языков. При этом рост скорости произошел не в ущерб качеству, точность распознавания в Fast Mode осталась в среднем на прежнем уровне. Для русского языка скорость возросла в среднем на 44%. Эти цифры получены в результате внутреннего тестирования на пакетах, содержащих основные типы офисных документов.
Относительный рост скорости для каждого языка по сравнению с результатами FRE 9.0 (выпуск 21 октября 2008 г.)
Для основных азиатских языков – китайского, японского и корейского – главной целью по-прежнему была точность. Число ошибок при распознавании документов на этих языках сократилось в среднем на 30-40%. Кроме этого на графике видно существенное повышение скорости.
Было сделано и много менее очевидных улучшений.
Новая бинаризация – преобразование цветных и полутоновых изображений в черно-белые. Это необходимый этап подготовки документов к распознаванию, от него зависит, удастся ли на скане мятого листа со следами от пальцев распознать бледный текст. Бинаризация стала значительно лучше, это одна из причин, почему при увеличении скорости не пострадало качество.
Camera OCR TM – набор специальных преобразований для улучшения качества распознавания текста на сфотографированных документах. Среди них:
– исправление трапециевидных искажений, которые появляются при съемке под углом,
– устранение смаза на фотографиях – характерного дефекта при съемке без штатива,
– сглаживание ISO-шума – множества разноцветных точек на фотографии, появляющихся при высокой чувствительности фотоаппарата в условиях недостаточной освещенности.
Появились новые возможности ADRT TM – восстановление структуры документа (document map) и оглавления (table of contents – TOC) по заголовкам, автоматическое создание стилей, распознавание подписей к картинкам, задание специального стиля для подписи и объединение картинки и подписи в единый объект.
Очень важное улучшение – повышение понятности, доступности продукта и облегчение работы с ним. OCR SDK – это многофункциональный инструмент с огромным API, позволяющим настраивать большое число параметров.
Пользователи решают самые разные задачи. Кто-то разрабатывает системы для сканирования книг из библиотеки в PDF с возможностью контекстного поиска, кто-то реализует автоматическую регистрацию документов в СЭД на основе распознавания штрих-кодов, а кто-то развивает на нем собственные технологии для извлечения данных, используя функцию распознавания и верификации текста.
Очевидно, что для разных задач – разные требования к функционалу SDK и качеству технологий. В одном случае на первом месте качество и размер получаемых PDF файлов, в другом – точность распознавания текста или . Следовательно, требуются разные настройки для решения разных задач.
Чтобы упростить настройку продукта, мы создали ряд профилей, содержащих оптимальные значения параметров для решения конкретных задач. Эта идея отражена на главном «вижуале» продукта:
Достаточно просто выбрать подходящий профиль – и можно работать.
Кроме этого была существенно доработана справка по продукту, она стала более структурированной и полной.
Мы надеемся, что все это поможет быстрее и легче интегрировать FineReader Engine в приложения и получать еще более качественные результаты распознавания.
Многие из нас помнят со школьных уроков черчения вот такие таблички, которые нужно было рисовать на каждом листе в правом нижнем углу. По ним всегда можно было быстро найти нужный чертеж в папке. Быстро? Ну, пока речь идет о чертежах, которые влезают в одну папку, – да. А если это целый шкаф технической документации?
Наши партнеры из компании CSoft занимаются консалтингом и внедрением комплексных решений в области систем проектирования и по роду деятельности сталкиваются с такими «шкафами» постоянно. Их программы предназначены для сканирования и обработки растровых изображений, а также последующего ввода полученных данных в информационные системы предприятия или другие приложения. Они позволяют работать с растровыми изображениями чертежей, карт, схем и других графических материалов строителей и проектировщиков.
На практике большая часть архивной документации, которую необходимо оцифровывать, обычно выполнена вручную и на старых носителях, поэтому специалисты СSoft встроили технологию распознавания ABBYY FineReader Engine, которая легко справляется с такими документами. Наше решение вошло в три программных продукта СSoft – RasterID, Spotlight и RasterDesk – и получило название ABBYY FineReader Plugin.
После того как ABBYY FineReader Plugin распознаёт текст в титульном блоке чертежа, полученная информация передаётся во внешнюю базу данных или систему документооборота для формирования карточки отсканированного документа, с помощью которой его можно оперативно найти для решения рабочих задач. При этом не имеет значения, как заполняли титульный блок – печатным способом или рукопечатным (печатными буквами от руки). Наши технологии позволяют распознавать и то, и другое более чем на 100 языках и применимы не только для работы со стандартными печатными документами формата A4, но и для обработки сложной и нестандартной документации. Инструментарий ABBYY FineReader Engine позволяет разработчику создавать приложения, с помощью которых можно обрабатывать не просто отдельные области изображения, а даже отдельные символы.
Добавление в мобильное приложение банка «Россельхозбанка»
4 августа 2020 года Abbyy сообщила, что «Россельхозбанк» упростил и уcкорил удаленное обслуживание для юридических лиц в мобильном приложении. ABBYY FineReader Engine в приложении «Россельхозбанка» извлекает около десятка атрибутов, необходимых для формирования платежки: название организации, ИНН, КПП, номер счета, БИК, наименование расчетного счета, основание платежа и другие. Остается только проверить данные и подтвердить транзакцию. Подробнее здесь.
Добавление в мобильное приложение банка "Точка"
12 марта 2020 года компания ABBYY сообщила, что «Точка» дополнила мобильное приложение технологиями искусственного интеллекта ABBYY. Подробнее здесь.
2016: ABBYY FineReader Банк
ABBYY FineReader Банк – решение для автоматизации ввода данных из платежных документов в банковскую информационную систему. Решение разработано для банковской отрасли с учетом ее особенностей, чтобы упростить работу с наиболее востребованными документами: платежными поручениями, платежными требованиями и инкассовыми поручениями.
Совместимость с ОС на платформе АЛЬТ
25 декабря 2018 года стало известно, что компании «Базальт СПО» и ABBYY успешно провели тестирование инструментария для разработчиков ABBYY FineReader Engine 11 и 12 версий для Linux с ОС Альт Линукс СПТ 7.0, Альт Рабочая станция 8, Альт Сервер 8, что позволяет рекомендовать технологии распознавания ABBYY для встраивания в приложения, работающие под управлением ОС АЛЬТ.
Использование в сервисе Entera для быстрого ввода данных в учетные системы 1С
Компания «Энтера» представила сервис для быстрого ввода данных в учетные системы 1С. С помощью ABBYY FineReader Engine в сервисе реализовано автоматическое определение типов документов, распознавание всех необходимых номенклатур и проверка корректности информации. Об этом ABBYY сообщила 17 мая 2021 года. Подробнее здесь.
2013: FineReader Engine 11
24 октября 2013 года компания ABBYY сообщила о выходе FineReader Engine 11 – SDK, который позволяет добавлять в cоздаваемые решения функции оптического распознавания текста (OCR), распознавания рукопечатных символов (ICR), оптического распознавания меток (OMR), распознавания штрих-кодов и конвертации документов в PDF-файлы. SDK выходит одновременно для Windows, Linux и Mac-платформ.
В версии 11 появилась функция автоматической классификации для сортировки документов во входящих пакетах по заранее заданным типам (например, счета, счета-фактуры, договоры, справки, полисы и т.п.). Предварительно классификатор обучается на небольшом наборе документов, представляющих тип, который необходимо определять. Определение типа происходит по графическим и текстовым признакам. Новая функция позволяет классифицировать документы со скоростью до 120 страниц в минуту на одно ядро процессора.
В FineReader Engine 11 улучшена работа с форматом PDF: экспорт в PDF стал быстрее на 12%, сжатие фона документа позволяет уменьшить размер файлов на 50%, добавлен экспорт в принятый в Европе и США стандарт архивного хранения PDF/A-2. Полностью поддерживается 64-битная архитектура. Добавлен ряд возможностей для улучшения качества распознавания изображений, полученных с помощью фотокамеры. Новый API позволяет извлекать данные из всех полей визитной карточки и экспортировать их в CRM-системы или другие программы. Улучшено качество распознавания арабского, китайского, японского и корейского языков. Всего инструментарий распознаёт печатные тексты на 202 языках, заполненные от руки формы – на 126 языках. В новую версию включена словарная поддержка латыни, азербайджанского языка, а также дореволюционного варианта орфографии русского языка.
ABBYY FineReader Engine — это полный набор технологий, которые позволяют распознавать печатный текст (OCR), рукопечатный текст (ICR) и штрихкоды (OBR). ABBYY OCR поддерживает максимальное число языков распознавания, которые можно комбинировать. Ниже представлен список доступных технологий и варианты обработки документов.
Технология доступна для более чем 200 языков:
- Европейские языки: латиница, кириллица, армянский и греческий алфавиты
- Другие языки: китайский, японский, корейский, арабский, фарси, тайский, вьетнамский, иврит, бирманский
- FineReader XIX — для старых документов, книг и газет, напечатанных с 1600 по 1937 годы на английском, французском, немецком, итальянском и испанском языках старыми шрифтами, среди которых Fraktur, Schwabacher и Gothic
- Распознавание шрифтов OCR-A, OCR-B, MICR (E13B) и CMC7 и документов, напечатанных на матричных принтерах или пишущих машинках
Технология доступна для более чем 120 языков:
- Европейские и другие языки
- 22 региональных рукопечатных стиля
- Распознавание рукопечатных символов в полях и рамках
- Распознавание индийских цифр, используемых в арабских государствах
Возможно распознавание рукопечатной информации на разных языках одновременно (многоязычный ICR).
- Поддержка одномерных и двухмерных штрихкодов
- Автоматическое определение и распознавание штрихкодов, расположенных на документе под любым углом
Использование в сервисе Entera для быстрого ввода данных в учетные системы 1С
Компания «Энтера» представила сервис для быстрого ввода данных в учетные системы 1С. С помощью ABBYY FineReader Engine в сервисе реализовано автоматическое определение типов документов, распознавание всех необходимых номенклатур и проверка корректности информации. Об этом ABBYY сообщила 17 мая 2021 года. Подробнее здесь.
Совместимость с "Ред ОС"
26 января 2021 года РЕД СОФТ сообщил, что совместно с ABBYY в рамках соглашения о технологическом сотрудничестве провели тестирование совместимости продуктов. Результаты испытаний подтвердили корректную работу технологического продукта ABBYY FineReader Engine с операционной системой РЕД ОС (производства РЕД СОФТ).
ABBYY FineReader Engine 12
6 июня 2018 года стало известно, что ABBYY представила ABBYY FineReader Engine 12 – улучшенный инструментарий разработчика для распознавания информации из отсканированных бумажных и PDF-документов, изображений и фотографий, а также скриншотов с экранов устройств, в том числе промышленных дисплеев. В представленной версии, созданной с применением сверточных нейронных сетей, используются технологии обработки естественного языка и машинного обучения. С их помощью можно определить тип документа не только по внешним признакам, но и по его смыслу, выявляя малейшие отличия между разными категориями.
- Интеллектуальная классификация: технология самостоятельно выявляет внешние и смысловые признаки, характерные для документов. Эффективность работы можно регулировать за счет установления баланса между полнотой и точностью классификации.
- Улучшен анализ и восстановление логической структуры документа с помощью алгоритмов на основе искусственного интеллекта и технологий ABBYY-ADRT (Adaptive Document Recognition Technology). ABBYY FineReader Engine делит документ на отдельные страницы и анализирует оформление и содержание каждой из них. При экспорте в различные форматы файлов получается точно воссозданный документ с полным сохранением элементов форматирования, например, шрифтов, колонтитулов, колонок и др. Значительно улучшено качество восстановления таблиц: ячеек с текстом, пунктирных границ, цветов линий.
- Появилась возможность сохранять файлы в форматах HTML 5 и ALTO 3.1. Кроме того, теперь документы можно экспортировать в форматы PDF: PDF 2.0, PDF/UA, PDF/A-2b и PDF/A-3b с возможностью поиска, что особенно важно для архивного хранения.
- Более надежное шифрование: поддержка 256-битного AES-шифрования и поддержка символов юникода позволяет использовать пароли независимо от операционной системы.
- Поддержка облачных технологий: теперь развернуть приложения с использованием ABBYY FineReader Engine можно и на облачных платформах, таких как Microsoft Azure.
Инструментарий ABBYY FineReader Engine 12 содержит готовые примеры кода, которые помогут ускорить разработку приложений. С их помощью можно решить наиболее распространенные задачи по интеллектуальной обработке документов.
ABBYY FineReader Engine поддерживает 208 языков распознавания, в том числе в представленной версии добавлены фарси и бирманский. Также технология позволяет распознавать документы, которые содержат сразу несколько языков. Это расширяет возможности компаний при выводе решений на международный рынок.
Читайте также: