Какие графические форматы поддерживаются программой finereader
ABBYY FineReader – это система оптического распознавания текстов (Optical Character Recognition, OCR). Она предназначена для того, чтобы быстро перевести отсканированные бумажные документы, а также PDF–файлы в удобный для дальнейшего использования электронный формат – файл Word или Excel, HTML–страничку, презентацию PowerPoint или в любой другой из поддерживаемых форматов, при этом полностью сохранив оформление документа. FineReader удовлетворяет самым высоким требованиям профессиональных пользователей благодаря большому количеству различных опций и настроек.
2 Установка и запуск
Для установки FineReader используется специальная программа установки, входящая в состав дистрибутива. Всегда производите установку, используя CD–Rom только из дистрибутива, который Вы получили при покупке.
Установка программы FineReader
Программа установки поможет Вам установить ABBYY FineReader. Перед началом установки рекомендуется закрыть все другие приложения. Чтобы установить ABBYY FineReader:
1. Вставьте компакт–диск в дисковод для компакт–дисков. Программа установки запустится автоматически.
2. Следуйте инструкциям программы установки. В случае если программа установки не запустилась автоматически:
2. Дважды нажмите на значок Установка и удаление программ.
3. Выберите закладку Установка и удаление и нажмите кнопку Установить.
4. Далее следуйте инструкциям программы установки.
В процессе установки программы FineReader Вам будет предложено выбрать одну из предложенных опций установки:
_ Обычная (рекомендуется) – устанавливаются все компоненты дистрибутива, в том числе все языки распознавания, язык интерфейса (один) – выбранный при установке.
_ Установка компонентов дистрибутива по выбору – из предложенного набора компонентов, входящих в дистрибутив, Вы можете выбрать только те, которые нужны Вам (в том числе доступные языки распознавания).
Внимание! Если Вы хотите применять пользовательские словари и эталоны из предыдущей версии программы, не деинсталлируйте ее до инсталляции новой версии. Установив новую версию, Вы сможете применять эталоны и словари предыдущей версии.
Для людей с низким уровнем интеллекта.
Как ввести документ за минуту
1. Включите сканер (если он имеет отдельный от компьютера источник питания).
Внимание! Многие модели сканера необходимо включать до включения компьютера.
2. Включите компьютер и запустите FineReader (Пуск/Программы/ABBYY FineReader 7.0 Professional Edition или Corporate Edition). Перед Вами откроется Главное окно программы FineReader.
3. Вставьте в сканер страницу, которую Вы хотите распознать.
4. Нажмите на стрелку справа от кнопки Scan&Read, в открывшемся локальном меню выберите пункт Мастер Scan&Read.
Мастер Scan&Read вызывает специальный режим, при котором Вы можете отсканировать и распознать страницу или открыть и распознать графическое изображение (пример графического файла Вы можете найти в папке Demo. Она находится в папке, куда Вы установили FineReader). При этом каждый шаг сопровождается подсказками системы.
5. Далее следуйте указаниям Мастера Scan&Read.
Процесс ввода документов в компьютер состоит из четырех этапов: сканирование, распознавание, проверка и сохранение результатов распознавания. В результате сканирования появится окно Изображение, содержащее “фотографию” страницы. Затем программа попросит Вас установить параметры распознавания и приступит к распознаванию изображения, одновременно анализируя его. Обработанные участки изображения закрашиваются голубым цветом.
Результат распознавания Вы увидите в окне Текст. В этом же окне Вы можете проверить и отредактировать распознанный текст. Следуя далее указаниям Мастера Scan&Read, Вы можете либо передать распознанный текст в выбранное Вами приложение или сохранить его на диск, либо продолжить обработку следующих изображений.
Главное окно программы FineReader
Работая с программой FineReader, пользователь всегда имеет дело с некоторым пакетом.
Пакет – это папка, в которой хранятся изображения и рабочие файлы программы. Каждое отсканированное изображение записывается как отдельная страница пакета. При запуске программы FineReader по умолчанию открывается новый пакет. Вы можете продолжить работу с новым пакетом или же открыть уже существующий пакет. Вы можете продолжить работу с пакетом по умолчанию или создать новый пакет. Более подробно о работе с пакетом см. Общие сведения по работе с пакетом.
Вверху Главного окна FineReader находится меню системы, под ним – инструментальные панели. В программе их четыре: Стандартная, Форматирование, Изображение и Scan&Read.
Спрятать или показать инструментальные панели на экране можно через меню Вид (пункт Панели инструментов) или через локальное меню. Чтобы открыть локальное меню, щелкните правой кнопкой мыши на одной из инструментальных панелей. Панели, которые видны на экране, отмечены галочкой. Выберите панель, которую Вы хотите спрятать или, наоборот, показать.
Чтобы выбрать вид окна Пакет:
_ Нажмите на соответствующую кнопку ( / ) на панели инструментов Стандартная, или
_ Нажмите правой кнопкой мыши на окне Пакет и выберите в локальном меню пункт Вид>.
Внизу окна расположена информационная панель (еще ее называют строкой состояния), где Вы можете получить сведения о состоянии системы и производимых ею операциях, а также краткую справку о выбираемых Вами пунктах меню и кнопках. Остальное пространство Главного окна занимают по мере своего появления рабочие окна системы: Пакет, Изображение, Крупный план и Текст.
Окна Изображение, Крупный план и Текст связаны между собой: при двойном щелчке на изображении в окне Изображение курсор в окнах Крупный план и Текст (при наличии распознанного текста) переместится на ту же позицию, что и в окне Изображение.
Используется при редактировании большого количества страниц пакета.
Окно Пакет сверху; тип отображения страниц пакета: Вид со свойствами; Окна Текст и Крупный план.
Используется при большом количестве страниц пакета.
Окно Пакет сверху; тип отображения страниц пакета:
Вид со свойствами; Окна Изображение, Текст и Крупный план.
Используется при малом количестве страниц пакета.
Окно Пакет слева; тип отображения страниц пакета:
Пиктограммы; Окна Изображение, Текст и Крупный план Применение: Вариант расположения окон:
Возможности программы ABBYY FineReader
FineReader позволяет ввести документ одним нажатием на кнопку Scan&Read, не вдаваясь в подробности работы программы. Распознанный текст можно передать в текстовый редактор или электронную таблицу, сохранить в форматах RTF, DOC, Word XML (при сохранении в Microsoft Office 2003), PDF и HTML с полным сохранением оформления документа или сохранить в базе данных.
Для людей со среднем уровнем интеллекта.
Системы оптического распознавания символов (Optical Character Recognition – OCR) предназначены для автоматического ввода печатных документов в компьютер.
FineReader — омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии “целостного целенаправленного адаптивного распознавания”.
Процесс ввода документа в компьютер можно подразделить на два этапа:
1. Сканирование. На первом этапе сканер играет роль “глаза” Вашего компьютера: “просматривает” изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе.
2. Распознавание. Обработка изображения OCR–системой. Остановимся на втором шаге более подробно. Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.
Как уже упоминалось, распознавание изображения осуществляется на основе технологии “целостного целенаправленного адаптивного распознавания”.
_ Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.
_ Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.
_ Адаптивность – способность OCR–системы к самообучению.
В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки.
Следуя принципу адаптивности, программа самостоятельно “настраивается”, используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма. В результате работы в окне FineReader появится распознанный текст, который Вы можете отредактировать и сохранить в наиболее удобном для Вас формате.
Основные улучшения по сравнению с предыдущей версией:
_ Поддержка основных способов автоматической установки с сервера на рабочие станции. FineReader Corporate Edition поддерживает все основные способы автоматической установки в локальной сети: с помощью Active Directory, Microsoft Systems Management Server или с помощью командной строки.
_ Работа с многофункциональными устройствами, в том числе сетевыми. Многофункциональные устройства, совмещающие в себе функции сканера, принтера, копира и факса, становятся все более популярными. Теперь необязательно ставить каждому сотруднику свой сканер – достаточно одного мощного устройства, с которым работают все пользователи организации. FineReader умеет работать с такими устройствами, как подключенными к рабочей станции, так и сетевыми. Специальные настройки программы позволяют пользователю автоматически открывать и отсканированные изображения с любого места в локальной сети или с ftp сервера и распознавать их.
_ Различные модели корпоративного лицензирования. Кроме лицензирования по числу одновременного работающих пользователей, стали доступны также другие способы лицензирования. Вы сможете выбрать тот вариант, который в большей степени отвечает Вашим потребностям.
_ License Manager – средство управления лицензиями в сети. В FineReader Corporate Edition появилась удобная утилита управления лицензиями (Менеджер лицензий). С помощью нее осуществляется отслеживание использования FineReader на рабочих станциях, резервирование лицензий за рабочими станциями, добавление новых лицензий.
Форматы, в которых FineReader сохраняет распознанный текст FineReader сохраняет результаты распознавания в следующих форматах:
_ Microsoft Word Document (*.DOC)
_ Rich Text Format (*.RTF)
_ Microsoft Word XML Document (*.XML) (только для Microsoft Word 2003)
_ Adobe Acrobat Format (*.PDF)
_ Microsoft PowerPoint Format (*.PPT)
_ Comma Separated Values File (*.CSV)
_ Простой текст (*.TXT). FineReader поддерживает различные кодовые
страницы (Windows, DOS, Mac, ISO) и кодировку Unicode.
_ Microsoft Excel Speadsheet (*.XLS)
FineReader работает со сканерами через TWAIN–интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. При этом возможно два варианта взаимодействия программы со сканерами через TWAIN–драйвер:
_ через интерфейс FineReader: в этом случае для настройки опций сканирования используется диалог программы FineReader Настройки сканера;
_ через интерфейс TWAIN–драйвера сканера: для настройки опций сканирования используется диалог TWAIN–драйвера сканера.
Преимущества одного режима перед другим
В режиме Использовать интерфейс TWAIN–драйвера сканера, как правило, доступна функция предварительного просмотра изображения (preview), позволяющая точно задать размеры сканируемой области, подобрать яркость, тут же контролируя результаты этих изменений. К сожалению, диалог TWAIN–драйвера сканера у каждого сканера выглядит по–своему, в большинстве случаев все надписи на английском языке. Вид этого окна и смысл опций описан в документации, прилагаемой к сканеру.
В режиме Использовать интерфейс FineReader доступны такие опции, как возможность сканирования в цикле на сканерах без автоподатчика, сохранение опций сканирования в отдельный файл Шаблон пакета (*.fbt) и возможность использования этих опций в других пакетах.
Вы можете легко переключаться между этими режимами:
_ на закладке Сканирование/Открытие диалога Опции (меню Сервис>Опции) установите переключатель в одно из положений: Использовать интерфейс TWAIN–драйвера сканера или Использовать интерфейс FineReader.
ABBYY FineReader PDF 15 поддерживает TWAIN- и WIA-сканеры и многофункциональные устройства (МФУ).
Такие сканеры предлагаются известными мировыми производителями, среди которых:
и другие. Тем не менее, компания ABBYY не может гарантировать абсолютную совместимость какого-либо сканера с продуктами ABBYY. В связи с этим, компания ABBYY не несет никакой ответственности за какой-либо убыток коммерческого характера, который может возникнуть в результате использования информации, указанной выше.
Минимальные: матрица 2 млн. пикселей, функция автофокуса.
- матрица 5 млн. пикселей
- оптический зум
- возможность отключения фотовспышки
- ручная настройка фокусировки и диафрагмы
- объектив с оптической стабилизацией изображения — при его отсутствии рекомендуется использовать штатив
- PDF, включая PDF/A, PDF/UA
- Графические форматы: TIFF, JPEG, JPEG 2000, JBIG2, PNG, BMP, PCX, GIF, DjVu, XPS*
- Текстовые форматы**: DOC(X), XLS(X), PPT(X), VSD(X), HTML, RTF, TXT, ODT, ODS, ODP
Форматы сохранения
- PDF, включая PDF/A, PDF/UA
- Графические форматы: TIFF, JPEG, JPEG 2000, JBIG2, PNG, BMP, PCX, DjVu
- Текстовые форматы: DOC(X), XLS(X), PPTX, HTML, RTF, TXT, CSV, ODT
- Электронные книги: EPUB ® , FB2
- Microsoft Word 365, 2019, 2016 (16.0), 2013 (15.0), 2010 (14.0), 2007 (12.0)
- Microsoft Excel 365, 2019, 2016 (16.0), 2013 (15.0), 2010 (14.0), 2007 (12.0)
- Microsoft PowerPoint 365, 2019, 2016 (16.0), 2013 (15.0), 2010 (14.0), 2007 (12.0)
- Microsoft SharePoint 2013, SharePoint Server 2013, 2016, 2019, Online
- Apache OpenOffice Writer 4.1
- LibreOffice Writer 5.2, 6.1
- Adobe Acrobat/Reader (10.0 и более поздние версии)
ABBYY FineReader PDF 15 распознает документы на 192 языках на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также языки на основе иероглифического письма. Для 48 языков предусмотрена словарная поддержка и проверка орфографии (отмечены знаком ×):
Естественные языки
Старые европейские языки и готические шрифты
Искусственные языки
Формальные языки
Приложение ABBYY Сравнение документов * позволяет сравнивать документы, написанные на 40 языках:
* Доступно в составе редакции ABBYY FineReader PDF 15 Corporate.
Полезные ссылки
С 2007 года ABBYY состоит
в PDF Association
ПК с x86-совместимым процессором (с тактовой частотой 1 ГГц и выше).
Операционная система
- Windows Server 2019, Windows Server 2016, Windows Server 2012, Windows Server 2012 R2 with the April 2014 update rollup (KB2919355), Windows Server 2008 R2 SP1
- Windows 10, Windows 8.1 with the April 2014 update rollup (KB2919355), Windows 8, Windows 7 SP1
Протестированные платформы облачных вычислений и виртуальные среды
- Azure App Services
- Azure Cloud Services
- Azure Service Fabric
- Azure Virtual Machines
- Amazon EC2
- Microsoft Hyper-V Server 2008
- Microsoft Hyper-V Server 2008 R2 SP1
- Microsoft Hyper-V Server 2012
- Microsoft Hyper-V Server 2012 R2
- Microsoft Hyper-V Server 2016
- Oracle VM VirtualBox 5.2
- Parallels Desktop for Mac 13.0.1
- VMware ESXi 6.5
- VMware Workstation Player 12.5
- VMware Workstation Pro 14.0.0
Протестированные среды разработки Java
Решение ABBYY FineReader Engine было протестировано на следующих наборах разработчика Java:
- для 32-битных операционных систем:
- Oracle Java SE Development Kit 8u201 i586
- Oracle Java SE Development Kit 8u202 i586
- для 64-битных операционных систем:
- OpenJDK 11.0.2 x64
- OpenJDK 12.0.2 x64
- OpenJDK 13 x64
- Oracle Java SE Development Kit 8u201 x64
- Oracle Java SE Development Kit 8u202 x64
- Oracle Java SE Development Kit 12.0.2 x64
- Oracle Java SE Development Kit 13 x64
ABBYY FineReader Engine также может использоваться в Docker-контейнерах на поддерживаемых платформах.
Память
- для обработки одностраничных документов: минимум 400 МБ ОЗУ, рекомендуется 1 ГБ;
- для обработки многостраничных документов: минимум 1 ГБ ОЗУ, рекомендуется 1,5 ГБ;
- для параллельной обработки: 350 МБ * (количество ядер) + 450 МБ ОЗУ;
- для параллельной обработки документов на арабском или CJK языках: 850 МБ * (количество ядер) + 750 МБ ОЗУ.
Место на жестком диске
- 1.600 МБ для установки библиотек (функционал ядра)
- Дополнительные 400 МБ для установки библиотеки модулей OfficeConverters
- 100 МБ для работы программы
- Дополнительные 15 МБ на каждую страницу при обработке многостраничного документа
Другие требования
- Полностью TWAIN-совместимый сканер, цифровая фотокамера или факс-модем – только для функции сканирования.
- Видеокарта и монитор с минимальным разрешением 1024x768 — для обучения шаблонов, редактирования словарей и сканирования при помощи графического пользовательского интерфейса).
- Microsoft Internet Explorer 8.0 или выше. Для правильного детектирования содержащихся в документах шрифтов, они должны быть установлены на компьютере.
ABBYY SDK 12 Licensing Service (системные требования)
Компьютер
ПК с x86-совместимым процессором (с тактовой частотой 1 ГГц и выше).
Операционная система
- Windows Server 2016, Windows Server 2012 R2, Windows Server 2012, Windows Server 2008 R2
- Windows 10, Windows 8.1, Windows 8, Windows 7 SP1
Протестированные платформы облачных вычислений и виртуальные среды
- Microsoft Hyper-V Server 2008
- Microsoft Hyper-V Server 2008 R2 SP1
- Microsoft Hyper-V Server 2012
- Microsoft Hyper-V Server 2012 R2
- Microsoft Hyper-V Server 2016
- Oracle VM VirtualBox 5.2
- Parallels Desktop for Mac 13.0.1
- VMware ESXi 6.5
- VMware Workstation Player 12.5
- VMware Workstation Pro 14.0.0
Поддерживаемые среды разработки
ABBYY FineReader Engine требует наличия библиотеки glibc версии 2.11 и выше. Если необходим ABBYY FineReader Engine для более ранних версий glibc, свяжитесь с офисом ABBYY.
Для использования динамической библиотеки ABBYY FineReader Engine необходимы стандартные библиотеки libstdc++.so.6, libgcc_s.so.1 и libgomp.so.1
Компьютер
ПК с x86-совместимым процессором (с тактовой частотой 1 ГГц и выше) и с поддержкой SSE и SSE 2.
Операционная система
- Fedora 31, 30, 29
- Red Hat Enterprise Linux 8.1, 7.7, 6.10
- SUSE Linux Enterprise Server 15 SP1, 12 SP4, 11 SP4
- Debian GNU/Linux 10.2, 9.11, 8.11
- Ubuntu 19.10, 19.04, 18.04.3 LTS, 16.04.6 LTS, 14.04.6 LTS
- CentOS 8.0, 7.7, 6.10
- ALT Linux 9.0, 8.2 (no support for Wibu dongles)
- Amazon Linux AMI 2018.03
Компания ABBYY также предоставляет услугу профессиональной адаптации ПО для других платформ.
Протестированные платформы облачных вычислений и виртуальные среды
- Microsoft Azure Virtual Machines
- Amazon EC2
- Microsoft Hyper-V Server 2012 R2
- Microsoft Hyper-V Server 2016
- Oracle VM VirtualBox 5.2
- VMware ESXi 6.5
- VMware Workstation Player 12.5
- VMware Workstation Pro 14.0.0
- Linux KVM
ABBYY FineReader Engine также может использоваться в Docker-контейнерах на поддерживаемых платформах.
ABBYY FineReader Engine Java wrapper был протестирован в следующих Java Development Kits:
- OpenJDK 13 x64
- OpenJDK 14 Early-Access (build 21) x64
- Oracle Java SE Development Kit 8u231 x64
- Oracle Java SE Development Kit 11.0.5 (LTS) x64
- Oracle Java SE Development Kit 13.0.1 x64
Память
- для обработки одностраничных документов: минимум 400 МБ ОЗУ, рекомендуется 1 ГБ
- для обработки многостраничных документов: минимум 1 ГБ ОЗУ, рекомендуется 1,5 ГБ
- для параллельной обработки: 350 МБ * (количество ядер) + 450 МБ ОЗУ
- для параллельной обработки документов на арабском или CJK языках: 850 МБ * (количество ядер) + 750 МБ ОЗУ
Место на жестком диске
2150 МБ для установки библиотек и 100 МБ для работы программы, а также дополнительно 15 МБ для каждой обрабатываемой страницы многостраничного документа.
Другие требования
- Объем tmpfs: 1ГБ*(количество ядер) + 4ГБ
- Объем swap: 1ГБ*(количество ядер) + 4ГБ
- ABBYY FineReader Engine совместим с системой инициализации systemd.
- Для правильного детектирования содержащихся в документах шрифтов, они должны быть установлены на компьютере.
Поддерживаемые среды разработки
ABBYY FineReader Engine для Linux предоставляет нативный C/C++ API и Java-обертку для него, поэтому приложения должны быть написаны на C/C++ или Java.
Компьютер
ПК с x86-совместимым процессором (с тактовой частотой 1 ГГц и выше).
Операционная система
- macOS 10.13.x High Sierra
- macOS 10.14.x Mojave
- macOS 10.15.x Catalina
Память
- для обработки одностраничных документов: минимум 400 МБ ОЗУ, рекомендуется 1 ГБ
- для обработки многостраничных документов: минимум 1 ГБ ОЗУ, рекомендуется 1,5 ГБ
Место на жестком диске
2500 МБ для установки библиотек и 100 МБ для работы программы, а также дополнительно 15 МБ для каждой обрабатываемой страницы многостраничного документа.
Для правильного детектирования содержащихся в документах шрифтов, они должны быть установлены на компьютере.
Поддерживаемые среды разработки
ABBYY FineReader Engine для Mac предоставляет только нативный C/C++ API, поэтому приложения должны быть написаны на C/C++.
Языки распознавания
ABBYY FineReader Engine 12 поддерживает самое большое количество языков распознавания на рынке. С его помощью можно распознавать языки, в письменности которых используются латиница, кириллица, греческие и армянские символы, а также арабский, бирманский (техническое превью), персидский (фарси), иврит, китайский, японский, корейский, русский языки и много других. Также доступна встроенная утилита для создания пользовательских словарей и шаблонов, что позволяет улучшить распознавания необычных слов или нетипичных шрифтов.
Кроме того, SDK подерживает обработку документов XVII-XIX столетий на английском, испанском, итальянском, немецком и французском языках, текстов на искусственных языках (эсперанто, интерлингва, идо и окциденталь), а также позволяет распознавать языки программирования (Basic, C/C++, COBOL, Fortran, JAVA и Pascal), простые химические формулы и цифры. В общей сложности, в ABBYY FineReader Engine поддержано 210 OCR и 126 ICR языков.
Опции сохранения для формата PDF устанавливаются на закладке PDF диалога Форматы. Для того чтобы открыть этот диалог, щелкните по кнопке Форматы, расположенной на закладке Сохранить диалога Опции (меню Сервис>Опции) или нажмите CTRL+SHIFT+X.
Следующие опции сохранения помогут вам настроить процесс сохранения и получить документы, пригодные для дальнейшего редактирования и использования. В программе ABBYY FineReader предусмотрены следующие настройки:
Размер бумаги по умолчанию
Вы можете указать размер бумаги, который будет использован при сохранении результатов распознавания в формат PDF. Размер бумаги задается в выпадающем списке Размер бумаги по умолчанию.
- Если вы не нашли нужный размер бумаги в списке, вы можете создать свой - пользовательский - размер бумаги и использовать его для сохранения распознанного текста. Для того чтобы создать пользовательский размер бумаги, выберите пункт Добавить пользовательский размер и в открывшемся диалоге укажите название, высоту и ширину пользовательского размера бумаги.
- Для того чтобы распознанный текст полностью умещался на странице при сохранении, отметьте опцию Автоматически увеличивать размер страницы. В этом случае выбор размера бумаги будет выполнен автоматически.
Формат сохранения
Формат сохранения выбирается в выпадающем списке Формат сохранения. Выбор формата сохранения оформления зависит от того, как вы будете использовать созданный документ в дальнейшем:
- Только изображение
В данном режиме сохраняется изображение страницы. Внешний вид полученного PDF документа будет не отличим от оригинала, однако, в таком документе невозможен поиск по тексту. - Только текст и картинки
В данном режиме сохраняются распознанный текст и иллюстрации. PDF файл такого типа имеет относительно небольшой размер, и в нем возможен полнотектовый поиск. - Текст поверх изображения страницы
В данном режиме сохраняются фон и иллюстрации исходного документа, на них накладывается распознанный текст. Обычно размер такого PDF файла больше, чем файла, получаемого при сохранении в режиме Только текст и картинки. В PDF документе этого типа есть возможность полнотектового поиска, однако внешний вид документа может немного отличаться от оригинала из-за того, что на изображение документа накладывается распознанный текст. - Текст под изображением страницы
В данном режиме сохраняется изображение страницы, распознанный текст помещается на невидимый слой под изображением. Таким образом получается документ с возможность поиска по тексту, при этом внешний вид PDF документа практически не отличим от оригинала.
Теги PDF
Помимо текста и иллюстраций PDF могут содержать информацию о структуре документа: логических частях, иллюстрациях и таблицах. Эта информация хранится в виде тегов PDF. Теги PDF обеспечивают удобство просмотра документа на экранах различного размера, например, на экранах карманных компьютеров.
Для того чтобы теги PDF были добавлены в документ автоматически, отметьте опцию Разрешить теги PDF (для Acrobat 5.0 или более поздней версии).
Параметры сохранения иллюстраций и шрифтов
Если распознанный текст содержит большое количество иллюстраций, то размер конечного файла может быть очень большим. Размер файла документа можно уменьшить, выбрав в группе Картинки подходящее значение качества и формат для сохраняемых иллюстраций.
Качество
Выбор уровня качества зависит от того, как вы будете использовать документ в дальнейшем. Из выпадающего списка Качество выберите:
- Высокое, если создаваемый документ предназначен для печати.
- Среднее, если создаваемый документ предназначен для просмотра на экране.
- Низкое, если создаваемый документ предназначен для размещения на веб-страницах.
Чем выше значение выбрано в списке Качество, тем выше будет качество иллюстраций. Размер файла также зависит от выбранного значения: чем оно выше, тем больше размер файла.
Совет. Чтобы подобрать оптимальное сочетание качества иллюстраций и размера файла, сохраните распознанный текст и иллюстрации в нескольких вариантах - с разными значениями из списка Качество - и откройте их в какой-нибудь графической программе.
Формат
При сохранении иллюстраций программа ABBYY FineReader автоматически подбирает наиболее подходящий формат. В этом случае в выпадающем списке Формат установлено значение (Авто).
Если вы хотите выбрать формат самостоятельно, то в выпадающем списке Формат, выберите одно из следующих значений:
- JPEG, цветной (для фотографий),
- JPEG, серый (для фотографий),
- LZW, цветной (без потерь),
- LZW, серый (без потерь),
- ZIP, цветной (без потерь),
- ZIP, серый (без потерь),
- CCITT4, черно-белый.
Шрифты
При сохранении распознанного текста в формат PDF format ABBYY FineReader могут использовать два набора шрифтов: стандартные шрифты Acrobat и системные шрифты, установленные на компьютере пользователя . Для того чтобы указать, какой набор шрифтов должен быть использован, в выпадающем списке Шрифт выберите :
- Использовать стандартные шрифты
При выборе данной опции PDF-файл содержит ссылку на стандартные шрифты Acrobat: TimesNewRoman, Arial, CourierNew. - Использовать системные шрифты
При выборе данной опции PDF-файл содержит ссылку на системные шрифты , установленные на компьютере пользователя .
Параметры защиты PDF
Вы можете задать пароли, защищающие ваш PDF документ от несанкционированного открытия, печати и редактирования .
JPEG 2000: серый и цветной TIFF: черно-белый - несжатый, CCITT3, CCITT3FAX, CCITT4, Packbits, ZIP серые - несжатый, Packbits, JPEG, ZIP TrueColor - несжатый, JPEG, ZIP Palette - несжатый, Packbits, ZIP многостраничный TIFF
PNG: черно-белый, серый, цветной
FineReader сохраняет изображения в следующих форматах:
BMP: черно-белый, серый, цветной
PCX: черно-белый, серый
JPEG: серый, цветнойJPEG 2000: серый и цветной TIFF: черно-белый - несжатые, CCITT3, CCITT4, packbits, ZIP серые - несжатый, packbits, JPEG, ZIP цветные - несжатый, JPEG, ZIP
PNG: черно-белый, серый, цветной
Поддерживаемые языки распознавания
ABBYY FineReader 7.0 поддерживает 177 языков распознавания.
Кликнув на названии языка в приведенном ниже списке, Вы можете получить справку по данному языку. Данные о числе носителей языка приведены на 2002 год.
Основные языки
Основная группа образована из языков со словарной поддержкой. Для этих языков в программе FineReader поддержана проверка распознанного текста (нахождение неуверенно распознанных слов и слов с орфографическими ошибками).
Один из германских языков. Основной язык международного общения. Один из языков ООН. Официальный язык США, Канады, Великобритании, Ирландии, Австралии, Новой Зеландии, 15 государств Африки: ЮАР, Нигерии, Ганы, Уганды, Кении, Танзании и др., Индии (временно). Носителей более 508 млн. чел.
армянский (восточный, западный, грабар)
Относится к индоевропейской семье языков. Официальный язык Армении. Распространен также в Азербайджане, Грузии, России. Старый литературный язык – грабар в настоящее время используется только как язык культа. У современного литературного языка два варианта – восточный (ереванский), используемый в Армении и западный, используемый на Ближнем Востоке и в Западной Европе. Носителей около 7 млн. чел.
Один из южнославянских языков. Официальный язык Болгарии. Количество носителей – немногим более 9 млн. чел.
Один из угорских (уральских) языков. Официальный язык Венгрии. Распространен также в граничащих с ней районах Югославии, Австрии, Словакии, Румынии, Украины. Носителей около 14.5 млн. чел.
Занимает изолированное положение внутри индоевропейской семьи языков. Официальный язык Греции и Кипра. Носителей около 12 млн. чел.
Один из германских (скандинавских) языков. Официальный язык Дании. Носителей около 5.5 млн. Распространен также на Фарерских островах, Гренландии.
Один из романских языков. Официальный язык Испании, всех стран Латинской Америки (кроме Бразилии) и Экваториальной Гвинеи. Один из языков ООН. Носителей около 325 млн. чел.
Один из романских языков. Официальный язык Италии. Носителей около 70 млн. чел.
Относится к иберо-романской подгруппе романских языков. Носители- около 8 млн. чел. в Испании (Каталония, Валенсия, Балеарские острова), Франции (Русильон, Восточные Пиренеи), Андорре и на острове Сардиния. Один из официальных языков вышеперечисленных областей Испании и Андорры.
Относится к балтийским языкам. Официальный язык Латвии. Носителей около 2 млн. чел.
Относится к балтийским языкам. Официальный язык Литвы. Носителей около 4 млн. чел.
немецкий (старая и новая орфография)
Один из германских языков. Официальный язык Германии, Австрии, Швейцарии, Люксембурга, Бельгии. Носителей около 128 млн. чел.
нидерландский (Нидерланды и Бельгия)
Один из германских языков. Официальный язык Нидерландов и Бельгии. Носителей около 20 млн. чел.
норвежский (нюнорск и букмол)
Относится к скандинавским (германским) языкам. Официальный язык Норвегии. Распространены 2 формы литературного языка: нюнорск и букмол, более близкий датскому. Носителей около 5 млн. чел.
Один из западнославянских языков. Официальный язык Польши. Носителей около 44 млн. чел.
португальский (Португалия и Бразилия)
Один из романских языков. Официальный язык Португалии, Бразилии, Анголы, Мозамбика, Гвинеи-Бисау, Кабо-Верде, Сан-Томе и Принсипи. Носителей около 191 млн. чел.
Один из романских языков. Официальный язык Румынии. Носителей около 26 млн. чел.
Относится к индоевропейским (славянским) языкам. Официальный язык Российской Федерации. Распространен также во всех государствах СНГ и Балтии. Носителей около 277 млн. чел.
Один из западнославянских языков. Официальный язык Словакии. Распространен в граничащих с ней районах Венгрии, Румынии и Украины. Носителей около 5.6 млн. чел.
Относится к тюркским языкам. Распространен в России (Татарстан, Башкирия, Чувашия, Мари Эл и др. регионы). Носителей около 7 млн. чел.
Относится к тюркским языкам. Официальный язык Турции и Кипра. Распространен также в Греции, Болгарии, Румынии, Иране и Ираке. Носителей около 61 млн. чел.
Один из восточнославянских языков. Официальный язык Украины. Распространен также в России и Белоруссии. Носителей около 47 млн.
Один из финно-угорских (прибалтийско-финских) языков. Официальный язык Финляндии. Также распространен в России (Карелия, Ленинградская область), Швеции. Носителей около 6 млн. чел.
Один из романских языков. Один из языков ООН. Официальный язык Франции, Бельгии, Швейцарии, Люксембурга, Монако, Андорры, Канады, Гаити, государств в Африке: Бенин, Кот д’Ивуар, Буркина-Фасо, Габон, Гвинея, Заир, Конго, Мали, Нигер, Сенегал, Того, Чад, Бурунди, Руанда, ЦАР, Мадагаскар, Камерун, Сейшельские острова, Коморские острова, Джибути, Вануату (Океания). Носителей более 128 млн. чел.
Один из южнославянских языков. До образования независимой Хорватии обычно рассматривался как сербскохорватский – единый литературный язык для сербов и хорватов, отличавшийся лишь графикой. Официальный язык Хорватии. Носителей около 5 млн.
Один из западнославянских языков. Официальный язык Чехии. Распространен также в Словакии. Носителей около 12 млн.
Один из скандинавских (германских) языков. Официальный язык Швеции и Финляндии. Носителей около 10 млн. чел.
Один из финно-угорских (прибалтийско-финских) языков. Официальный язык Эстонии. Носителей около 1.1 млн. чел.
Тут вы можете оставить комментарий к выбранному абзацу или сообщить об ошибке.
Читайте также: