Что представляют собой файлы форматов pdf djvu
Большинство компаний рано или поздно сталкивается с необходимостью введения электронного документооборота. При этом одним из наиболее важных вопросов становится выбор формата, в котором документы будут создаваться, храниться и передаваться в другие фирмы или удаленные подразделения. Сегодня мы сравним два таких формата: PDF и DjVu.
Пара слов о DjVu
История DjVu началась в 1996 году. Именно тогда одно из подразделений компании AT&T начало работу над созданием нового формата. Главная задача, которая была поставлена перед разработчиками – создать технологию хранения и пересылки отсканированных документов, то есть, фактически, документов в электронном виде. Однако в то время мало кто мог предположить, что в будущем компании будут обмениваться через глобальную сеть договорами и актами. Поэтому под документами понимались отсканированные журналы, газеты, книги, техническая документация. В 1998 году появились первые плагины для просмотра DjVu-документов с помощью браузеров.
В 1999 году была опубликована новая версия формата DjVu. В ней была реализована функция объединения нескольких изображений в один файл с возможностью перелистывания страниц, а также нанесения так называемых “горячих точек”, фактически, являющихся гиперссылками. В следующем году появилась третья версия формата DjVu. Примерно тогда же компания AT&T продала свою разработку фирме LizardTech, которая начала использовать ее в своих коммерческих продуктах. При этом сам формат является открытым. А поэтому сегодня существует немало бесплатного программного обеспечения для работы с ним.
Сам по себе формат DjVu является очень интересным решением, представляющим собой технологию сжатия изображения с потерями. Суть ее заключается в разделении документа на три слоя: передний план, задний план и черно-белую маску. Каждый из них обрабатывается по-своему. При этом используется целый ряд различных технологий: алгоритм отделения текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия фона IW44, алгоритм сжатия черно-белых изображений JB2, универсальный алгоритм сжатия ZP, алгоритм распаковки по запросу. Такой подход позволяет добиться максимальной степени сжатия при минимальных искажениях. Одна отсканированная из книги страница имеет в формате DjVu объем всего 10-25 кбайт.
Пара слов о PDF
Впервые о формате PDF (Portable Document Format) общественность услышала в 1991 году. Именно тогда компания Adobe Systems анонсировала его как новую технологию представления в электронном виде любой полиграфической продукции. Новинка получилась очень удачной. Уже в следующем году формат PDF получил приз на престижной международной выставке Comdex Fall. Компания Adobe Systems очень большое внимание уделяла развитию своей разработки. В 1994 году появилась версия 1.1 формата PDF, в которой была реализована поддержка внешних ссылок, машинно-независимого цвета, потоков статей, а также комментарии и некоторые функции, касающиеся безопасности. Следующая версия рассматриваемого формата появилась в 1996 году. В ней была реализована поддержка спецификации OPI 1.3 и цветового пространства CMYK.
Главным отличием формата PDF является его широкое распространение. Сегодня именно в этом формате поставляются многие руководства, технические документации, периодическая пресса и другие виды документов. И практически на каждом компьютере установлено программное обеспечение для просмотра документов в формате PDF.
Форматы DjVu и PDF: разные области применения
Если говорить об использовании форматов DjVu и PDF для организации электронного документооборота, то стоит обратить внимание на следующие особенности каждого из них. Главное достоинство формата DjVu – очень маленький размер файлов. Особенно он хорош при работе с такими документами, в которых много нераспознаваемых элементов: картинок, схем и формул. Кроме того, DjVu прекрасно подходит в случаях, когда необходимо передать не только сам текст, но и его оформление: цвет и фактуру носителя, существующие на нем дефекты и следы, которые оставили другие предметы. Таким образом, DjVu прекрасно подходит для хранения технической документации, например, инструкций и руководств, а также исторических и просто редких документов. Сегодня в глобальной сети существуют обширные библиотеки всевозможной литературы, которая записана в этом формате.
Однако обратите внимание, что каждый раз, говоря о файлах в формате DjVu, мы упоминаем о сканировании реально существующих на бумаге или другом носителе документах. И это неспроста. Данный формат изначально создавался для хранения именно отсканированных копий документов. И сегодня практически нет инструментов, да и необходимости, создавать DjVu-файлы как-то иначе.
Недостатков, препятствующих использованию формата DjVu в электронном документообороте, немало. Во-первых, в нем применяется сжатие данных с потерями. А это не очень хорошо, когда речь идет о договорах, актах, и других имеющих юридическую силу документах. Во-вторых, относительно малое распространение формата DjVu не позволяет компаниям свободно использовать его для обмена информацией со своими партнерами или клиентами. На подавляющем большинстве как корпоративных, так и домашних компьютеров просто-напросто нет программного обеспечения для просмотра таких электронных документов. В-третьих, в рассматриваемом формате полностью отсутствуют хоть какие-то средства для обеспечения безопасности и конфиденциальности документов.
Что касается формата PDF, то он больше подходит для организации электронного документооборота. Самое главное – это его широкое распространение. Как мы уже говорили, практически на каждом ПК вне зависимости от используемой на нем операционной системы установлено программное обеспечение, позволяющее не только прочитать PDF-документ, но и “материализовать” его на любом печатающем устройств. Причем именно в том виде, в котором его создал владелец. Таким образом, устраняется проблема совместимости форматов – одна из самых серьезных проблем в процессе организации электронного документооборота.
Вторым преимуществом формата PDF является встроенная защита от несанкционированного доступа. С ее помощью пользователь может обезопасить любой свой документ от просмотра или использования посторонними лицами. В качестве защиты применяется криптографическая технология, многократно протестированная как разработчиками программного обеспечения, так и экспертами в области информационной безопасности.
Ну и, наконец, третьим преимуществом PDF является его стандартизация организацией ISO (International Organization for Standardization). На данный момент этот формат уже имеет статус стандарта для хранения архивных документов и для обмена компаниями информацией в электронном виде. И это только начало. Разработчики формата собираются передать его спецификацию общественной организации Association for Information and Image Management. В этом случае существует очень большая вероятность того, что PDF станет международным стандартом для организации электронного документооборота.
Какой же вывод можно сделать из всего вышесказанного? Оказывается, форматы DjVu и PDF нельзя считать соперниками. Они предназначены для решения различных задач, а поэтому не соперничают, а дополняют друг друга. В качестве основы системы электронного документооборота лучше брать, конечно же, формат PDF, который, де-факто, стал общемировым стандартом. Стоит отметить, что в некоторых компаниях уже существуют цифровые DjVu-архивы технической и другой документации, созданные путем сканирования бумажных документов. Однако это не является основанием для выбора именно этого формата. Лучше построить современную, реально работающую систему электронного документооборота, а уже существующие DjVu-файлы просто конвертировать в формат PDF.
Конвертируем документы из DjVu в PDF
По принципу работы программа Universal Document Converter является виртуальным принтером. В процессе установки она создает в операционной системе дополнительное печатающее устройство, доступное в любом программном обеспечении. Печатая на этом принтере, на выходе пользователь получает файл нужного формата. Такой подход наиболее удобен на практике. Во-первых, он позволяет осуществлять процесс конвертирования быстро, практически без предварительной работы. Во-вторых, он настолько прост, что не требует обучения конечных пользователей.
Алгоритм конвертирования файла формата DjVu в PDF-документ с помощью программы Universal Document Converter выглядит следующим образом. Сначала пользователь должен открыть нужный файл DjVu. Сделать это можно в программе Internet Explorer с предварительно установленным специальным плагином. После этого ему остается только нажать на кнопку “Печать” и выбрать в качестве принтера Universal Document Converter.
Honeywell International, Inc.
«Универсальный конвертер документов – это лучшая программа для конвертирования документов из тех, что я использовал. Её очень просто установить и легко использовать. Экспорт документов в TIFF происходит без потери качества. Это очень важно для тех, кто занимается подготовкой оригинал-макетов для отправки в типографию.»
DjVu ("Дежавю") - это графический формат. То есть DjVu-файлы - это просто "картинки". Основное полезное свойство формата DjVu состоит в том, что он умеет наиболее хорошо (по сравнению со всеми остальными графическими форматами) "сжимать" сканированные изображения страниц бумажных книг - из-за чего этот формат широко применяется для создания электронных версий бумажных книг. Более подробную информацию о формате DjVu смотрите на главной странице сайта.
2. Как именно пользоваться форматом DjVu?
Как правило, это делается так: сначала необходимо каким-либо способом получить обычные графические файлы - "картинки" - содержащие изображения страниц бумажных книг. Обычно их получают путём сканирования бумажных книг. Потом эти обычные графические файлы кодируют в формат DjVu, отчего их размер сильно уменьшается - без потери качества изображения текста. Полученный DjVu-файл используется как электронная книга: его можно читать с экрана монитора, можно обмениваться друг с другом такими самодельными файлами через Интернет, можно распечатывать на принтере.
Но вообще-то закодировать в формат DjVu можно и текстовый файл (посредством виртуального DjVu-принтера) - только вряд ли это имеет смысл - текстовый файл всегда занимает гораздо меньший размер, чем любой соответствующий ему графический файл.
3. Какой программой кодировать файлы в формат DjVu (OC Windows)?
Используйте DjVu Small. Эта программа использует "фирменные" консольные утилиты от LizardTech - поэтому она ничем не хуже оригинального пакета LizardTech Document Express Enterpise with DjVu 5.1. Зато DjVu Small более удобна в работе и имеет маленький размер.
Кроме того, для этой цели можно использовать программы: LizardTech Document Express Enterpise with DjVu 5.1 (DEE 5.1), LizardTech Document Express Enterpise with DjVu 5.1 Light Edition (DEE 5.1 LE), Document Express Editor (5 или 6 версии), DjVu Solo 3.1. Однако все эти программы по разным причинам менее предпочтительны (либо они огромного размера, что затрудняет скачивание, либо крайне неудобны для пакетного кодирования).
4. Какой программой декодировать DjVu-файлы в обычные графические файлы (OC Windows)?
Используйте DjVu OCR 2 или выше. Это единственная программа, которая не даёт сбой при декодировании, если в многостраничном DjVu-файле некоторые "страницы" повреждены.
Кроме того, для этой цели можно использовать программы: DjVu Small, Irfan View + Irfan View DjVu Plugin v3.95 или выше, и любой обычный виртуальный принтер. Однако все эти программы по разным причинам менее предпочтительны (или это вероятность сбоя, или относительная сложность настройки).
5. Как декодировать один многостраничный DjVu-файл во множество одностраничных (обычных) графических файлов?
Используйте DjVu OCR 2 или выше. Он принимает на входе один многостраничный файл и декодирует его во множество одностраничных простых графических файлов.
Кстати - это вообще один из практических приёмов работы с форматом DjVu - преимущественная работа с многостраничными файлами. Если мы, работая с обычными графическими файлами, стараемся иметь дело в основном с одностраничными файлами (хотя бывают и многостраничные простые графические файлы), то в случае DjVu - наоборот - все стараются иметь дело с одним многостраничным DjVu-файлом, нежели чем с множеством составляющих его одностраничных DjVu-файлов. Это объясняется тем фактом, что обычные графические файлы мы можем редактировать, а DjVu-файлы - нет, а можем только просматривать их и декодировать в обычные файлы.
Поэтому Вы даже не сможете напрямую преобразовать множество одностраничных DjVu-файлов в соответствующее ему множество простых одностраничных графических файлов - Вам потребуется сначала собрать имеющееся множество одностраничных DjVu-файлов в один многостраничный DjVu-файл, и только потом декодировать его в желаемое множество простых одностраничных графических файлов - это политика LizardTech (судя по DEE 5.1) - поэтому она реализована также и в DjVu Small.
Добавлено 28.02.2011: На сегодняшний день наиболее рекомендованная программа для декодирования DjVu - это MiniDjVu Plus v1.3 (893 КБ). Пока что это единственная программа, которая при декодировании "битых" страниц многостраничного DjVu-файла (а также пустых белых) создаёт чистые белые листы (а все остальные программы в лучшем случае просто пропускают такие DjVu-страницы при декодировании). В дальнейшем такой функционал планируется добавить в DjVu Small.
6. Как собрать многостраничный DjVu-файл из множества одностраничных DjVu-файлов?
Используйте Document Express Editor v5.0.0 Build 16 plus (без OCR и справки). Откройте в нём первый в последовательности одностраничный DjVu-файл, затем выберите в меню Edit -> Insert Page(s) After. выберите в появившемся окне все остальные одностраничные DjVu-файлы из данной последовательности, и сохраните полученный многостраничный файл.
7. Как добавить одностраничный DjVu-файл в имеющийся многостраничный DjVu-файл?
См. предыдущий вопрос - нужно проделать точно такие же действия, только добавлять надо не множество, а один данный одностраничный DjVu-файл.
8. Чем просматривать DjVu-файлы (OC Windows)?
Используйте WinDjView. Это наилучший выбор - данная программа превосходит все прочие DjVu-просмотрщики - и даже "фирменный" броузерный DjVu-плагин от LizardTech.
9. Как напрямую переконвертировать Pdf-файл в DjVu-файл (Pdf -> DjVu)?
Для именно прямой конвертации используйте пакет Pdftodjvu LE. Преимущество такой конвертации в том, что при этом из Pdf-файла в DjVu-файл переносится OCR-слой и гиперссылки (но иногда бывают проблемы с русскими кодировками).
Однако, далеко не всегда имеет смысл делать именно прямую конвертацию Pdf -> DjVu. В отличие от формата DjVu, формат Pdf не является графическим. Формат Pdf - это формат-контейнер, который может содержать любой тип данных - текст, картинки, таблицы, даже аудио- и видеоинформацию. Формат Pdf обычно делится на такие виды:
- Векторный : в таком Pdf-файле содержится только символьная информация - текст, таблицы, графики, формулы, чертежи. Такие Pdf-файлы (внешне они выглядят как текст, набранный типографским шрифтом) лучше всего конвертировать в формат DjVu напрямую - получите отличное качество и наименьший размер DjVu-файла.
- Растровый : в таком Pdf-файле содержится только неформализованная информация - растровые картинки. Такие Pdf-файлы (внешне они выглядят как сканированное изображение текста) лучше всего конвертировать в формат DjVu НЕ напрямую - а по схеме "Pdf -> Tif -> DjVu". Всё дело в том, что прямой конвертер Pdftodjvu LE "заточен" именно на векторные Pdf-файлы, а растровые он плохо кодирует - получаются большие DjVu-файлы.
- Растрово-векторный : Такие Pdf-файлы, как правило, лучше конвертировать в формат DjVu НЕ напрямую - по схеме "Pdf -> Tif -> DjVu". И только в отдельных редких случаях можно применить прямое конвертирование "Pdf -> DjVu". Всё это зависит от конкретного Pdf-файла, от вида и соотношения растрового и векторного содержимого. Попробуйте оба варианта конвертирования и выберите наилучший.
10. Как напрямую переконвертировать DjVu-файл в Pdf-файл?
Это можно сделать при помощи какого-либо обычного виртуального принтера, например, Acrobat Distiller (устанавливается автоматически при инсталляции полного Adobe Acrobat (не-Reader'а) (показал наилучший результат), FinePrint v5.29, pdfFactory или LEADTOOLS ePrint v4.0. Правда, не все они корректно работают с русским языком.
При такой конвертации OCR-слой и гиперссылки не переносятся из DjVu-файла в Pdf-файл.
И ещё тут есть одна тонкость: если Вы печатаете из броузерного DjVu-плагина, то нельзя отправлять файл на печать выбором в пункте меню броузера "Файл" подпункта "Печать" - из-за этого DjVu-файл напечатается в виде пустых листов (видимо, какая-то ошибка реализации), а надо, кликнув правой кнопкой мыши на отображении файла в броузере, выбрать в контекстном меню пункт "Print. " и т.д.
11. Как напрямую переконвертировать DjVu-файл в Word'овский Doc-файл?
Это невозможно. Формат DjVu - это графический, а не текстовый формат. Поэтому DjVu-файлы не содержат никакой информации о структуре документа - в лучшем случае только внедрённый текстовый OCR-слой - так что информацию для подобной прямой переконвертации брать в DjVu-файле просто неоткуда.
Поэтому для создания Word'овского Doc-файла из DjVu-файла используется традиционный путь: DjVu-файл преобразуется в какой-нибудь обычный графический формат (см. п.5) и распознаётся в ABBYY FineReader v7.0 (или v8.0). В последних релизах ABBYY FineReader v9.0 предусмотрена прямая поддержка на чтение формата DjVu (при формировании пакета на распознавание).
Есть 2 способа решения этой проблемы:
А. Открывать этот файл и работать с ним в Document Express Editor v5.0.0 Build 16 plus (без OCR и справки) (2,0 МБ), а не в DjVuSolo v3.1 NonComm.
Б. Понизить версию этого djvu-файла при помощи утилиты DjVuVersion и тогда станет возможной полноценная работа с ним в DjVuSolo v3.1 NonComm.
13. Имеют ли DjVu-файлы встроенный текстовый OCR-слой?
И да, и нет. То есть возможность добавить в DjVu-файл текстовый OCR-слой существует (предусмотрена cпецификациями DjVu). Обычно содержимое DjVu-файла распознаётся посредством ABBYY FineReader v7.0 (или v8.0) и затем результат распознавания вставляется в DjVu-файл посредством программы DjVuOCR 2.1.
Но в то же время, есть и множество DjVu-файлов, где такой текстовый слой отсутствует (т.е. не был никем создан и вставлен) - потому-то и существует до сих пор ошибочное мнение, что DjVu-файл якобы не поддерживает встроенный OCR-слой.
14. Зачем вставлять текстовый OCR-слой в DjVu-файл?
Вопрос не так прост, как может показаться. Есть люди, которые делают DjVu-книги (т.е. DjVu-файлы) и умышленно не вставляют туда OCR-слой - т.к. из-за этого возрастает размер эл. книги и поэтому её становится дороже скачать из Интернета.
Обычно текстовый OCR-слой вставляют в DjVu-книгу просто для удобства - чтобы, читая такую книгу, можно было бы выделить мышкой нужный кусочек текста, скопировать его в буфер и вставить в текстовый файл.
Кстати - встроенный текстовый OCR-слой НЕ содержит никакой информации о структуре документа - это всего лишь простой сплошной текст без какого-либо форматирования (хотя в DjVu-файле при этом ещё имеется служебная информация и местоположении слов (или букв - опционально) текста).
Но есть и неизмеримо более важная и менее очевидная причина - почему нужно вставлять текстовый OCR-слой в DjVu-книги - для того, чтобы обеспечить возможность поиска информации внутри множества DjVu-книг по ключевым словам (если это не нужно Вам лично - то это потребуется тем, кто будет пользоваться Вашей книгой в числе прочих).
Для такого поиска используют разные программные средства - например, Google Desktop Search + DjVu Indexer Plugin или (что лучше всего) dtSearch + LizardTech DjVu iFilter.
В пределах одной DjVu-книги можно искать по ключевому слову прямо в DjVu-просмотрщике - например, в WinDjView (в броузерном DjVu-плагине тоже можно).
Не исключено, что когда-нибудь и популярные поисковые сервера Интернета сделают у себя поддержку такой возможности (хотя пока, к сожалению, налицо прямо противоположная тенденция).
Однако, далеко не во все DjVu-книги имеет смысл вставлять текстовый OCR-слой - в основном, только в DjVu-книги учебно-справочного характера. Скажем, в развлекательные DjVu-книги (например, о плаваниях капитана Кусто) вставлять текстовый OCR-слой смысла почти нет.
15. Как разобрать многостраничный DjVu-файл на одностраничные DjVu-файлы?
А зачем это Вам? Подобная необходимость практически никогда не должна возникать. Хотите декодировать многостраничный DjVu-файл в набор простых одностраничных графических файлов? Или же переконвертировать его в Pdf? Или осуществить иное преобразование? Так для этого вовсе не надо предварительно разбирать многостраничный DjVu-файл на составляющие его "страницы"- см. предыдущие вопросы.
Общий принцип таков:
С форматом DjVu наиболее удобно работать в форме многостраничных файлов - а не в форме соответствующего множества одностраничных DjVu-файлов.
А как же быть, если Вы хотите сделать выборку из имеющегося многостраничного DjVu-файла - то есть Вам нужно оформить некое подмножество "страниц" многостраничного DjVu-файла как новый отдельный многостраничный DjVu-файл?
Наиболее правильно это можно сделать так: декодируйте желаемый диапазон "страниц" многостраничного DjVu-файла в соответствующий ему набор простых одностраничных графических файлов (при помощи DjVu Small), а потом закодируйте полученные одностраничные графические файлы в новый DjVu-файл (также при помощи DjVu Small; и сделайте OCR по необходимости).
А почему же эту задачу нельзя выполнить разборкой-сборкой многостраничного DjVu-файла? И можно ли вообще проделать подобную разборку-сборку?
Да, такую разборку-сборку проделать можно. Но крайне нежелательно - сильно увеличивается размер файла. Причина в том, что при создании многостраничного DjVu-файла любой LizardTech DjVu-кодировщик использует т.н. "словари" (другое название - "djbz-словари"). Словарь - это особенная уловка для снижения размера многостраничного DjVu-файла. Словарь содержит список геометрических форм, повторяющихся на ряде DjVu-страниц и общих для них. Как правило, это буквы текста. Словарь обычно автоматически создаётся для каждых 10-20 страниц (это настраиваемый параметр) многостраничного DjVu-файла DjVu-кодировщиком при кодировании и автоматически интегрируется в получающийся многостраничный DjVu-файл.
Таким образом, в многостраничном DjVu-файле словари повторяются через каждые 10-20 страниц, и в словарях хранятся символы, общие для соответствующей группы 10-20 страниц - что в итоге даёт солидное снижение размера многостраничного DjVu-файла.
Практически все нынешние многостраничные DjVu-файлы имеют такие встроенные словари.
При разборке многостраничного DjVu-файла на одностраничные разбирающей программе приходится добавлять символы словаря в каждый полученный одностраничный DjVu-файл - что приводит к росту их размера. У меня в тестовом примере получилось увеличение примерно в полтора раза. И при обратной сборке полученных одностраничных DjVu-файлов результирующий многостраничный DjVu-файл остаётся с завышенным размером, равным сумме размеров "собранных" одностраничных DjVu-файлов - то есть словари не восстанавливаются при сборке.
Если же Вам, несмотря на все эти объяснения, всё-таки хочется проделать подобную разборку-сборку, то приведу описание этой процедуры.
Начнём с разборки: для этой операции можно использовать Document Express Editor v5.0.0 Build 16 plus (без OCR и справки) - выделять вручную отдельно каждую "страницу" в многостраничном DjVu-файле и сохранять её отдельно через "Save Page As. " - получите соответствующий набор одностраничных DjVu-файлов.
Однако, подобный ручной способ разборки неприемлем для больших DjVu-файлов. Для облегчения этой процедуры я сделал специальную простейшую консольную программу DjVu Unbundler (275 КБ).
Сборку полученных "разобранных" одностраничных DjVu-файлов можно осуществлять как обычно - при помощи программы Document Express Editor v5.0.0 Build 16 plus (без OCR и справки) - см. вопрос № 6.
16. Что делать, если у меня ни один DjVu-просмотрщик не работает?
Отключите 2-е ядро на своём 2-ядерном микропроцессоре (Хотя бы при помощи диспетчера задач) - и всё заработает.
17. Почему не следует использовать один большой словарь на всю книгу при кодировании в DjVu?
Отвечает Cptn_Cook:
1) Если файл смотрится по сети, то ничего не отобразится, пока не загрузится весь нужный словарь. Для типичной книги, словарь имеет размер 200-300 KB, для модема это существенно.
2) Если редактировать DjVu-файл при помощи DjVuLibre, то резка и склейка очень быстро приводит к тому, что словари начинают повторяться (не трудно понять, почему). При этом, если словарь порядка 10 КБ, то это не страшно, а если 200 КБ, то уже неприятно.
3) DjVu - довольно устойчивый к ошибкам формат, но если ошибка возникает в словаре, то ни одна страница, которая этим словарем пользуется, не отобразится (читай, вся книга при pages-per-dict = 10000).
4) Книга с одним большим словарём медленнее открывается в DjVu-просмотрщике - это заметно на глаз и вызывает раздражение у пользователя.
5) Большой словарь потребляет слишком много оперативной памяти - при работе с WinDjView.
На самом деле, совершенно не обязательно делать pages-per-dict = 10000. Такое значение дает выигрыш в размере файла 20%, но если использовать pages-per-dict = 20, то выигрыш (по сравнению с pages-per-dict = 10) 10%. Похоже, это неплохой компромис. Между прочим, any2djvu использовал pages-per-dict = 20, но потом поменял на pages-per-dict = 10, наверное потому, что в этом случае обработка быстрее.
18. Как распечатать файл формата DjVu?
Скачайте и установите программу WinDjView. Откройте в ней DjVu-файл, выберите в меню пункт "Файл" - "Печать" и распечатайте его.
19. Как напрямую преобразовать Word'овский Doc-файл в файл формата DjVu?
Есть 2 варианта:
1. Установите программу "виртуальный DjVu-принтер" и, открыв Doc-файл в Word'е, отправьте его на печать на этот виртуальный принтер.
20. Как закодировать множество одностраничных графических файлов в соответствующее множество одностраничных DjVu-файлов?
Лучше не делать этого. Наиболее правильно кодировать множество обычных графических файлов в один многостраничный DjVu-файл - т.к. при этом создаются словари разделённых символов, что заметно снижает размер получаемого DjVu-файла.
Если Вам это всё-таки действительно очень нужно, то используйте Document Express Enterprise 5.1 (можно Light Edition).
21. Как закодировать в DjVu цветные журналы?
Кодируйте обработанные сканы целиком либо в DjVuPhoto (при помощи DjVu Small или MiniDjVu Plus), либо в PDF-JPEG2000 (Adobe Acrobat Pro).
22. Как осуществлять полнотекстовый поиск по страницам множества DjVu-книг?
2. Архивариус 3000 (коммерческая программа). Очень хороший вариант.
Копирайт и электронные библиотеки
Путин разобрался с интернет-библиотеками (С 28.07.2004 вступил в силу новый "Закон об авторских и смежных правах")
. Автора! (Е. Любарская) (Очень важная статья - разъяснение текущего состояния эл. копирайта - прочитать обязательно!)
На пути к абсолютному знанию - 2 (Общие рассуждения о возможности и необходимости изменения российского копирайтного законодательства с целью учёта существования электронных библиотек)
Автор: monday2000.
Дата создания: 3 ноября 2006 г.
Последнее обновление: 4 апреля 2011 г.
Примечание: На этой странице всегда находятся самые свежие и актуальные версии наиболее важных DjVu-программ.
Обычно таким образом распространяется в сети не художественная литература, а книги содержащие рисунки, графики, формулы и прочие вещи, которые довольно сложно перевести в цифровой формат с помощью программ распознавания текстов.
Поначалу я считал, что этот странный формат djvu (дежавю — что это такое) представляет из себя обычный набор растровых изображений (фотографий), которые получились в результате сканирования книги. Но в этом случае размер файла был бы очень большим, а мы это не наблюдаем.
Что же представляет из себя файл с таким загадочным расширением и каким образом его можно открыть, чтобы начать чтение заключенной в «дежавю» информации, и какие программы при этом лучше всего использовать. На все эти вопросы я попытаюсь ответить в этой статье.
Что из себя представляет файл в формате Djvu
Оказывается, что djvu был разработан около пятнадцати лет назад и представляет из себя очень удачную смесь тестовых и графических форматов. В принципе, при оцифровке книг возможно два варианта развития событий:
- Производить распознавание текста на отсканированной странице и сохранять его с применение алгоритмов сжатия, что позволяет получить очень малый вес итогового файла. Недостатком является то, что теряются изображения, фон, записи на полях, загнутые уголки и прочие вещи, которые могут быть важны в некоторых случаях. Но зато по распознанным текстам можно будет вести полноценный поиск.
- Можно сохранять отсканированные тексты в виде картинок, для чего подойдут такие форматы растровой графики, как gif, png, jpeg или tiff. Однако при этом вес даже одной отсканированной страницы будет чрезмерно высок, если мы захотим сохранить качество. Ну, и невозможно будет вести поиск по текстам.
Достоинства описанных выше способов объединяет в себе Djvu, при этом практически не имея недостатков. Формат Дежавю можно отнести к текстово-графическим, что само по себе уже звучит необычно, но зато сулит массу дивидендов. Судите сами:
- Исходное отсканированное изображение сжимается в Djvu в десять раз плотнее, чем это было бы при использовании JPEG и при этом практически не изменяется его качество. При этом jpeg обязательно размоет и текст, и графику, и все что только можно, а наш герой все оставит в первоначальном виде.
- Лист формата A4, отсканированный и переведенный в дежавю, будет весить в районе 50 килобайт (читайте про то, сколько килобайт в мегабайте), если исходник был с цветной графикой (или фоном), и в районе 10 килобайт — если черно-белый. Лепота, и это с учетом того, что сканирование производилось в высоком разрешении 300 DPI. Тот же файл, сохраненный в формате tiff (без потери качества), весил бы в несколько сотен раз больше.
- Файл Djvu содержит текстовый слой, по которому можно вести полноценный поиск, а при желании можно оставить только его (удалив цветовую маску и фоновую информацию), что еще существеннее уменьшит размер.
Достигается все это благодаря довольно оригинальному подходу. Я могу ошибаться, но, по-моему, он заключается в следующем:
- Разделяют между собой текст страницы и ее фон. Алгоритм отслеживает много факторов и при правильных настройках может даже выдрать текстовую составляющую с обложки журнал, где слова могут использоваться и в качестве фона.
- Текст сохраняется в однобитовом варианте (черно-белом) и сжимается довольно плотно.
- Отдельно сохраняется фон, который сжимается чуть менее эффективно.
- Информация о цвете текста и используемых в книге иллюстраций так же сжимается, но уже по другому алгоритму.
- Как я уже упоминал, формат Djvu предусматривает наличие отдельного текстового поля, благодаря которому можно осуществлять поиск по отсканированным книгам.
Но вопросы создания и принципов формирования данных в файлах дежавю нас интересуют постольку-поскольку, а гораздо интереснее будет узнать, каким образом их можно открыть и прочитать Djvu.
Естественно, что для этой цели используются специальные программы для чтения (ридеры), которые имеют место быть и для компьютера, и для мобильных устройств на базе Андроида или iOs (ipad, iPhone). Удобно же ведь по дороге домой или на работу повысить свой уровень образованности благодаря чтению на мобильнике умной книжечки.
Чем открыть Djvu — программы для чтения на компьютере
Существуете несколько программ, которые ориентированы на работу только с файлами дежавю, а есть ряд универсальных решений, которые позволяют читать книги практически в любом виде. Так же имеются редакторы Djvu, которые позволяют корректировать или даже создавать свои собственные шедевры.
Среде ридеров Дежавю, предназначенных для компьютера, стоит выделить следующие читалки:
WinDjView — это первая программа, с которой я познакомился уже много лет назад и которой продолжаю пользоваться для чтения книг и журналов в формате Djvu до сих пор.
Она полностью поддерживает русский язык и ее даже успел охомутать «великий и ужасный» Yandex, принуждая вас чуть ли не силой сделать Яндекс домашней страницей и поиском по умолчанию во всех ваших браузерах:
В общем-то они дают возможность отказаться от всего этого богатства (включая Элементы), но далеко не все при установке программы обращают на это внимание. Конечно же, у той же поисковой системы Вебальты все это выглядит еще более навязчиво, но и ведущий поисковик рунета тоже уже все бесплатные программы заполонил своими надстройками по самое «не балуйся».
Как я уже упоминал, в Djvu может быть зашит текстовый слой, поэтому при чтении книг содержащих его можно осуществлять поиск по словам и фразам.
Слева у WinDjView имеется навигатор с миниатюрами страниц, а вверху расположена панель инструментов, где можно открыть новый файл, поменять масштаб и тип отображения страниц (бесконечная лента или имитация разворота книги), а также повернуть их при необходимости на угол кратный 90 градусам.
Что примечательно, эта читалка формата дежавю открывает новые книги на новых вкладках, что позволяет работать сразу с несколькими материалами в одном окне программы. Еще имеется возможность делать закладки и оставлять комментарии (из контекстного меню правой кнопки мыши). Можно использовать экранную лупу с панели инструментов и полноэкранный режим просмотра (в этом случае странички можно листать простым щелчком мыши).
Если выбрать из меню программы WinDjView «Файл» — «Настройки», то на второй вкладке можно будет задать инвертирование цветов (например, для того чтобы читать белый текст на черном фоне), а так же настроить яркость, контрастность или гамму для лучшего восприятия документа в формате Djvu.
В начале статьи я упоминал, что в дежавю отсканированный документ разбивают на черно-белую текстовую составляющую, фон и информацию о цвете переднего плана. Так вот, в WinDjView все это можно наглядно увидеть, выбрав из меню «вид» — «режим».
DjVu Reader (DjVuReader) — говоря, что WinDjView была моей первой программой для открытия djvu, я немного ошибся, ибо таковым был именно дежавю ридер, который сейчас уже авторами не поддерживается.
Последняя актуальная версия датируется 2005 годом (версия 2.0.0.26) и ее совместимость с современными ОС не гарантируется, хотя на моей Windows Vista он по-прежнему работает, правда не так шустро, как его современный аналог описанный чуть выше. Установки он не требует и работает прямо из папки, куда вы распаковали архив с программой.
Официальный сайт разработчика находится на Народе от Яндекса (который сейчас был отдан на растерзание Юкозу) и представляет из себя не очень приглядное зрелище. Собственно, сам разработчик советует использовать вместо его DjVu Reader современный WinDjView, что лично я и делаю.
STDU Viewer — по ссылке доступна как портативная, так и обычная версия универсальной программы-ридера, которой по силам не только открыть Djvu файл, но и PDF, FB2, EPub, постраничный TIFF и многие другие популярные форматы. В общем это комбайн, который очень даже неплохо справляется со своей задачей.
При установке нужно поставить галочку, что вы не будете использовать эту читалку в коммерческих целях, чтобы не платить за программу.
Ну, и так же STDU Viewer спросит вас, с какими именно расширениями файлов вы хотели бы его ассоциировать, кроме дежавю.
В принципе, в этой читалке нет чего-то такого глобального, чего не было бы в WinDjView, но. Во-первых, подкупает огромное количество форматов, которые можно открыть и прочитать с помощью этой программы.
Во-вторых, очень удобный и продуманный интерфейс.
Практически весь функционал ридера выведен в виде панелей инструментов, расположенных по всему периметру окна программы. То место, где обычно отображают миниатюры страниц читаемой книги, имеет целых шесть вкладок расположенных внизу.
Не все они применимы к Djvu, но все же. Те же закладки, которые можно будет оформить в виде дерева, вполне смогут заменить отсутствующую навигацию по вашей настольной книге или справочнику.
Настройки яркости и контраста тоже выведены в виде иконки в правом нижнем углу, где так же находятся и кнопки переключения режима отображения документа.
В-третьих, имеются некоторые приятные функциональные изыски, которые помогут при повседневной работе с STDU Viewer:
Ну и, в-четвертых, это огромное число настроек, которые можно сделать в STDU Viewer, чтобы данный ридер полностью подходил под ваши привычки и потребности.
Например, можно настроить (Файл — Настройки программы) даже внешний вид вкладок, что, конечно же, является пустячком, но довольно приятным:
Djvu читалки для Андроида и iOs (iPad и iPhone)
Почему-то читать книги у меня получается в основном в дороге, а за стационарным компьютером всегда находится масса других, более важных и интересных дел. В связи с этим у меня встала задача скачать какой-нибудь подходящий дежавю ридер для моего любимого iPad, полученного в подарок от Профит Партнера, но и в купе ко всему — для телефона на базе Андроида.
При этом я стараюсь перепробовать все бесплатные варианты программ и приложений, прежде чем прийти к выводу, что другого варианта, как расстаться с кровнозаработанными, у меня не остается. Собственно, основными кандидатами на место Djvu читалки для iOs в интернете рекомендуют DjVU Book Reader.
Вроде бы все хорошо, и отзывы, и скриншоты, но вот просят за него хоть и небольшую, но все же сумму денег (169 рублей). Мне подумалось, что на этой софтине свет клином не сошелся и я в Apple Store ввел в поисковой строке слово Djvu и попросил отфильтровать только бесплатные приложения.
После тестирования на предмет открывания различных файлов в формате дежавю и оценки удобства использования и функционала, среди бесплатных программ для iPad выявился однозначный лидер — KyBook.
Софтинка уникальная, на мой взгляд, ибо при своей бесплатности полноценно поддерживает EPUB, FB2, PDF, DJVU, CBR, CBZ и аудиокниги в формате MP3, M4A, M4B.
При чтении странички красиво перелистываются (анимацию можно настроить), есть масса настроек и функциональных возможностей, таких как создание закладок, оставление заметок, поиск по содержимому книги и т.п. вещей, которые доступны из верхней панели инструментов.
Настроек у читалки KyBook неожиданно много:
В том числе имеется отдельная группа настроек этого ридера для форматов PDF и DJVU:
В библиотеке данного ридера можно осуществлять сортировку книг, создавать для них полочки, перемещать файлы между ними, переименовывать и делать все, что обычно требуется от подобных программ.
Кроме этого, имеется возможность использовать имеющиеся у вас приложения для работы с облачными хранилищами типа Облака DropBox, Яндекс Облака или Гугл драйв.
Правда, предоставляя доступ к своим файлам в Дропбоксе и других облаках, KyBook вас предупреждает, что он их даже может изменять, что лично мне не очень по душе.
Поэтому я Djvu файлы кидают в папку Dropbox на компьютере (по Wi-Fi), после чего открываю одноименное приложение на Ipad и добавляю их в избранное, чтобы они потом не тянулись по мобильному инету, который не всегда быстрый и к тому же лимитированный.
Когда хочу почитать одну из загруженных дежавю книг или журналов, то в Дропбоксе на Айпаде просто кликаю по нему, а потом выбираю вариант ее открытия в KyBook.
Мне кажется, что так будет безопаснее.
Теперича пора переходить к вопросу, как открыть Djvu на Андроиде. Интернет подсказал мне, что оптимальными вариантами являются два бесплатных приложения, которые и используются мною до сих пор, ибо особых нареканий по их работе у меня не появилось, но на всякий оставил их оба — вдруг какой-нибудь крученный файл дежа вю один из них открыть не сможет.
Итак, представляю вам читалки дежавю для Андроида:
EBookDroid — очень красивый и вполне работоспособный ридер форматов PDF, DjVu, XPS, Comic books, fb2, EPUB и RTF. Для заливки файликов на устройство я опять же использовал Dropbox, который при попытке открыть в нем дежавю-книжку предлагает мне выбрать одну из двух установленных на телефоне читалок:
Библиотека в EBookDroid очень классно стилизована под книжные полки с паутинкой и вашими фолиантами, стоящими в рядок:
Просмотр книги в этой читалке осуществляется простым скроллингом пальцев, а из верхнего меню можно получить доступ к огромному числу настроек этой замечательной программы:
Orion Viewer — неплохая альтернатива описанной выше читалке. Умеет практически все то же самое, поддерживает форматы pdf, djvu, xps и cbz.
Из преимуществ перед предыдущим ридером, можно назвать хитрую систему разрезания больших листов (например, журнальных) на фрагменты как по горизонтали, так и по вертикали (например, на четыре экрана каждую страницу), которые будут подгружаться друг за другом простым двойным кликом по экрану.
Именно благодаря последней особенности Orion Viewer позволяет довольно комфортно читать большеформатный DjVu и PDF на сравнительно небольшом экране смартфона. Работает по субъективному впечатлению побыстрее, чем предыдущая читалка для Андроида, хотя разница не особо большая.
Комментарии и отзывы (7)
Спасибо, Дмитрий, за полезную статью.
В последнее время приходится встречаться с новыми (для меня) форматами электронных книг и порой не знаешь, как к ним подступиться.
Буквально вчера потратил несколько часов, чтобы разобраться с купленной в ОЗОНЕ книгой, которая оказалась ePub.
Хочу задать еще один вопрос по близкой теме.
AMAZON не продает книги в обычных электронных форматах, только бумажные. Для тех, кого это не устраивает предлагается приобрести специальную железяку () с программой — Kindle. Цена 69 дол., но при переводе валюты получается раза в 3 дороже. Если не заказывать часто книги на английском, то для 2-3 книг вроде и смысла нет.
А Вы знаете об этой Kindle?
Поделитесь своим мнением.
Блог по-моему о сайтах? или мы уже всё разобрали?)
Александр Логинов: не компетентен в этом вопросе.
Andrey: читаю в этом формате книжки про сайты, их создание, продвижение и т.п. — уже аргумент в пользу его обсуждения.
Ценность этого обзора разных программ — методов чтения книг в разных системах, увы!, уничтожается отсутствием дат этого творения, даты написания статьи.
Согласитесь, что программы 90-х годов очень отличаются от 2010—2016 гг.
Любая информация только тогда становится полезной, если она привязана к дате.
Иначе — это просто демонстрация собственной эрудиции, а не потребителя.
Спасибо большое. Очень хорошая статья, даже независимо от времени))) Все очень доходчиво. Спасибо.
В нашем блоге мы уже обсуждали специфику стандартов DjVu, FB2 и FB3. Сегодня рассказываем про формат PDF, который стал воплощением мечты о «безбумажном офисе».
/ Flickr / Kim Siever / PD
Краткая история формата
Создателем PDF, или Portable Document Format, выступил Джон Уорнок (John Warnock), один из основателей Adobe, который захотел облегчить процесс распечатки текста и изображений с компьютера. В 1984 году Уорнок представил язык описания страниц PostScript.
В «Википедии» в качестве примера приводится код на PostScript, который отрисовывает несколько слов «Wikipedia» по кругу.
Изначально PostScript разрабатывался как инструмент для распечатки документов на принтере, но позже Уорнок решил, что с помощью нового языка можно не только выводить документы на печать, но и полностью «оцифровать» систему документооборота.
В рамках этого видения в Adobe (основателем которой был Уорнок) создали формат IPS (расшифровывается аббревиатура как Interchange PostScript). Для работы с ним был создан Adobe Illustrator — кроссплатформенный графический редактор для Windows и Mac.
Впервые IPS показали на конференции Seybold в Сан-Хосе в 1991 году, но с таким названием формат просуществовал два года — в 1993 его переименовали в PDF. Тогда же появились Acrobat Distiller и Acrobat Reader (позднее переименованная в Adobe Reader).
Первое время PDF не пользовался популярностью. Всему виной была высокая цена на софт: Acrobat Distiller для личного пользования стоил 700 долларов, а для корпоративного — 2500 долларов. За Acrobat Reader просили еще 50 долларов. Со временем Adobe снизили цены, и популярность PDF стала набирать обороты.
К началу нулевых Acrobat Reader 4.0 скачали сто миллионов человек, а PDF-формат стали использовать крупные ИТ-компании, например Microsoft и Apple.
Как «работает» PDF
Базовый подход к представлению графики и текста в PDF очень похож на тот, что использовался PostScript. За отображение текста на странице отвечают так называемые текстовые элементы. Они обозначают, в каком месте должны быть отрисованы символы. На «Википедии» приводится код для написания Hello World:
Для отрисовки векторной графики в PDF используются контуры (paths): прямые линии или кубические кривые Безье. Фигуры, построенные с помощью контуров, можно залить цветом или заштриховать. Что касается растровых изображений, то их представляют в виде словарей и потоков. В словарях описаны свойства, а поток содержит двоичную информацию об изображении.
Размер PDF-файла зависит от разрешения картинок, параметров шрифтов, использования гиперссылок, видео и проч. До двухтысячных годов размер PDF-файлов измерялся мегабайтами, потому что большинство документов составляли из JPEG-картинок. Для решения этой проблемы в Adobe предложили технологию сжатия MRC (Mixed Raster Content).
MRC «делит» отсканированный файл на слои: фоновый слой, слой текста и цветовую маску. За сжатие информации, имеющейся на каждом слое, отвечает свой кодек. Например, для текста может использоваться JBIG2, который формирует группы из похожих букв и составляет из них словарь. Так, одинаковые символы кодируются по одному разу, а в остальных местах используются просто ссылки на них.
Для сжатия другого контента задействуют кодеки JPEG, JPEG2000 или ZIP. С помощью них сохраняются фон изображения, цветовыделение текста, картинки и фотографии. За счет такого подхода размер каждой страницы уменьшается в два раза и более. Наглядные примеры сжатия PDF приводит компания Abbyy в их блоге на Хабре.
Достоинства формата PDF
Одним из главных достоинств PDF-файлов является тот факт, что все страницы выглядят именно так, как их задумал автор документа. Формат сохраняет оригинальный фон, шрифты и картинки в первозданном виде, независимо от устройства или операционной системы. При этом PDF позволяет работать с интерактивными элементами: гиперссылками для навигации по сноскам. Также в документ добавляются медиафайлы: музыка, GIF и даже видеоролики.
При этом PDF-файл можно сделать доступным только для чтения, что помогает защитить содержимое документа от копирования и внесения изменений. Для дополнительной защиты есть возможность поставить пароль или электронную подпись.
Другое достоинство формата — его доступность. Программа для чтения PDF-документа Adobe Acrobat Reader сегодня лежит в сети в свободном доступе. Открывать PDF можно и на электронных книгах. Большая часть из них «умеет» работать с этим форматом по умолчанию. Его поддерживают многие приложения-читалки, например, FBreader или NEO Reader.
Минусы формата
На рынке есть электронные читалки с разрешением дисплея в 13,3 или 10,3 дюйма, что позволяет комфортно работать с листами PDF формата А4. Примерами таких гаджетов могут быть ONYX BOOX MAX 2 (обзор которого мы подготовили в нашем блоге), ONYX BOOX Note или ONYX BOOX Gulliver (на него тоже есть обзор). Они дают возможность рассмотреть все детали чертежей и иллюстраций в оригинальном размере и подойдут тем, кому часто приходится читать техническую литературу. Однако стоимость таких гаджетов довольно высока.
Возникает и другая проблема с отображением страниц документов. Она связана с форматом JBIG2. Хотя кодек позволяет сжать текст в несколько раз, он подвержен влиянию проблемы «инь» (о ней мы писали в материале про DjVu). При сжатии текста и составлении словаря некоторые символы заменяются на похожие (например, «и» превращается в «н»), что приводит к искажению сути текста.
С редактированием PDF-файлов также возникают проблемы, так как для этого приходится устанавливать специальные программы, которые часто платные (например, Acrobat DC). В сети найдутся и бесплатные сервисы для редактирования вроде PDF2GO, но они позволяют лишь добавить текст или картинки «поверх» оригинального файла.
Дальнейшее развитие
Несмотря на недостатки, сегодня PDF остается популярным форматом. Маркетинговая компания HubSpot спросила три тысячи посетителей своего сайта о том, что они делают с электронными книгами: читают онлайн или скачивают в PDF. Выяснилось, что 90% респондентов предпочитают скачивать PDF-файл.
Разработчики постоянно добавляют новые фичи, в том числе и для чтения на портативных гаджетах. К примеру, в начале 2018 команда Adobe снабдила приложение Acrobat DC улучшенными функциями отображения и редактирования файлов на мобильных устройствах.
Кроме того, в августе появились сведения о новом проекте — PDF audible. Он позволит совместить возможности PDF и функциональность голосовых помощников: Alexa, Google Home и Siri. Пока готов только прототип, но разработчики обещают выпустить рабочую версию в ближайшее время.
В Adobe следят за новыми направлениями и намерены сделать формат более интерактивным, например, добавить функции дополненной реальности. Как это будет выглядеть, пока не ясно, но разработчики обещают, что PDF-экосистема в ближайшие годы выйдет на новый уровень взаимодействия с пользователем.
В начале 70-х годов американский писатель Майкл Харт (Michael Hart) сумел получить неограниченный доступ к компьютеру Xerox Sigma 5, установленному в университете штата Иллинойс. Чтобы достойно использовать ресурсы машины, он решил создать первую электронную книгу, перепечатав Декларацию независимости США.
Сегодня цифровая литература получила широкое распространение, во многом благодаря развитию портативных устройств (смартфонов, ридеров, ноутбуков). Это привело к появлению большого количества форматов электронных книг. Попробуем разобраться в их особенностях и расскажем историю наиболее популярных из них — начнем с формата DjVu.
/ Flickr / Lane Pearman / CC
Возникновение формата
DjVu был разработан в 1996 году компанией AT&T Labs с одной целью — дать веб-разработчикам инструмент для распространения изображений в высоком разрешении через интернет.
Дело в том, что в то время 90% всей информации все еще хранилось на бумаге, а многие из важных документов имели цветные изображения и фотографии. Чтобы сохранить читаемость текста и качество картинок, приходилось делать сканы в высоком разрешении.
Классические веб-форматы — JPEG, GIF и PNG — позволяли работать с такими изображениями, но ценой объема. В случае JPEG, чтобы текст был читаем на экране монитора, приходилось сканировать документ с разрешением 300 dpi. Цветная страница журнала при этом занимала порядка 500 Кбайт. Скачивание файлов такого объема из интернета в то время было довольно трудоемким процессом.
С целью решить эти проблемы AT&T и разработали DjVu. Он позволил сжимать отсканированные цветные документы с разрешением 300 dpi до 40–60 Кбайт, при размере оригинала в 25 Мбайт. Размеры чёрно-белых страниц DjVu уменьшил до 10–30 Кбайт.
Как DjVu сжимает документы
DjVu может работать как с бумажными отсканированными документами, так и с другими цифровыми форматами, например PDF. В основе работы DjVu лежит технология, разбивающая изображение на три компонента: передний план, задний план и чёрно-белую (битовую) маску.
Маска сохраняется с разрешением исходного файла и содержит изображение текста и прочие чёткие детали — тонкие линии и схемы — а также контрастные картинки.
Она имеет разрешение 300 dpi, чтобы тонкие линии и контуры букв оставались четкими, и сжимается с помощью алгоритма JB2, который представляет собой вариацию алгоритма JBIG2, предложенного AT&T для работы факсов. Особенностью JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. Таким образом, в многостраничных документах каждые несколько последовательных страниц пользуются общим «словарём».
Задний план содержит текстуру страницы и иллюстрации, а его разрешение меньше, чем у маски. Фон без потерь для восприятия сохраняется с разрешением 100 dpi.
Передний план хранит цветовую информацию о маске, и его разрешение обычно понижается ещё сильнее, так как в большинстве случаев цвет текста черный и одинаковый для одного печатного знака. Для сжатия переднего и заднего планов используется вейвлетное сжатие.
Заключительным этапом создания DjVu-документа становится энтропийное кодирование, когда адаптивный арифметический кодировщик превращает последовательности одинаковых символов в бинарное значение.
Достоинства формата
Задачей DjVu было сохранить «свойства» бумажного документа в цифровом виде, позволив работать с такими документами даже слабым компьютерам. Поэтому ПО для просмотра DjVu-файлов обладает возможностью «быстрого рендеринга». Благодаря ей в память загружается только тот кусочек DjVu-страницы, который должен отображаться на экране.
Это также дает возможность просматривать «недокачанные» файлы, то есть отдельные страницы многостраничного DjVu-документа. При этом используется прогрессивная прорисовка деталей изображения, когда компоненты как бы «проявляются» по мере закачки файла (как в JPEG).
20 лет назад, когда был представлен этот формат, загрузка страницы происходила в три этапа: сперва грузилась текстовая составляющая, через пару секунд подгружались первые версии изображений и фон. Уже после «проявлялась» вся страница книги.
Наличие трёхуровневой структуры также позволяет осуществлять поиск по отсканированным книгам (так как есть специальный текстовый слой). Это оказалось удобно при работе с технической литературой и справочниками, поэтому DjVu стал основой для нескольких библиотек научных книг. Например, в 2002 году он был выбран Архивом Интернета в качестве одного из форматов (вместе с TIFF и PDF) для проекта по сохранению отсканированных книг из открытых источников.
Недостатки формата
Однако, как и все технологии, DjVu имеет свои минусы. Например, при кодировании сканов книг в формат DjVu некоторые символы в документе могут подменяться на другие, внешне похожие. Наиболее часто это происходит с буквами «и» и «н», отчего эта проблема получила название «проблема инь». Она не зависит от языка текста и влияет, в том числе, на цифры и другие мелкие повторяющиеся знаки.
Её причина — ошибки классификации символов в кодировщике JB2. Он «дробит» сканы на группы по 10–20 штук и формирует для каждой из групп словарь общих символов. Словарь содержит образцы общих букв и цифр со страницами и координатами их появления. Когда вы просматриваете DjVu-книгу, символы из словаря подставляются в нужные места.
Это позволяет уменьшить размеры DjVu-файла, однако, если отображения двух букв визуально похожи, кодировщик может их или перепутать, или принять за одинаковые. Иногда это приводит к порче формул в техническом документе. Для решения этой проблемы можно отказаться от алгоритмов сжатия, однако это увеличит размеры цифровой копии книги.
Другим недостатком формата является то, что он не поддерживается по умолчанию во многих современных ОС (в том числе мобильных). Поэтому для работы с ним нужно ставить сторонние программы, такие как DjVuReader, WinDjView, Evince и др. Однако здесь хотелось бы отметить, что некоторые электронные читалки (например, ONYX BOOX) поддерживает формат DjVu «из коробки» — так как необходимые приложения там уже установлены.
Кстати, о том, что еще могут приложения для ридеров на базе Android, мы рассказывали в одном из предыдущих материалов.
Ридер ONYX BOOX Chronos
Еще одна проблема формата проявляется при работе с DjVu-документами на небольших экранах мобильных устройств — смартфонах, планшетах, ридерах. Иногда DjVu-файлы представлены в виде скана разворота книги, а профессиональная литература и рабочие документы часто имеют формат А4, поэтому приходится «двигать» изображение в поисках информации.
Однако отметим, что эта проблема также решаема. Проще всего, конечно, поискать документ в другом формате — но если такой вариант невозможен (например, вам нужно работать с большим количеством технической литературы в DjVu), то можно воспользоваться электронными читалками с большой диагональю от 9,7 до 13,3 дюйма, которые специально «заточены» под работу с подобными документами.
Например, в линейке ONYX BOOX такими устройствами являются Chronos и MAX 2 (кстати, мы подготовили обзор этой модели ридера, и в скором времени опубликуем его в нашем блоге), а также Note, который имеет экран E Ink Mobius Carta с диагональю 10,3 дюйма и повышенным разрешением. Такие устройства позволяют спокойно рассмотреть все детали иллюстраций в оригинальном размере и подойдут тем, кому часто приходится читать учебную или техническую литературу. Для просмотра файлов DjVu и PDF используется NEO Reader, который дает настраивать контраст и толщину оцифрованных шрифтов.
Несмотря на имеющиеся у формата недостатки, на сегодняшний день DjVu остается одним из самых популярных форматов для «сохранения» литературных произведений. Во многом это обусловлено тем, что он является открытым, а обойти его некоторые технологические ограничения сегодня позволяют современные технологии и разработки.
В следующих материалах мы продолжим рассказ об истории появления форматов электронных книг и особенностях их работы.
Читайте также:
- Как анимировать крылья в after effects
- Какое среднее количество осадков выпало за сутки в осенние месяцы сентябрь октябрь ноябрь excel
- Сообщение не доставлено так как поставщик услуг электронной почты получателя отклонил его outlook
- Максимизировать совместимость в фотошопе это
- Как удалить propellerads com из браузера