Формат файла pdf a
«Рекомендации по комплектованию, учету и организации хранения электронных архивных документов в архивах организаций», разработанные Росархивом/ВНИИДАД2, рекомендуют при подготовке электронных документов к передаче на хранение в архив организации производить их конвертацию в формат PDF/A-1, который далее называют форматом архивного хранения. Согласно рекомендациям контейнер электронного документа должен представлять собой сжатую zip-папку. Туда необходимо включить сам электронный документ в формате архивного хранения (PDF/A-1), а также метаданные документа (в формате XML), включая электронные подписи. При этом проверка наличия и состояния основных и рабочих экземпляров электронных документов проводится при приеме электронных документов в архив организации, потом через год после приема электронных документов на хранение в архив и далее с периодичностью один раз в три года.
Приказом Минкомсвязи РФ от 02.09.2011 № 221 были утверждены «Требованиями к информационным системам электронного документооборота федеральных органов исполнительной власти»3, в которых отмечалась необходимость обработки посредством данных систем не только общей служебной информации, но и информации ограниченного распространения. Согласно Требованиям, система электронного документооборота федерального органа исполнительной власти должна обеспечивать отображение следующих форматов файлов: PDF, RTF, DOC, TIFF.
Приказом Минкомсвязи России N 186 и ФСО России N 258 от 27.05.2015 были утверждены «Требования к организационно-техническому взаимодействию государственных органов и государственных организаций посредством обмена документами в электронном виде»4. Согласно этим требованиям, файл электронного документа, а также файл электронного образа документа с графическими элементами регистрационных данных и отметок об ЭП, внедренными в него, должен иметь формат PDF/A-1, соответствующий международному стандарту ISO 19005-1:2005.
Таким образом, очевидно при отсутствии единой государственной политики по организации хранения электронных документов и специальной нормативной базы, регламентирующей форматы хранения этих документов, при решении вопросов о долгосрочном хранении ЭД предпочтение отдается формату PDF/A-1.
Помимо нормативных документов министерств и ведомств, рекомендации по форматам хранения электронных документов содержатся и в национальных стандартах.
ГОСТ Р 54471-2011 «Системы электронного документооборота. Управление документацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности»7 содержит описание рекомендуемой практики электронного хранения деловой и иной информации в электронной форме и описывает порядок внедрения и эксплуатации систем управления информацией и документами, которые могут рассматриваться как надежно (заслуживающим доверия образом) хранящие электронную информацию. В стандарте описаны средства, с помощью которых в любое время можно доказать, что содержание конкретного электронного объекта, созданного или существующего в компьютерной системе, не изменился с момента его создания внутри системы или с момента импорта. Стандарт рекомендует создавать отдельный документ, регламентирующий хранение информации в электронном виде, в том числе содержащий сведения о допустимых форматах файла, методах сжатия информации и сроках ее хранения. Стандарт определяет «доверенную систему» как систему, «которая позволяет рассматривать всю сохраняемую в ней в электронном виде информацию как достоверные и точные копии изначальной информации независимо от ее первоначального формата»8. Согласно стандарту электронная информация может храниться в двух формах: в виде графических образов либо в виде объектов данных. Чаще всего графические образы получаются в результате обработки бумажных документов (например, сканирование). Объекты данных используются для хранения информации в «первоначальном» формате, при этом для извлечения содержащейся в них информации может потребоваться оригинальное программное обеспечение. Однако стандарт дает весьма общие рекомендации по выбору формата хранения электронных документов, не называя их.
ГОСТ Р 54989-2012/ ISO / TR 18492:2005 «Обеспечение долговременной сохранности электронных документов»9 сосредотачивается на обеспечении сохранности ЭД. Согласно стандарту, долговременная сохранность это «период времени, в течение которого электронные документы поддерживаются в качестве доступного и аутентичного свидетельства (доказательства)»10. Нечитаемость документа может наступить вследствие порчи носителя или его морального устаревания. Чтобы документ не стал нечитаемым, нужно осуществлять периодический перенос информации с одних носителей на другие, более новые, а также правильно выбирать форматы хранения. Стратегия долговременной сохранности должна поддерживать те же характеристики документов, что и в стандарте ГОСТ Р ИСО 15489-1-2007, а кроме того, документ должен быть правильно интерпретируемым и идентифицируемым, причем обеспечение аутентичности считается ключевой задачей. Организации, стремящиеся обеспечить долговременный доступ к аутентичным документам, должны обратить внимание на следующие три ключевые аспекта своей стратегии: передача/прием на хранение и ответственное хранение; среда хранения; управление доступом и защита информации. Пока электронные документы находятся в среде их создания, их трудно защитить от изменений, поэтому нужно предусмотреть механизмы ограничения доступа к электронным документам и защиты их от порчи, случайного или умышленного искажения. При передаче на хранение может потребоваться переформатирование — миграция. При переформатировании стандарт рекомендует использовать механизм циклического избыточного кода CRC 11 (контрольных сумм CRC ) — распространенного метода обеспечения надежности электронной передачи данных или хэш-дайджестов12.
Стратегия долговременной сохранности должна решать проблему зависимости от конкретного программного обеспечения. Если конкретные электронные документы могут быть использованы только при помощи определенного программного приложения, то обеспечение долговременного доступа к этим документам может оказаться проблематичным. В стандарте обращено внимание на то, что после передачи электронных документов на хранение, следует думать об их миграции из широкого набора форматов, используемых создателями и получателями документов, в меньшее число «стандартизованных» форматов. Стандарт не рекомендует выбирать коммерческие (проприетарные) форматы. К числу заслуживающих внимания технологически нейтральных форматов, рекомендованных стандартом, относятся PDF / A -1, XML , TIFF и JPEG .
Выбор оптимального формата хранения определяется видом информации, характеристиками технических средств хранения, особенностями доступа к данным и используемым программным средствам. Вышеназванные форматы делятся на текстовые и графические форматы и могут использоваться для хранения электронных документов. Особняком стоит формат PDF / A , который был создан специально для долгосрочного хранения электронных документов. В соответствии с международным стандартом ISO 19005-1:2005/Cor.1:2007 «Управление документацией. Формат файлов электронных документов для долгосрочного хранения»13 различают специальную разновидность формата PDF — PDF-А (archives). Именно ему мы и уделим особое внимание.
В действительности PDF/A является подмножеством формата PDF, из которого исключены некоторые особенности, не подходящие для долговременного хранения электронных документов. Ключевой элемент воспроизводимости этого формата состоит в требовании, чтобы документы в формате PDF/A были на 100 % самодостаточными. Вся информация, которая необходима для того, чтобы документ каждый раз отображался в неизменном виде, должна быть внедрена в файл. Сюда входит (не ограничиваясь только этим) всё содержимое документа (текст, растровые изображения и векторная графика), шрифты и информация о цвете. Важно отметить, что документы форматов семейства PDF/A не могут использовать информацию из внешних источников (как то шрифтовые программы или гиперссылки), в них запрещено внедрение кода на java S cript14 и команд на запуск исполняемых файлов, также не разрешено шифрование15. Так как документ формата PDF/A должен включать все шрифты, которые он использует, файл PDF/A часто будет большего размера, чем его PDF-эквивалент, не содержащий внедрённых шрифтов. Это может быть нежелательно при хранении большого числа небольших документов, содержащих одни и те же шрифты, так как один и тот же шрифт будет внедрен в каждый из файлов. Однако при хранении большого числа небольших документов в одном архиве, из-за свойств алгоритмов сжатия, разница между использованием PDF с внедренными шрифтами и без них — незначительна.
Считается, что документ, который хранится в формате PDF/A, из-за того, что в нём не содержатся такие непостоянные вещи, как гиперссылки и мультимедийный контент, можно будет открыть в любой операционной системе через достаточно длительное время с помощью любого приложения, поддерживающего соответствующий формат. При этом «целостность и неизменность неподписанного документа в формате PDF/A не может быть гарантирована» и не заявляется как особенность формата16. Другими словами, несмотря на то, что данный формат позиционируется как обеспечивающий долгосрочное хранение электронных документов, изменение содержимого документа возможно и не является отклонением от нормы, если оно не зашифровано. Однако есть ещё один нюанс: для каждого конкретного документа, формат которого заявлен как PDF/A, невозможно заведомо утверждать, что это действительно так. Необходима верификация на соответствие требованиям формата для каждого конкретного документа, и, если на этапе размещения в архиве или после очередного изменения она не будет проведена, можно считать миссию обеспечения долгосрочного хранения потенциально проваленной (правда с некоторыми оговорками).
Следует отметить, что в широком профессиональном сообществе часто не делают различий между форматами PDF / A -1, PDF / A -2 и PDF / A -3. Как правило, в различных методических рекомендациях указывается только PDF / A как рекомендуемый формат для осуществления долговременного хранения, но если обратить внимание на ссылки на стандарты, то можно отметить, что разработчики методических документов ссылаются на первый стандарт формата PDF / A -1. Рассмотрим все три формата подробнее.
Первая версия формата PDF / A -1 стандартизирована ISO 19005-1:2005, « Document management — Electronic document file format for long - term preservation — Part 1: Use of PDF 1.4 ( PDF / A -1)»17 и актуализирована в 2015 году.
Стандарт PDF/A — 1 определяет два уровня соответствия для PDF-файлов:
• PDF/A-1a — соответствие Уровню A,
• PDF/A-1b — соответствие Уровню B.
РPDF/A-1b ставит целью обеспечение надёжного воспроизведения внешнего вида документа. PDF/A-1a включает все требования стандарта PDF/A-1b, а также дополнительно требует, чтобы структура документа была включена в файл, ставя при этом целью обеспечение возможности поиска и преобразования содержимого документа.
Таким образом, стандарт PDF/A-1 определяет два уровня соответствия: уровень соответствия «а» удовлетворяет всем требованиям спецификации; уровень « b » является более низким уровнем соответствия, «охватывающим требования этой части ISO 19005 относительно визуального появления электронных документов, но не их структурных или семантических свойств»18.
Формат PDF/A-2 был стандартизирован ISO 19005-2:2011 «Document management ― Electronic document file format for long-term preservation — Part 2: Use of ISO 32000-1 (PDF/A-2)» 19 и актуализирован в 2016 году . Особенностью формата является его ориентация на PDF 1.7, используемого для длительного хранения информации, представленной визуально в виде страниц.
Стандарт PDF/A-2 определяет три уровня соответствия: уровень соответствия « a » удовлетворяет всем требованиям спецификации; уровень «b» является более низким уровнем соответствия, «охватывающим требования этой части ISO 19005 относительно визуального появления электронных документов, но не их структурных или семантических свойств»20. Для PDF/A-2 был введен промежуточный уровень соответствия — уровень « u », который представляет соответствие уровня « b » с дополнительным требованием, заключающимся в том, чтобы весь текст в документе имел эквиваленты Unicode21.
Основное различие между PDF/A-1 и PDF/A-2 заключалось в использовании более поздней версии PDF. Добавленные возможности соответствуют требованиям ISO 32000-122 и включают:
- улучшения базового формата PDF (повышение его доступности),
- сжатый объект и потоки XRef23, (для меньших размеров файлов),
- поддержку встраивания вложенных файлов в формате PDF/A, переносимых коллекций и пакетов PDF,
- поддержку прозрачности изображений,
- поддержку сжатия JPEG 2000 для изображений24.
Формат PDF/A-3 стандартизирован ISO 19005-3:2012 «Document management — Electronic document file format for long-term preservation — Part 3: Use of ISO 32000-1 with support for embedded files» 25 и актуализирован в 2018 году .
PDF/A-3 добавляет единственную и очень важную функцию к предшественнику PDF/A-2. Если PDF/A-2 допускал вложение других файлов, пока вложенные файлы были действительными файлами PDF/A, то PDF/A-3 позволяет встраивать файлы любого формата (включая XML, CSV, CAD, изображения, бинарные исполняемые файлы и т. д.) в единый файл PDF/A. Эта новая функция предназначена для расширения функциональности PDF/A от формата зафиксированного «бумажного документа» (пусть и подходящего для использования в долгосрочной перспективе) до полноценного архивного формата, ориентированного на хранение электронного документа в неизменном виде, который может иметь и поддерживать связанные с ним файлы и электронную подпись.
Как и в PDF/A-2, стандарт PDF/A-3 определяет три уровня соответствия: уровень соответствия «a» удовлетворяет всем требованиям стандарта; уровень «b» является более низким уровнем соответствия, удовлетворяющим требованиям, которые должны быть минимально необходимы для обеспечения того, чтобы визуальный внешний вид соответствующего файла сохранялся в течение длительного времени. При этом в стандарте отмечается, что файлы, соответствующие стандартам уровня «b», могут не иметь «достаточно богатой внутренней информации, чтобы обеспечить сохранение логической структуры документа и текстового контента в естественном порядке чтения»26, что обеспечивается соответствием более высокому уровню «a». Промежуточный уровень соответствия, уровень «u» способен соответствовать всем дополнительным требованиям.
PDF/A-3 позволяет встраивать файлы любого типа, но накладывает требования, отличные от обычных, определенных в ISO 32000-127 для PDF 1.7. Согласно положениям стандарта файлы, соответствующие этим требованиям, называются «связанными» файлами. Для их создания и поддержания должна быть сделана явная связь между каждым встроенным файлом, содержащим PDF-документ, объектом или его структурой (например, изображение, страница или логический раздел) в PDF-файле. Для связанных файлов должны быть предусмотрены типы MIME28. Однако PDF/A-3 требует использования специальных приложений, если тип MIME неизвестен.
Существует мнение специалистов, что версия формата PDF/A-3 не направлена на расширение формата PDF/A-2 с целью поддержки встраивания файлов любого типа. В этом контексте интересны материалы вебинара от вендора Luratech, который занимается созданием программных продуктов и решений для преобразования документов с оптическим распознаванием символов, а также программного обеспечения для поставщиков услуг сканирования и долгосрочного архивирования в формате PDF/A-329. По мнению ведущего вебинара, в файле PDF/A-3 встроенные файлы не должны считаться «архивируемыми». Другими словами, источник или дополнительный материал рассматриваются только как краткосрочные или временные. То, что в долгосрочной перспективе должно рассматриваться как «архивированное», является только основным контентом PDF с его видимым отображением страницы. Отсюда вытекает утверждение, что PDF/A-3 обеспечивает «гибридное архивирование», т. е. каждая ревизия документа сопровождается хранением файла PDF/A-3 с встроенным исходным файлом обработки текста, а сам документ должен быть готов к архивированию при каждом прекращении редактирования, т. е. архивироваться перманентно.
Члены рабочей группы NDSA ( National Digital Stewardship Alliance ) в статье «New NDSA Report: The Benefits and Risks of the PDF/A-3 File Format for Archival Institutions» пришли к выводу, что формат PDF/A-3 служит «важным бизнес-потребностям, не связанным с сохранением документов в долгосрочной перспективе»30. Согласно статье юридическое лицо, такое как корпорация, обязано «архивировать определенные категории документов на определенный период для исполнения правительственных распоряжений»31. Эти документы начинают жизнь в редактируемой форме и на определенном этапе считаются окончательными, если промежуточные черновики сохраняются как PDF/A-3 с внедренной встраиваемой формой. При этом документ архивируется на любом этапе, упрощая управление документами. Эти бизнес-потребности стимулируют разработку инструментов для создания файлов PDF/A-3. Некоторые из них, безусловно, будут использованы в архивах. Согласно мнению авторов статьи: «сложность формата PDF свидетельствует о том, что PDF/A-3 может быть наиболее подходящим для использования в контролируемых рабочих процессах, но не может быть подходящим выбором в качестве формата долгосрочного хранения общего назначения»32. Тем не менее, предлагаемое PDF Association33 создание бесплатного инструмента для проверки PDF с открытым исходным кодом может снизить риски долгосрочного сохранения, связанные со сложностью формата PDF/A в качестве формата связывания.
На наш взгляд, отсутствие таких надежных инструментов проверки, конвертация PDF-файлов в PDF/A-3 в рабочих процессах оперативного документооборота оправдано, но является довольно ненадежным методом долгосрочного хранения документов. Для того чтобы детально разобраться в этом вопросе, необходимо провести специальное исследование, не менее значимое, чем проведенное экспертами РГГУ в 2013 году. Научный доклад РГГУ «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения» установил, что PDF/A-1 (ISO 19005-1) и PDF/A-2 (ISO19005-2:2011) обладают высокой степенью надежности и обеспечивают долгосрочность хранения информации34.
Исходя из проведенных сравнений между форматами PDF и его производным PDF/A, можно утверждать, что первый больше пригоден для оперативного обмена и краткосрочного хранения электронных документов, в свою очередь как PDF/A (с учетом потенциально большего размера единичного документа) гарантирует, что даже через продолжительное время, вне зависимости от окружения и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая ПО-просмотрщиком, что в целом соответствует концепции архива электронных документов.
В нижерасположенной таблице приведено сравнение форматов семейства PDF/A.
Сравнительная таблица форматов семейства PDF / A
Без PDF нельзя представить себе современный документооборот. Вы наверняка используете файлы этого формата в своей работе. Разрабатывая формат переносимых документов (Portable Document Format, PDF), мы стремились обеспечить безопасный просмотр документов и обмен ими, независимо от программного обеспечения, типа устройства и операционной системы.
В настоящее время PDF является открытым стандартом, который поддерживается Международной организацией по стандартизации (ISO). Документы PDF могут содержать интерактивные ссылки и кнопки, поля форм, аудио- и видеоэлементы, а также бизнес-логику. Файлы PDF можно подписывать в электронном виде, а также без труда открывать в ОС Windows и macOS с помощью бесплатного приложения Acrobat Reader.
Мы создали формат PDF
В 1991 году соучредитель компании Adobe Джон Уорнок (Dr. John Warnock) начал революционный процесс преобразования бумажных документов в электронный формат с проекта под названием «Камелот». Цель проекта заключалась в том, чтобы предоставить всем пользователям возможность сбора документов из любого приложения, отправки их электронных версий на любое устройство, а также просмотра и печати этих документов на любом компьютере. К 1992 году в рамках проекта «Камелот» был разработан формат PDF. Сегодня этому формату доверяют компании по всему миру.
Мы создали формат PDF
В 1991 году соучредитель компании Adobe Джон Уорнок (Dr. John Warnock) начал революционный процесс преобразования бумажных документов в электронный формат с проекта под названием «Камелот». Цель проекта заключалась в том, чтобы предоставить всем пользователям возможность сбора документов из любого приложения, отправки их электронных версий на любое устройство, а также просмотра и печати этих документов на любом компьютере. К 1992 году в рамках проекта «Камелот» был разработан формат PDF. Сегодня этому формату доверяют компании по всему миру.
Содержимое документа PDF можно проверить на соответствие критериям PDF/X, PDF/A, PDF/VT или PDF/E. Копию файла PDF можно сохранить в формате PDF/X, PDF/A или PDF/E, при условии, что он соответствует указанным требованиям. Например, при определенных обстоятельствах ICC-профиль, который описывает устройство назначения, необходим для совместимости с форматами PDF/X-1a, PDF/X-3 и PDF/X-4. Если документ не располагает встроенным профилем вывода ICC, то можно встроить профиль перед сохранением документа.
Преобразование файла PDF в соответствующий стандарту файл PDF выполняется с помощью Мастера стандартов. В ходе выполнения операций в этом Мастере даются пояснения по отдельным форматам. Если вы знакомы с этими стандартами, то для преобразования файла PDF можно использовать встроенный профиль или профиль, созданный с помощью мастера.
Также можно создать файл, совместимый с PDF/X и PDF/A, с помощью программы Acrobat Distiller .
Преобразование в PDF/X, PDF/A или PDF/E с помощью профиля
Выберите Инструменты > Допечатная подготовка.
Набор инструментов допечатной подготовки отображается на панели справа.
Нажмите Выполнить предпечатную проверку.
Отобразится диалоговое окно «Предпечатная проверка».
В диалоговом окне «Предпечатная проверка» выберите Стандарты PDF из раскрывающегося списка Библиотеки.
Перейдите на вкладку Профили.
Разверните совместимый профиль и выберите необходимый профиль. Например, в пункте «Соответствие PDF/A» выберите пункт Преобразовать в PDF/A-1b.
Нажмите Сохранить для преобразования файла в соответствии с выбранным профилем.
Преобразование в формат PDF/X, PDF/A или PDF/E
Выберите Инструменты > Стандарты PDF.
Выберите на панели справа Сохранить как PDF/A, Сохранить как PDF/X или Сохранить как PDF/E.
Выберите местоположение для сохранения файла и нажмите Сохранить.
Файлы PDF/X, PDF/A, PDF/VT и PDF/E могут быть созданы различными способами, например с использованием приложения Acrobat Distiller или команды «Файл» > Сохранить как «Другое»Если Вы открываете файл PDF, который соответствует одному из этих стандартов, то информацию о стандартах можно увидеть на панели «Навигация» (выберите Просмотр > Показать/Скрыть > Панели навигации, а затем нажмите Стандарты ). Меню и панель «Стандарты» доступны только в том случае, если файл PDF соответствует стандарту. Панель «Стандарты» присутствует во всех версиях (Acrobat Professional, Standard и даже Reader). Однако функция проверки подтверждения доступна только в Acrobat.
В сведениях о подтверждении указывается стандарт, использованный для создания файла, наименование стандарта ISO, а также отметка о том, был ли файл проверен на соответствие требованиям стандартов PDF/X, PDF/A, PDF/VT, PDF/UA или PDF/E. В информации о способах вывода указываются цветовые настройки, ассоциированные с данным файлом. Чтобы проверить файл на соответствие стандартам, нажмите на кнопку Проверить соответствие .
Вы можете удалить всю информацию о соответствии стандартам PDF/X, PDF/A или PDF/E, например условие вывода или ключ версии GTS_PDFX. Это полезно, если файл был изменен, если нужно начать заново или если ICC-профиль слишком увеличивает размер файла.
Выберите Инструменты > Допечатная подготовка.
Набор инструментов допечатной подготовки отображается на панели справа.
Нажмите Выполнить предпечатную проверку.
Отобразится диалоговое окно «Предпечатная проверка».
В диалоговом окне «Предпечатная проверка» выберите Стандарты PDF из раскрывающегося списка Библиотеки.
Перейдите на вкладку Исправления .
Раскройте группу Информация о документе и метаданные и выберите Удалить данные . Например, выберите «Удалить данные PDF/A».
Выберите местоположение для сохранения файла и нажмите Сохранить.
Если действие выполнено успешно, в диалоговом окне «Предпечатная проверка», на вкладке «Результаты» отобразится зеленый флажок. Если действие завершится с ошибкой, в диалоговом окне «Предпечатная проверка», на вкладке «Результаты» отобразится красный крестик.
Ответ для самых торопливых: PDF/A — это версия формата PDF, стандартизированная ISO и предназначенная для использования при архивировании и долгосрочном хранении электронных документов. Если вы хотите возвращаться к скан-копии печатного оригинала или электронному документу спустя много лет, то лучше использовать именно его. А теперь разберём вопрос подробнее.
Ответ для самых торопливых: PDF/A — это версия формата PDF, стандартизированная ISO и предназначенная для использования при архивировании и долгосрочном хранении электронных документов. Если вы хотите возвращаться к скан-копии печатного оригинала или электронному документу спустя много лет, то лучше использовать именно его. А теперь разберём вопрос подробнее.
Электронный документ PDF: особенности и история формата
PDF (Portable document format) — это универсальный формат электронных документов. Он создан по инициативе компании Adobe в 1993 году, и его исходное предназначение — электронное представление печатных материалов.
Задачи формата PDF:
- хранение данных о цветовой схеме и расположении элементов;
- обеспечение идентичного представления информации на разных мониторах и принтерах.
За время своего существования PDF значительно прибавил в возможностях. Ещё в первой редакции формата появилась возможность вставлять ссылки в текст, шифровать документ с паролем и тем самым защищать его от модификации. Функциональность дополнялась год за годом:
Версия | Возможности |
PDF 1-1.1 (1993-1994) | Работа с потоками данных, защита паролем и цветопередача, независимая от устройства |
PDF 1.2 (1996) | Интерактивные элементы и возможность обрабатывать действия мыши |
PDF 1.3 (1999) | Электронная подпись (ЭП), javaSAFEscript |
PDF 1.4 (2001) | Прозрачность, текстовый слой поверх картинки, метаданные «ключ-значение» |
PDF 1.5 (2003) | Мультимедиа, объектные и перекрестные потоки, слои |
PDF 1.6 (2005) | XML-формы, AES-шифрование |
PDF 1.7-2.0 (2005-2020) | AES-шифрование 256-битным ключом, архитектура XML-форм XFA 3.0 |
Начиная с версии PDF 1.4, которая вышла в 2001 году, пользователи могут наносить текстовый слой поверх изображения. Причём он может быть невидимым. То есть пользователь, видя «картинку», тем не менее может копировать с неё текст. Кроме того, в этой же версии появилась возможность вставлять метаданные в виде пар «ключ-значение», каждая из которых может быть связана с какой-то частью документа (например, отдельным изображением) или со всем документом. Это важные нововведения, с точки зрения архивного хранения, и они поддерживаются форматом по сей день.
С 2008 года PDF — открытый стандарт ISO 32000 (последняя редакция международного стандарта качества — 32000-2 — опубликована в декабре 2020 года). Это значит, что сегодня PDF рекомендуется к использованию во всём мире.
Сохранение документа в PDF/A. Когда нужен этот формат?
Создание электронного архива документов В начале статьи мы уже дали ответ на этот вопрос: PDF/A — это версия PDF, которая рекомендована всё тем же ISO для долговременного архивирования электронных документов.
Длительный срок хранения становится возможным, потому что в содержимое электронного документа в формате PDF/A внедряется вся информация, необходимая для его отображения. В частности, к ней относятся шрифты — те из них, которые использованы в документе, включены в него. К слову, это влияет на его размер: документ в формате PDF/A часто больше по размеру, чем документ с аналогичным содержимым, сохранённый в PDF.
Считается, что документ, хранимый в формате PDF/A, из-за полного отсутствия связи с такими изменчивыми вещами как гиперссылки и мультимедийный контент можно будет открыть в любой операционной системе через какое угодно время с помощью приложения, поддерживающего соответствующий формат.
Есть ещё один аргумент в его пользу. Поскольку PDF/A обеспечен статусом международного стандарта, его поддержка разработчиками в долгосрочной перспективе оправдана, а использование целесообразно. Чего не скажешь о других доступных форматах хранения электронных документов, которые могут измениться в любой момент времени.
При этом целостность и неизменность неподписанного документа в формате PDF/A не может быть гарантирована и не заявляется как особенность формата. Другими словами, несмотря на то, что данный формат позиционируется как обеспечивающий долгосрочное хранение, изменение содержимого документа возможно и не является отклонением от нормы, если оно не зашифровано.
Однако есть ещё один нюанс: для каждого конкретного документа, формат которого заявлен как PDF/A, невозможно заведомо утверждать, что это действительно так. В каждом случае необходима верификация на соответствие требованиям формата. И если на этапе размещения в архиве или после очередного изменения она не будет проведена, можно считать миссию обеспечения долгосрочного хранения потенциально проваленной (с некоторыми оговорками, но всё же).
Как проверить PDF/A
Действительно ли документ сохранён в нужном формате — очевидные сомнения. Внешне определить, PDF это или PDF/A, очень сложно.
Также в этих случаях используются программы-валидаторы. Пример — veraPDF (можно скачать здесь). Программу создавал союз нескольких профессиональных сообществ, в том числе Ассоциация PDF (PDF Association).
Также есть сервисы, которые могут определить формат в режиме онлайн. В их числе avePDF, pdf-online и другие. Во многих таких сервисах можно не только проверить, но и изменить формат — перевести файл из PDF в PDF/A. Доверять онлайн-решениям или нет — вопрос, который остаётся на стороне пользователя. Во всяком случае к официально признанным программам-валидаторам PDF они не относятся.
Чтобы обеспечить целостность и юридическую значимость электронных документов, недостаточно использовать нужный формат. Также необходимо использовать специализированную систему долговременного хранения.
Как хранить отсканированный документ в PDF/A
Исходя из описанных выше различий между форматами PDF и его потомком PDF/A, вполне можно предположить, что первый больше пригоден для оперативного обмена и краткосрочного хранения электронных документов. При этом PDF/A, несмотря на потенциально большой размер единичного документа (в него внедрены все использованные шрифты, а это для краткосрочного использования избыточный и ощутимый балласт), имея статус международного стандарта, гарантирует, что даже через продолжительное время, вне зависимости от окружения и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая приложением-просмотрщиком. Этот факт укладывается в концепцию архива электронных документов и должен учитываться при сохранении каждого документа в нём.
Теперь необходимо определиться с тем, что такое отсканированный образ документов. Чаще всего это растровое изображение. Предполагается, что текста поверх него нет, то есть в документе хранится исключительно отсканированный растр — изображение, текст на котором непонятен компьютеру, а понятен только человеку.
В исключительных случаях поверх растрового изображения может быть расположен текстовый слой, частично или целиком наполненный. Причём делается это либо вручную человеком, либо с помощью системы распознавания текста. Можно предположить, что документ содержит метаданные, так или иначе связанные с видом документа и его содержимым (например, если это счёт-фактура, метаданные могут содержать информацию о поставщике, дате выставления, сумме и т. д.).
Очевидно, что отсканированный образ документа допускает, но не подразумевает долгосрочного хранения. Но всё-таки в большинстве случаев образ должен храниться не меньше бумажного оригинала , а зачастую значительно дольше, поскольку значимость и важность его в контексте организации-владельца всегда есть. Кроме того, образ снят с бумажного документа, а это значит, что его изменение не подразумевается, хотя и возможно.
На основании перечисленных особенностей, которыми обладает отсканированный образ документа, можно смело заявлять, что для хранения одинаково пригодны оба формата. Хотя PDF/A допускает и метаданные, и текстовый слой поверх изображения, и даже подписание документа с целью защитить его от модификации.
В последние годы использование формата PDF стало чрезвычайно популярным, когда дело доходит до выполнения работы и обработки файлов всех типов, даже для управления официальными документами. И что это за тип саман Файлы становятся все более популярными в последнее время и используются в большом количестве областей, будь то домашняя, профессиональная или связанная с образованием. Однако, несмотря на его популярность, мы можем найти эти файлы в PDF / А формат великое неизвестное.
Поэтому сегодня мы поговорим об этом несколько своеобразном формате. Хотя он основан на файлах PDF, которые мы сами знаем, он также имеет некоторые отличительные особенности, поскольку они предназначены для использования в качестве носителя для долгосрочного хранения, чтобы мы могли сохранять данные в течение десятилетий без их повреждения.
Это связано с тем, что, хотя файлы не должны пострадать с течением времени, может случиться так, что в определенный момент у нас нет необходимого программного обеспечения для доступа к их содержимому из-за типа хранилища данных этого тип файлов. Поэтому, учитывая его работу и управление данными, которые обычные PDF-файлы выполняют внутренне, это может случиться с нами в будущем.
Что такое формат PDF / A
Когда мы говорим о PDF / A, мы имеем в виду вариант формата PDF, который гарантирует, что документ может быть открыт одинаково независимо от программного обеспечения, которое мы используем в любое время. Таким образом, вся информация, необходимая для отображения документа и его элементов, одинаково встроена в файл, что делает наши документы безопасными и доступными в долгосрочной перспективе. И это то, что точное воспроизведение контента гарантируется в следующие 25 лет или больше , поэтому мы можем открыть документ за это время с неизменным содержанием.
Документы в формате PDF / A полностью независимы. Это означает, что оба его содержимого, такие как информация о цвете, текст, изображения, аудио, шрифты и другие элементы, являются встроен в сам файл , поэтому он не может содержать информацию из внешнего источника. Атрибуты улучшают эти типы файлов как преимущество воспроизведения. Когда файлы копируются, они будут содержать те же элементы, что и исходные, поскольку не допускают последующих изменений или модификаций, обеспечивая оригинальность содержимого.
Кроме того, этот тип формата не поддерживает исполняемый контент, URL-адреса, прозрачность, сжатие JavaScript и LZW, в отличие от традиционных документов PDF. Мы можем найти всю информацию, инструменты и документацию на сайте эта ссылка на его официальный сайт .
Какие типы мы можем найти
Учитывая эволюцию формата PDF в последние годы, программы, способные читать, создавать или изменять их, также получили эту эволюцию. По этой причине в стандарт PDF / A были внесены новые уровни, каждый с различными характеристиками и целями. Таким образом, мы можем найти три модальности, такие как PDF / A-1, PDF / A-2 и PDF / A-3 .
Это не означает, что более высокое число означает более продвинутый уровень стандарта, поэтому новые стандарты не заменили предыдущий стандарт. Это потому, что каждый уровень лучше соответствует потребностям файла.
- Подуровень B (базовый): соответствует всем требованиям и спецификациям стандарта.
- Подуровень U - Это просто базовое соответствие. Это считается дополнительным требованием, чтобы тексты PDF всегда имели эквивалент в кодировке Unicode, чтобы гарантировать правильное индексирование и чтение текстов.
- Подуровень А (доступные): это те, которые, помимо содержимого B и U, соответствуют структуре содержимого и помечены способом, описывающим как порядок, так и иерархию чтения.
Вот почему каждый вариант обеспечивает разные уровни соответствия, что облегчает сохранение различных элементов в вашем цифровом файле и поддерживает другие элементы, такие как эффекты и слои.
Преимущества и недостатки перед PDF
Использование PDF / A имеет некоторые преимущества по сравнению с традиционными, потому что, когда дело доходит до хранения данных, они сохраняются на основе официальных ограничений по сравнению с обычными. Таким образом, мы можем использовать его для сохранения долгосрочной информации, что является его основной целью. Так что мы можем их прочитать и понять, даже если программное обеспечение изменится.
Однако мы также должны учитывать его недостатки при его использовании, как PDF-документ может содержать ссылки, кнопки, поля формы, аудио и видео. Он также может включать метаданные, аннотации и встроенные файлы. Кроме того, они позволяют использовать электронную подпись с помощью цифровых сертификатов и шифровать, чтобы защитить ваш контент от третьих лиц. В PDF / A всего этого нет, поэтому важно учитывать это при выборе между тем или другим.
Конвертируйте PDF в PDF / A
Если мы убеждены и хотим преобразовать наши PDF-документы в PDF / A, мы можем использовать мощное программное обеспечение, такое как Nitro Pro, профессиональный Инструмент управления PDF для Windows. Если мы хотим попробовать, мы можем скачать бесплатную пробную версию с эта ссылка на главной странице . Это полноценное приложение, с помощью которого вы можете создавать, конвертировать, редактировать, подписывать и обмениваться файлами PDF. Среди его функций - возможность конвертировать любой PDF-файл в PDF / A 1 и 2.
Читайте также: