Индексированный файл pdf что это
В индексе содержимое многих PDF-файлов хранится в компактном виде, подходящем для его быстрого поиска и извлечения.
Используйте команду «Документ» > «Расширенная обработка» > Создать полнотекстовые индексы для создания нового или обновления существующего индекса.
Индексировать можно PDF-документы, написанные на языках с использованием латинского или азиатского (китайского, японского или корейского) шрифтов. Можно индексировать не только текст документа, но и закладки, комментарии, вложения, цифровые подписи, поля форм, метаданные и другие пользовательские свойства документа.
Файл индекса можно создать изо всех PDF-файлов, находящихся в указанных папках. Перед началом создания индекса выберите каталог для его сохранения. Индексация выполняется в фоновом режиме. В результате создается небольшой файл определения индекса с расширением ZPI. В нем содержатся ссылки на файлы индекса, которые хранятся в автоматически созданных вложенных папках с таким же именем, как у ZPI-файла, но с суффиксом _index .
Индексы поиска не внедряются в PDF-файлы. Чтобы индексы стали доступны другим пользователям, их необходимо сохранить в папке с общим доступом. Для создания встроенного индекса используется другая команда, делающая документ действительно переносимым.
Подготовка к индексации
Соберите в одной или нескольких папках все PDF-документы, подлежащие индексации. Если выбираются существующие папки, проверьте, чтобы в них были только индексируемые PDF-файлы.
Если планируется перенести PDF-файлы вместе с их индексом, лучше сохранить их в одной папке.
Добавьте свойства документа в PDF-файлы, чтобы их можно было использовать в качестве критериев поиска.
Используйте команду «Документ» > Свойства документа > Описание для указания заголовка, автора, базового URL-адреса и ключевых слов, описывающих содержимое документа. Используйте команду Свойства документа > Настройка для добавления пользовательских полей.
Имейте в виду, что если создать полнотекстовый индекс перед редактированием документа для удаления важной информации, эти сведения НЕ будут удалены из индекса и их можно будет легко найти. После завершения редактирования будет предложено проверить документ. Примите предложение и удалите индекс. Редактирование и проверку рекомендуется выполнять для копии документа — это позволяет сохранить индекс в исходном документе.
Индексация большого количества PDF-файлов может потребовать значительных затрат времени и вычислительных ресурсов, поэтому лучше всего делать это во время обеденного перерыва.
При просмотре документа PDF можно получить сведения о документе, такие как заголовок, использованные шрифты и параметры защиты. Часть этих данных задается создателем документа, а часть формируется автоматически.
В Acrobat можно изменить любые данные, задаваемые автором, если параметры защиты файла не запрещают внесение изменений.
Отображение PDF-файлов в поисковой выдаче
Формат PDF является разработкой компании Adobe Systems, созданный изначально для хранения информации о полиграфической продукции. Далее, стал активно использоваться в университетской и деловой среде для публикации различных отчетов, научных докладов и прочих статей такого плана.
Еще начиная с 2001 года, Google начал индексировать PDF-файлы и отображать их в поисковой выдаче, российский поисковик Яндекс тоже «научился» это делать, но гораздо позже. В любом случае, если на сайте находятся подобного типа файлы, то стоит задуматься над их SEO-оптимизацией.
Изначально PDF-файлы можно было открыть только после скачивания на компьютер с помощью специального софта (например, Adobe Reader). На сегодняшний день они открываются (в том числе) через браузеры, т.е. по сути, для этого не нужно покидать сайт.
Проанализируем конкурентов, подберем запросы с низкой конкуренцией, проведем поисковую оптимизацию сайта, организуем внешнюю ссылочную массу, проработаем карточки компании на онлайн картах, проведем базовую UX-аналитику сайта. Над каждым проектом работает от 6 до 10 специалистов. Собственные разработчики для доработки сайта при необходимости. От вас - сайт, от нас - позиции в Яндекс/Google и трафик.
Если вернутся к теме индексации, то поисковые боты также хорошо умеют сканировать PDF, как и HTML. В поисковой выдаче страницы PDF помечаются специальной сноской.
Выдача Яндекса
Выдача Google
Количество комментариев: 28
Обычно файлы PDF - это не уникальные тексты. У меня есть пара автомобильных сайтов. Инструкция по эксплуатации - наверняка PDF. В Joomla есть плагины для конвертации pdf. Но имеет ли смысл прикручивать неуникальный pdf ? Ещё хотелось бы обсудить такой вопрос. Есть программа по подбору запчастей. Её можно интегрировать в сайт. Пример - подбор автомобиля на сайте по продаже подержанных авто. Насколько хуже будет проиндексирован такая начинка по сравнению с вываливанием того же но на страницы ?
Конечно, если PDF неуникален, то на сайте его лучше не публиковать. Но если документ ранее не был опубликован в Интернете, то разместить его на сайте было бы целесообразно.
Всё зависит от начинки. По сути же любая начинка генерирует HTML-код для браузера. А этот код и индексируют поисковые системы. Исполняемый код PHP и тому подобное поисковая система не видит. Для того, чтобы определить, насколько хуже будет индексироваться контент, который будет генерироваться этой начинкой, нужно смотреть на тот код, который она выдаёт для браузера и уже на основе этого делать выводы.
ПДф - это кроме всего прочего, ещё дырка в безопасности системы, так что это направление может немного подпортить его будущее, если найдётся хорошая замена для этого формата.
roman:
Недавно в Google Chrome была реализована функция просмотра документов PDF онлайн в изолированной среде. Особенностью этого метода является то, что браузер в автоматическом режиме устанавливает необходимые обновления для оперативного решения проблем безопасности.
А можете порекомендовать браузер, где pdf просматривался бы нормально или конвертировался бы в html внутри браузера? В Опере и Мозилле такие файлы дико тормозят при прокрутке.
Статья познавательная. Прочитал с удовольствием. Спасибо
Как, PDF'ки разве индексируются?! Часть файлов в портфолио, кроме jpg, выкладываю именно в этом формате, дабы именно не выдавалась инфа поисковиками поперек сайтов заказчиков :(((
Andrey:
Да, файлы PDF индексируются поисковыми системами, но только если на них стоят ссылки. Но вы можете запретить индексацию этих файлов через robots.txt.
Сейчас как раз думаю как уменьшить пдф файлы, и теперь получается надо доустанавливать программы, сейчас буду пытаться уменьшить файлы..
Спасибо за информацию по мета тегам в PDF. буду заполнять
Здравствуйте.
Я использовал для конвертации документа из Ворда в ПДФ программку doPDF v.7
Будет ли индексироваться такой ПДФ при наличии в нем ссылок? И как эти ссылки должны быть оформлены? Как надпись html://site.ру, или можно оставить гиперссылки, бывшие до этого в тексте?
Сергей:
Если в документе формата PDF есть возможность скопировать текст, то такой текст с большой вероятностью будет индексироваться и поисковыми системами. Если гиперссылки сконвертированного в формат PDF документа работают корректно, то и поисковые системы их тоже будут учитывать при ранжировании сайтов.
Про мета-теги ценная инфа. Спасибо!
Сомневаюсь, что pdf перспективен как веб формат. Не проще ли сразу готовить документ для интернета в html. А те кто готовит, отчет и тд в pdf не думает о сео оптимизации, а скорей о ней и не знает. А вот идея использовать pdf в целях вирусной рекламы, действительно перспективно. Удобнее чем сохраненные веб страницы. И учитывая не особую известность факта индексации pdf можно и ворованные доки разместить на сайте с большей отдачей
Интересно, автоматические оптимизаторы с такими файлами тоже работают.
у меня маремото стоит, до этой статьи что-то не задумывалась
Спасибо огромное за такую замечательную статью, наконец-то стало понятно, как же поисковые роботы индексируют PDF-ки!
Виталий подскажите как убрать в документе метатэги на copyright. Не могу загрузить pdf файл на сервис scribd.
Подскажите, кто знает ПРАВИЛЬНО настроить pdf optimizer в Adode Acrobat 9 для публикации в инете?? (те нужно журнал в Pdf выложить на хосты, но перед этим его опитимизировать под них, сжатие там, разрешение и прочее)
у меня настройки слетели( и я боюсь не там галочек понаставитьв Discard(
Спасибо. В Вашей статье я нашел ответы на все свои вопросы.
Владимир:
Пока люди будут выкладывают в сеть PDF-файлы, перспективность формата вряд ли можно ставить под сомнение.Таня:
Заполняйте все возможные текстовые описания документа дозированным текстом с ключевыми словами. Сам контент документа, естественно, должен быть текстовым, а не из фотографий. При возможности разбейте документ на более мелкие составляющие, озаглавьте ключевыми словами в названии документа и метатегах. Можете вообще по главам разбить книги и загружать каждую статью в отдельности. Это даёт ещё больший эффект. Ну и руководствуйтесь этой статьёй.
Подскажите пожалуйста как изменить размер в PDF файлах
Инна:
для этого достаточно переформатировать файл при помощи различных онлайн и оффлайн утилит, выбирая в настройках максимальную оптимизацию документа. Если есть исходные файлы (не PDF), то можно сохранять документ частями и выкладывать эти части на сайте в виде файлов PDF, небольших по размеру. Это наиболее предпочтительный с точки зрения продвижения вариант.
А как на практике индексируются метаданные PDF? Я опытным путем не заметил, чтобы какая-нибудт поисковая система обращала внимание на ключевые слова в PDF-файле. Или я все же неправ?
Валерий:
документы PDF индексируются поисковыми системами. Можно даже сформировать специальный поисковый запрос и искать только файлы PDF.
Важно понимать, что файлы PDF должны содержать текст. Сканированные изображения текста (нераспознанные их сканы)индексироваться не будут по понятным причинам.
Подскажите, куда можно залить pdf файл (не на свой сайт, а сторонний), чтобы он индексировался поисковиками? Дело в том, что мне нужно продвинуть одно аналитическое исследование, но при этом завуалировать авторство. Чтобы файл был в отрыве от каких-либо имен, но находился по ключевым запросам.
Скажите пожалуйста будет ли пдф документ индексироваться поисковиками в случае если он лежит в каком либо облаке типа гугл драйв, а на сайте размещена ссылка на него?
Спасибо!
Подскажите, будит ли PDF файл индексироваться если его разместить в Googlr Drive а не на сайте т.к. cайт сделанный на Tilda не располагает возможностью размещать PDF
Продвигать в органической выдаче можно не только HTML-страницы, но и PDF-файлы – они отлично сканируются и ранжируются поисковыми системами. Такие документы чаще всего используются для публикации научной и деловой информации, содержат в себе массу полезного контента, а потому охотно открываются пользователями. Поэтому не стоит упускать возможностей поисковой оптимизации PDF-файлов.
Правила поисковой оптимизации PDF
В процессе оптимизации потребуется редактирование PDF-файлов, сделать это можно с помощью специальных программ:
- Adobe Acrobat Pro DC (платная, но есть пробная версия на 7 дней).
- Microsoft Word.
- PDF Architect.
- PDF24 Creator.
Все вышеназванные программы позволяют создавать и редактировать PDF-файлы, готовые к поисковому продвижению. Если будет использоваться какой-либо графический редактор, по типу Photoshop, то на выходе все содержимое документа будет представлять собой сплошное изображение. Продвинуть подобное в поисковых системах невозможно.
Метатеги файла
PDF-файл может содержать метатеги, которые поисковики умеют сканировать. Для их редактирования, необходимо зайти в свойства файла (в нашем примере это будет программа Adobe Acrobat) и заполнить необходимые поля:
- Title почти всегда используется поисковиками в качестве заголовка всего документа в сниппете – обязателен для заполнения. Является аналогом тайтла у HTML-документов. Не должен превышать 59 символов, иначе будет обрезан. Рекомендуется в нем раскрыть содержимое файла и употребить основное ключевое слово.
- Author (автор) – указание авторства необязательно.
- Subject (тема) файла.
- Keywords – ключевые слова, как правило, указываются через запятую.
- Description – описание всего файла, как правило, включает в себя несколько емких по смыслу предложений. Часто используется поисковиками в качестве описания для сниппета – важно заполнить это поле.
Заходим в «File» Adobe Acrobat Pro DC и переходим в «Properties»
Заполняем нужные поля
Основная задача – заполнить как можно больше релевантной служебной информации. Часть из нее не влияет на ранжирование напрямую, но имеет косвенное влияние на поведенческие факторы.
Свойства документа
Показывает основные сведения о документе. Заголовок, автор, тема и ключевые слова могут быть заданы создателем документа в исходном приложении, таком как Word или InDesign, или создателем документа PDF. Для обнаружения конкретных документов можно выполнять поиск по этим элементам описания. Раздел «Ключевые слова» может быть особенно полезным для сужения области поиска.
Обратите внимание на то, что в списке результатов поиска многих поисковых механизмов для описания документа используется заголовок. Если у файла PDF нет заголовка, то в список результатов вносится имя файла. Заголовок файла не обязательно совпадает с именем файла.
В области Дополнительные показаны версия документа PDF, формат страницы, число страниц, наличие тегов в документе и оптимизация для быстрого просмотра в web . (Размер первой страницы указывается в файлах PDF или PDF-портфолио , которые содержат страницы различных размеров). Эти данные формируются автоматически и не могут быть изменены.
Описывает допустимые изменения и функциональность внутри документа PDF. Если для документа PDF установлены пароль, сертификат или стратегия безопасности, то метод указан в этом разделе.
Перечисляет шрифты и типы шрифтов, используемые в исходном документе, и шрифты, типы шрифтов и кодирование, используемые для отображения исходных шрифтов.
Если вид используемых заменяющих шрифтов неудовлетворителен, то можно установить первоначальные шрифты в системе или попросить автора документа воссоздать документ со встроенными исходными шрифтами.
Вид при открытии (только в программе Acrobat)
Описывает вид документа PDF при открытии. При этом указывается размер первоначального окна, номер страницы открывания и масштаб, а также сведения об отображении закладок, миниатюр страниц, панели инструментов и панели меню. Любые из этих параметров можно изменить, чтобы управлять видом документа при следующем открытии. Вы можете также создать сценарий JavaScript, который будет выполняться при просмотре страницы, открытии документа и выполнении других действий.
Заказной (только для Acrobat)
Позволяет добавить свойства документа в документ.
Перечисляет набор параметров создания файлов PDF, установки в диалоговом окне «Печать» и параметры чтения для документа.
В наборе параметров создания файлов PDF для Acrobat можно указать базовый унифицированный указатель ресурсов (URL-адрес) для веб-ссылок в документе. Благодаря указанию базового URL-адреса упрощается управление веб-ссылками на другие веб-сайты. Если изменяется URL-адрес другого сайта, то можно просто отредактировать базовый URL-адрес и не редактировать каждую отдельную веб-ссылку, которая указывает на этот сайт. Базовый URL-адрес не используется, если ссылка содержит полный URL-адрес.
Можно также связать файл индексов каталога (PDX) с PDF. При поиске в документе PDF с использованием окна Поиск в PDF поиск ведется также во всех файлах PDF, индексированных указанным PDX-файлом.
В документ можно включить данные допечатной подготовки, такие как треппинг. Можно определить параметрические наборы для печати для документа, которые наполняют диалоговое окно «Печать» параметрами, относящимися к конкретному документу. Можно также установить параметры чтения документа PDF для программы чтения с экрана и других вспомогательных устройств.
К свойствам документа PDF можно добавить ключевые слова, которые могут быть использованы другими пользователями в средствах поиска для обнаружения документа PDF.
Можно уменьшить затрачиваемое на поиск большого файла PDF время путем встраивания индекса слов документа. Acrobat производит поиск по индексу значительно быстрей, чем по документу. Встроенный индекс включается в распространяемые копии файлов PDF. Поиск по файлам PDF со встроенными индексами происходит точно так же, как если бы индексов не было, — никаких дополнительных шагов не требуется.
Начиная с выпуска Acrobat DC и Acrobat Reader DC за декабрь 2018 г. для поиска по PDF больше не используется встроенных индекс. Если вы все же хотите использовать индексы для поиска, смотрите статью Включение встроенных индексов в PDF для поиска.
Добавление индекса в файл PDF
В документе, открытом в Acrobat, выберите Инструменты > Индекс.
На дополнительной панели инструментов отобразится набор инструментов «Индекс».
На дополнительной панели инструментов выберите Управление встроенным индексом.
В диалоговом окне «Управление встроенным индексом» нажмите Встроить индекс.
Обновление или удаление встроенного индекса в документе PDF
Выберите Инструменты > Индекс.
На дополнительной панели инструментов отобразится набор инструментов «Индекс».
На дополнительной панели инструментов выберите Управление встроенным индексом.
Нажмите Обновить индекс или Удалить индекс.
Можно сделать определенную группу документов PDF каталогом и создать общий индекс для всех входящих в него документов. Индекс позволяет гораздо быстрее осуществлять процедуру поиска определенных данных в каталогизированных документах PDF.
Индекс можно поместить вместе с документами PDF в коллекцию файлов, распространяемую на компакт-диске.
Каталогизировать можно документы, написанные латинскими, китайскими, японскими или корейскими символами. Каталогизируемыми элементами могут быть: текст документа, комментарии, закладки, поля форм, теги, метаданные объектов или документа, вложения, сведения о документе, цифровые подписи, метаданные изображений XIF (расширенный формат файлов-изображений) и пользовательские свойства документа.
Сначала необходимо создать папку, в которой будут храниться индексируемые файлы PDF. Все файлы PDF должны содержать данные содержимого и электронных свойств, таких как ссылки, закладки и поля форм. Если индексируемые файлы содержат сканированные документы, убедитесь, что текст этих документов распознан и может быть использован при поиске. Для повышения производительности поиска разбейте длинные документы на небольшие документы размером с одну главу. Для улучшения поиска к свойствам документа можно добавить соответствующие сведения.
Перед индексированием коллекции документов важно установить структуру документа на диске или томе сетевого сервера и проверить имена межплатформенных файлов. Имена файлов могут оказаться урезанными, а межплатформенный поиск вследствие этого — затруднительным. Чтобы избежать этой проблемы, следуйте дальнейшим указаниям.
Переименуйте файлы, папки и индексы в соответствии с соглашением об именовании файлов в MS-DOS (восемь или менее символов, за которыми следует файловое расширение из трех символов). Это тем более необходимо сделать, если планируется поставлять коллекцию документов вместе с индексом на компакт-диске формата ISO 9660.
Удалите из имен файлов и папок символы расширенного набора, например символы ударений или неанглийские символы. (Шрифт, используемый функцией «Каталог», не поддерживает коды символов с 133 по 159.)
Не используйте папки с глубоким уровнем вложения или с длиной пути к файлу, превышающей 256 символов, в индексах, которые будут использоваться для Mac OS.
При использовании Mac OS на сервере OS/2 LAN настройте IBM® LAN Server Macintosh (LSM) так, чтобы использовались имена файлов MS-DOS, или индексируйте только тома FAT. (Тома HPFS [High Performance File System ] могут содержать длинные неизвлекаемые имена файлов).
Если структура документа включает в себя подпапки, не предназначенные для индексирования, их можно исключить из процесса индексирования.
Чтобы облегчить поиск документа PDF, можно добавить сведения о файле, называемые метаданными, в свойства документа (свойства открытого в настоящий момент документа PDF можно просмотреть, выбрав меню Файл > Свойства и перейдя на вкладку Описание).
При добавлении данных в свойства документа придерживайтесь следующих рекомендаций:
Используйте информативный заголовок в поле «Заголовок». Имя файла документа должно отображаться в диалоговом окне Результаты поиска .
Для информации подобного рода всегда используйте одно и то же поле. Например, не рекомендуется добавлять важный термин в поле Тема для одного документа и тот же термин в поле Ключевые слова для другого документа.
Используйте единообразные, согласованные термины для одинаковых данных. Например, не рекомендуется использовать слово биология для одних документов и термин наука о жизни для других.
Заполняйте поле Автор — это поможет определить ответственных за создание и ведение документа. Например, автором документа, посвященного стратегии найма сотрудников, может быть отдел по работе с персоналом .
Для классификации документов по типу используйте поля Тема и Ключевые слова либо по отдельности, либо в сочетании друг с другом. Например, для одного документа в поле «Тема» можно указать отчет о состоянии, а в поле «Ключевые слова» внести слова ежемесячный или еженедельный.
Если у вас уже есть опыт работы с документами Adobe PDF , то при создании индекса можно определить пользовательские поля, например Тип документа , Номер документа и Идентификатор документа . Выполнять эти действия рекомендуется только опытным пользователям, они не описываются в справке по Acrobat .
При построении нового индекса Acrobat создает файл с расширением .pdx и новую вспомогательную папку, в которой содержится один или несколько файлов с расширением .idx. IDX-файлы содержат записи индекса. Все эти файлы должны быть доступны пользователям, которые хотят осуществлять поиск по индексу.
Выберите Инструменты > Индекс.
На дополнительной панели инструментов отобразится набор инструментов «Индекс».
На дополнительной панели инструментов выберите Полнотекстовый индекс с каталогом.
Отобразится диалоговое окно «Каталог».
В диалоговом окне Каталог нажмите Создать индекс.
Появится диалоговое окно «Новое определение индекса».
В поле Заголовок индекса введите имя файла индекса.
В поле Описание индекса введите несколько слов, описывающих тип индекса и его назначение.
В области Включить эти папки нажмите кнопку Добавить, выберите папку, содержащую некоторые или все файлы PDF для индексирования, и затем нажмите кнопку ОК. Чтобы добавить другие папки, повторите этот шаг.
В процесс индексирования будут включены все подпапки выбранной папки. Если не планируется перемещать индекс или любые элементы коллекции документов, к данному списку можно добавлять папки, расположенные на разных серверах или дисковых накопителях.
Просмотрите выбранные папки. Для внесения изменений в список включаемых и исключаемых из индексирования папок выберите папку, которую вы хотите удалить, и нажмите кнопку Удалить.
Если при использовании параметров «Включить эти папки» и «Исключить эти папки» длинные имена путей окажутся усеченными, наведите указатель на символ многоточия (. ) и подождите, пока не появится подсказка, отображающая полный путь к включенной или исключенной папке.
Имя файла
При создании файла, обратите внимание на его название. В идеале оно должно раскрывать тему содержимого, а также включать в себя одно из основных релевантных ключевых слов из семантики. Кроме того, название будет отображаться в сниппете поисковой выдачи, но до определенного количества символов, если их много, то часть срежется.
Чтобы максимально оптимизировать название PDF-файла, рекомендуется изучить аналоги у конкурентов, которые уже хорошо ранжируются. При этом не забываем, что название должно быть написано латинскими буквами, без пробелов (вместо них лучше использовать дефис).
Ссылки
На перелинковке страниц, в том числе PDF-файлов, построен весь интернет. Для них также существуют понятия внутренних и внешних ссылок. Т.е. авторитетность документа определяется поисковыми системами по количеству и качеству таких ссылок.
В большинстве случаев, занимаясь наращиванием внешней ссылочной массы, неважно, для PDF-документа или любой другой части сайта, стоит следить за соотношением анкорных и безанкорных ссылок. Примерно, в 50-70% случаев, ссылка должна быть безанкорной. В противном случае, такая ссылочная масса может быть воспринята поисковиками как попытка манипулирования факторами ранжирования.
Не забывайте о внутренней перелинковке сайта, о наличии ссылок со страниц на PDF-документ. Кстати, сам документ тоже имеет вес (Page Rank) и способен его передавать посредством ссылок.
Для выстраивания эффективной маркетинговой стратегии, необходимо постоянно вести аналитику сайта. С обычными HTML-страницами все понятно, счетчики Яндекс Метрики или Google Analyics, а как быть с PDF-файлами?
Для передачи данных об открытии PDF-файлов в эту систему аналитики, необходимо настроить отслеживание этого события через Google Tag Manager:
- Заходим в аккаунт GTM.
- Далее создаем новый Тег. В конфигурации – Google Аналитика — Universal Analytics.
Создаем новый тег в Google Tag Manager
Пример заполнения полей
После создаем Триггер, по которому будет происходить активация созданного события:
Создание Триггера
Выбираем тип триггера
- Включаем «Ждать теги» и выставляем 2000 мс (значение по умолчанию).
- Теперь переходим к настройке условий, при которых будет выполняться триггер. Здесь нужно указать, что он будет срабатывать на всех страницах (регулярное выражение «.*») и для файлов, которые имеют расширение pdf. Заполняем по аналогии с примером.
Пример настройки триггера
После опубликовываем в GTM все настройки и проверяем, если все сделано правильно, то в Аналитику (при условии, что она принимает события из GTM) будет передаваться факт открытия PDF-файлов на сайте.
SEO-оптимизация PDF-файлов имеет сходство оптимизацией обычных HTML-страниц, на них также можно получать хорошую долю трафика.
Изображения
Изображения являются наиболее тяжеловесными элементами PDF, а так как в большинстве случаев открытие файла происходит в онлайн-режиме, то следует позаботиться о его конечном весе, и не добавлять в один файл много изображений. Перед размещением в PDF, оптимизируйте их по качеству и размеру.
Если говорить про SEO-оптимизацию картинок в PDF, то к ним можно прописывать атрибут alt – краткое описание содержимого изображения. Именно по нему поисковый робот способен правильно распознавать и индексировать такого типа контент. Конечно, сейчас алгоритмы поисковиков способны считывать содержимое изображений и другими способами, но в идеале alt должен быть прописан.
К формированию описания нужно подходить также, как и к заголовкам: кратко, емко, используя ключевые слова в естественном вхождении.
Диалоговое окно «Параметры индексирования»
Не включать числа
При выборе этого параметра из индекса исключаются все числа, входящие в текст документа. Исключение из индекса чисел может существенно сократить размер индекса и ускорить поиск.
Добавлять идентификаторы к файлам Adobe PDF версии 1.0
Этот параметр устанавливается, если коллекция документов содержит файлы PDF, созданные в программе Acrobat версии ниже 2.0, в которых идентификаторы не добавлялись автоматически. Идентификаторы необходимы, когда длинные имена файлов в Mac OS сокращаются при их переводе в имена файлов DOS. Программа Acrobat 2.0 и более поздних версий автоматически добавляет эти идентификаторы.
Не предупреждать об измененных документах в процессе поиска
Этот параметр используется для включения в индекс пользовательских свойств документа. Индексируются только пользовательские свойства документа, уже существующие в индексируемых документах PDF. Введите свойство, сделайте выбор в меню «Тип» и затем нажмите кнопку «Добавить». Эти свойства появляются в качестве параметров поиска в меню дополнительных критериев поиска окна Поиск в PDF при поиске в итоговом индексе. Например, если ввести пользовательское свойство Имя документа и определить его в меню «Тип» как строковое, то при поиске в индексе можно осуществлять поиск по этому пользовательскому свойству, выбрав в меню Использовать дополнительные критерии параметр Имя документа .
При создании в приложении Microsoft Office пользовательских полей, для которых в приложении PDFMaker установлен параметр «Преобразование сведений о документе», поля будут преобразовываться для любых создаваемых PDF-файлов.
Этот параметр используется для включения пользовательских полей XMP. Пользовательские поля XMP индексируются и отображаются во всплывающих меню дополнительных критериев поиска для включения в поиск по выбранным индексам.
Этот параметр используется для исключения отдельных слов (максимум 500) из результатов поиска по индексу. Введите слово, нажмите кнопку «Добавить». При необходимости повторите это действие. Исключение слов может привести к уменьшению размеров индекса на 10–15%. Стоп-слово может содержать до 128 символов и является чувствительным к регистру.
Чтобы пользователи напрасно не вводили поисковые запросы, содержащие эти слова, список неиндексируемых слов приведен в файле Readme каталога.
Этот параметр используется для обеспечения возможности поиска по узлам тегов в документах, имеющих тегированную логическую структуру.
Параметры «Заказные свойства», «Исключения» и «Теги структуры» применяются только к текущему индексу. Чтобы применить эти параметры для всех создаваемых индексов, можно изменить настройки по умолчанию для пользовательских полей, стоп-слов и тегов в панели «Каталог» диалогового окна «Установки».
Зачастую хорошим решением оказывается создать отдельный файл Readme и поместить его в папку с индексом. В файле Readme могут содержаться полезные сведения об индексе, например, следующие:
Типы индексируемых документов.
Поддерживаемые параметры поиска.
Контактные данные (имя, номер телефона) лица, которое может ответить на интересующие вопросы.
Список чисел или слов, исключаемых из индекса.
Список папок, содержащих документы, которые включены в индекс, построенный в локальной сети, или список документов, которые включены в индекс, построенный по отдельному диску. Сюда можно также включить краткое описание содержимого каждой папки или документа.
Список значений по каждому документу, если заполнены поля «Сведения о документе».
Если каталог содержит очень большое число документов, в файл Readme можно включить таблицу, описывающую значения, присвоенные каждому документу. Эта таблица может входить в состав файла Readme, либо ее можно сохранить в отдельном документе. При разработке индекса эту таблицу можно использовать для сохранения согласованности.
Существующий индекс можно обновить, перестроить или удалить.
Выберите Инструменты > Индекс.
На дополнительной панели инструментов отобразится набор инструментов «Индекс».
На дополнительной панели инструментов выберите Полнотекстовый индекс с каталогом.
Отобразится диалоговое окно «Каталог».
В диалоговом окне Каталог нажмите Открыть индекс.
Найдите и выберите файл определения индекса (PDX), затем нажмите кнопку Открыть.
Если индекс был создан в программе Acrobat версии 5.0 или более ранней, для создания индекса выберите команду Создать копию (не перезаписывая поверх более ранней версии) или команду Заменить старый индекс, чтобы записать новый индекс поверх старого.
В диалоговом окне Определение индекса внесите необходимые изменения, затем выберите действие, которое хотите выполнить в Acrobat:
Создает новый IDX-файл с существующими данными и обновляет его, добавляя новые элементы и отмечая измененные или устаревшие элементы как недействительные. Если количество таких изменений велико или если часто выполнять такие изменения, вместо создания нового индекса, время поиска может увеличиться.
Создает новый индекс, переписывая существующую индексную папку и все ее содержимое (то есть IDX-файлы).
Удаляет содержимое индекса (IDX-файлы), не удаляя сам индексный файл (PDX).
Можно задать установки индексирования, которые будут применяться глобально ко всем создаваемым впоследствии индексам. Некоторые из этих установок можно переопределить для конкретного индекса, выбрав для него новые параметры во время построения индекса.
В диалоговом окне Установки в разделе Категории выберите Каталог. Многие параметры совпадают с теми, которые были описаны для процесса построения индекса.
Параметр «Принудительная совместимость с ISO 9660 для папок» полезно использовать, если при подготовке документов для индексирования нет необходимости менять длинные имена документов PDF на имена файлов MS-DOS. Тем не менее имена папок должны быть преобразованы в стандарт именования файлов MS-DOS (8 символов или меньше), даже если такое преобразование не является необходимым для имен файлов.
Используйте функцию каталога и пакетный файл каталога PDX (.bpdx) для определения, когда и как часто автоматически создавать, создавать заново, обновлять и очищать индекс. Файл BPDX представляет собой текстовый файл, содержащий список флагов и путей к индексному файлу каталога в зависимости от используемой платформы. Для отображения файла BPDX в Acrobat можно использовать такие приложения, как Назначенные задания в Windows . Acrobat повторно создает индекс в соответствии с флагами в файле BPDX.
Чтобы использовать файлы BPDX, в диалоговом окне «Установки» в подразделе «Каталог» выберите « Разрешить запуск пакетных файлов каталога (.bpdx)».
Разработанную и протестированную на локальном жестком диске индексированную коллекцию документов можно затем переместить в виде законченной коллекции на сетевой сервер или диск. Определение индекса содержит относительные пути от файла определения индекса (PDX) к папкам, содержащим индексированные документы. Если эти относительные пути не изменятся, перестраивать индекс после перемещения коллекции документов не потребуется. Если PDX-файл и папки, содержащие индексированные документы, расположены в одной папке, сохранение относительного пути достигается простым перемещением этой папки.
Если относительный путь изменится, то после перемещения индексированной коллекции документов необходимо создать новый индекс. Однако в любом случае можно использовать исходный PDX-файл. Чтобы использовать исходный PDX-файл, вначале следует переместить индексированные документы. Затем необходимо скопировать PDX-файл в папку, в которой планируется создать новый индекс, и при необходимости изменить списки включенных или исключенных папок и подпапок.
Если индекс располагается на сетевом диске или сервере отдельно от любой части файлов коллекции, то перемещение либо коллекции, либо индекса приведет к повреждению индекса. Если коллекция документов перемещается в другое сетевое местоположение или на компакт-диск, индекс для нее необходимо создавать и строить в том же месте, куда перемещается коллекция.
Формат PDF был разработан фирмой Adobe Systems, чтобы решить проблему единства отображения и обработки полиграфической продукции в различных информационных средах (его кроссплатформенность) и довольно успешно справляется с этой задачей и по сегодняшний день. Однако со временем у этого формата появилось и иное предназначение. Универсальность этого формата спровоцировала рост его популярности, а, следовательно, увеличилось и количество публикаций, доступных в этом формате в электронном виде в Интернете.
Изначально файлы формата PDF в сознании многих людей ассоциировались именно с качественным уникальным контентом, т. к. с его помощью часто публиковались и публикуются различные отчёты, доклады, статьи, руководства и другая полезная информация. Конечно, было бы глупо упускать такой источник полезной информации. Со временем все популярные поисковые системы научились индексировать файлы PDF и ранжировать их, что автоматически поставило их наравне с привычными для нас файлами в формате HTML (веб-страницами).
Нам же важно не упустить возможную выгоду и научиться правильно оптимизировать файлы подобного рода для поисковых систем, чтобы обеспечить их лучшую видимость в результатах поиска. Долгое время файлы PDF воспринимались исключительно как файлы-архивы, для открытия которых необходимо было их загружать на компьютер и читать в сторонней программе (Например, в Adobe Reader – программе для просмотра формата PDF ). Так было раньше, сейчас же многое меняется: значительно увеличиваются скорости Интернета, появляются встроенные в браузер плагины для чтения формата PDF, позволяющие просматривать файлы сразу же в браузере. Например, уже сегодня в браузере Opera можно читать файлы PDF прямо на сайте онлайн. А это всё прямое свидетельство того, что популярность этого формата в обозримом будущем будет только расти. Это теперь не только универсальный формат для хранения и редактирования полиграфии, но также и способ передачи информации в Интернете (выполняющий функции обычной веб-страницы).
В этой статье я старался систематизировать информацию, осветив как можно больше фактов, влияющих на индексацию поисковыми системами документов этого формата в Интернете, а также ответив на самые распространённые вопросы, которые возникают у веб-мастеров, использующих эти файлы на своих сайтах.
Любой веб-мастер и seo-оптимизатор должен понимать, что файл PDF - это такая же страница сайта, как и файл в формате HTML. Как правило, на этот файл ссылаются так, что он является тупиковым для поисковой системы, т. к. в нём почти никогда не содержатся ссылки на другие страницы сайта, а зря. Каждый PDF-файл (как и страница HTML) находится в индексе поисковых систем, следовательно, имеет и свой поисковый вес, передаваемый по ссылкам (вИЦ или PR, если хотите). Я настоятельно рекомендую вам в любом файле PDF, выложенным на сайте, делать ссылки на обычные HTML-страницы сайта и на другие страницы PDF (можно даже продублировать навигацию основного сайта). В данном случае вы будете только в выигрышном положении, т. к. помимо передачи поискового веса по ссылке, посетитель, скачав файл PDF с вашего сайта и ознакомившись с информацией в нём, может к вам вернуться, щёлкнув по ссылке, ведущей на ваш сайт из скачанного документа. К тому же файл PDF редко редактируется, поэтому часто сохраняется в первоначальном виде, а также как файловый архив может стремительно распространяться через различные файловые хостинги, а это, опять же, новые пользователи для вашего сайта (тот редкий случай, когда поисковая оптимизация напрямую влияет на непоисковое продвижение).
ПРОГРАММЫ ДЛЯ РАБОТЫ С ФАЙЛАМИ PDF
Для создания файлов PDF используйте программу Adobe Acrobat , т. к. она имеет целый арсенал средств, которые способны максимально качественно оптимизировать наши файлы. Несмотря на это, можно (но не рекомендуется) использовать и другие программы. Например, для создания файлов PDF вы можете использовать связку программ Adobe Pagemaker и Adobe InDesign или текстовые редакторы наподобие Word из пакета Microsoft Office или Write - из OpenOffice . Когда будете использовать текстовый редактор Word для создания документа формата PDF, то используйте теги H1, H2, H3 и другие подобные для оптимизации текста документа. Вы должны сделать полученный текст базирующимся на языке HTML , чтобы поисковые системы эффективно его индексировали.
Не используйте программы типа Photoshop и Illustrator, т. к. после обработки документа на выходе информация превращается в одно большое изображение, текст на котором не распознать поисковым системам. Однако часто случается и то, что у веб-мастера уже есть большое количество PDF-файлов, полученных от заказчика, или же специфика темы на сайте такая, что по ней есть информация в электронном виде только в этом формате. Если у вас именно такой случай, то не отчаивайтесь. Сейчас активно разрабатываются программы, способные распознавать текст на изображениях, что позволяет модифицировать текст на изображениях в обычный текст, который индексируется поисковыми системами. В России довольно успешно распознаванием текстов занимается компания ABYY. К примеру, вы можете воспользоваться их конвертером Abbyy PDF Transformer. Хочу сразу заметить, что это довольно уникальный продукт, аналогов которому почти нет. В его возможности входит конвертирование текста на картинках PDF в текст, способный индексироваться поисковыми системами.
Несколько слов, я думаю, можно сказать и про программы конвертеры. Если же вы решили, что по каким-то причинам формат PDF на сайте вас не очень устраивает, а контент вашего сайта состоит, в основном, из файлов PDF, то у вас есть возможность переконвертировать эти файлы в формат HTML, используя различные бесплатные и платные PDF конвертеры.
Вот небольшой список таких конвертеров:
- Advanced PDF to HTML
- Comfortable PDF to HTML
- Easy PDF to HTML
- AdobeAcrobatProExtended– это конвертер компанииAdobe, но известно, что оптимизаторы испытывают сложности с этой программой.
Теперь, я думаю, самое время поделиться с вами секретами оптимизации файла PDF для поисковых систем.
ИЗОБРАЖЕНИЯ
Не используйте слишком много изображений или изображения большого размера. Картинки хоть и улучшают внешний вид, однако также увеличивается размер файла и время его загрузки. Как и на HTML-странице, если вы поставите много изображений (особенно неоптимизированных), то это потребует больше времени для их загрузки в браузер. Но помимо оптимизации размера изображений PDF-документа, необходимо также оптимизировать и подписи (альтернативный текст) к ним. У каждого изображения документа должна быть своя подпись, как к картинкам обычной HTML-страницы.
РАЗМЕР ФАЙЛА
Нужно всегда помнить, что поисковые системы не индексируют файлы, которые слишком много весят. Например, поисковая система "Яндекс" не будет индексировать файлы весом больше, чем 10 Мб, отсюда следует правило, что файл PDF не может быть больше 10 Мб.
Если говорить про оптимальный размер PDF-файла, то многие seo -оптимизаторы считают его величину в пределах 500 - 1000 Кб, т. к. с файлами именно таких размеров происходит меньше всего ошибок, связанных с индексацией файлов.
Для оптимизации размера в программе Adobe Acrobat есть специальная функция: Advanced > PDF Optimizer.
Внимание! При создании PDF-документа в любом редакторе обращайте внимание на версию получаемого файла. Рекомендуемая версия – 1.5 и ниже, т. к. такой файл гарантированно будет читаться всеми программами для просмотра PDF и роботами поисковых систем. Формат PDF позволяет оптимизировать также и копию документа, поэтому по возможности оптимизируйте и её.
ТЕКСТ ФАЙЛА
Старайтесь избегать большого количества текста в одном файле PDF, дробите один файл на несколько файлов, причём, линкуйте их ссылками внутри каждого такого документа (так, как бы вы это делали с обычными HTML-документами).
Оптимизируйте текст файла PDF под конкретные ключевые запросы, а здесь надо уделять внимание таким же показателям, как и на обычной веб-странице (плотность ключевых слов не выше 5% и прочим). Если вы хотите получить хорошо индексируемый и релевантный поисковым запросам контент PDF-документа, вы должны стараться избегать нагромождения страниц в нём. При внутренней оптимизации текста, а именно: заголовков и подзаголовков, ключевых слов и фраз, необходимых для вашего документа, - будьте очень осторожны, чтобы файл не выглядел заспамленным и не вылетел, в итоге, из индекса поисковых систем.
Если ваш файл PDF разбит на несколько частей, то настройте порядок отображения этих частей. От порядка чтения документа зависит то, какая информация будет предоставлена поисковому роботу сначала, а какая - потом. Помните, что наибольшую поисковую значимость имеют ключевые слова, находящиеся ближе к началу документа, поэтому если в документе обратное, то вам стоит перестроить логическую последовательность частей вашего PDF документа, чтобы выделить наиболее важные части и улучшить их поисковую видимость в Интернете.
Сделайте оглавление (поисковую карту документа), каждый пункт этого оглавления оформите ссылкой (закладкой) внутри PDF документа, для каждой ссылки пропишите ключевые слова в описании ссылки. Этот приём наиболее эффективен для документов, состоящих из нескольких логический частей и с большим количеством страниц – он обеспечивает качественную внутреннюю перелинковку документа, позволяющую эффективно индексировать документ поисковым роботам.
ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ (МЕТАПОЛЯ)
Очень важно заполнить всю дополнительную информацию о вашем файле PDF. Уделите особое внимание таким тегам как: Title (заголовок), Author (автор материала), Subject (тема), Keywords (ключевые слова документа), Descriptions (описание PDF-документа) и Copyright (авторские права). Все эти настройки можно найти в программе Adobe Acrobat в меню File > Document Properties. Метаданные файла PDF имеют схожее происхождение с метатегами файлов HTML, так что уделяйте им особое внимание при оптимизации.
КОДИРОВКА, ШРИФТЫ И РАСПОЛОЖЕНИЕ ФАЙЛА
Несколько слов нужно сказать и про оптимизацию шрифтов. Не забывайте включать в сам файл все необходимые (нестандартные) шрифты. Довольно часто для декоративных целей используются самые разнообразные и редкие полиграфические шрифты, которые могут плохо восприниматься поисковыми системами, поэтому, по возможности, старайтесь пользоваться стандартными шрифтами (Arial, Helvetica, Sans-Serif, Times New Roman и другими), которые хорошо индексируются поисковыми системами. Их плюс в том, что они присутствуют по умолчанию в любой операционной системе, поэтому из документа PDF их можно спокойно исключить, уменьшив тем самым размер файла.
Шрифты, которые не были добавлены в PDF-документ или отсутствуют в операционной системе, будут отображаться тем шрифтом, который имеется (самым близким по значению), что может привести к нежелательным последствиям, а именно к увеличению или уменьшению числа страниц, количества символов в строках, межстрочного интервала и других проблем метрики.
Довольно болезненный параметр для поисковых систем - кодировка файла. Если поисковая система не сумеет определить кодировку вашего PDF файла самостоятельно, то документ вообще не будет проиндексирован, поэтому всегда проверяйте, указана ли она. Желательно использовать самые известные и популярные кодировки.
Ваш файл PDF, как и обычная страница файла, должен быть максимально близок к корню сайта. Ссылайтесь на них ближе к главной странице, не пытайтесь засунуть его глубоко в структуру сайта, чтобы не понизить поисковую значимость вашего PDF документа.
Не давайте вашим документам в формате PDF слишком сложные имена. Упрощайте их. Несколько слов в названии самого файла разделяйте символом "_". Например: imya_documenta.pdf. Также для разделителя можно использовать и символ "-", но я рекомендую использовать первый вариант.
После всех проделанных операций по оптимизации можете выкладывать файл на сайт. Поисковые системы найдут файл, проиндексируют его и начнут выводить в результатах поиска, и если материал интересен, начнётся самораскрутка его среди посетителей - на файл начнут ссылаться, скачивать и публиковать его в других местах (а сам файл будет с ссылками на ваш сайт). Неплохо, не правда ли?
Напоследок, предоставлю вам пару ссылок, которые могут быть полезны в связи с опубликованным материалом:
В этом обзоре я постарался ответить на наиболее распространённые вопросы по оптимизации файла PDF, которые задают люди, занимающиеся раскруткой сайтов. Но если у вас появились вопросы или что-то осталось непонятным, то, пожалуйста, сообщайте об этом! Буду рад любым отзывам от вас! Спасибо!
Нравится этот блог?
Подпишитесь на обновления блога (RSS).
Подпишитесь на комментарии (RSS).
Текстовая составляющая
Это наиболее важный пункт, на который стоит обратить внимание оптимизатору при подготовке файла к продвижению. Как отмечалось выше, PDF-файлы чаще всего используются для публикации различных докладов и прочего массива информации. Поэтому, если в таком файле содержится больше количество текстового контента, то лучше поделить его на несколько частей.
Что касается самой оптимизации, тот тут действуют примерно такие же правила, как при продвижении HTML-страниц. То есть, в тексте должны присутствовать ключевые слова из семантического ядра сайта. Важно учитывать уровень плотности ключей (до 5%) и следить за переспамом.
Текст должен быть уникальным, как и в случае с обычными веб-страницами, проверить это можно на одном из сервисов:
Отдельное внимание стоит уделить структуре текста. В нем должны присутствовать заголовки и подзаголовки, в которых рекомендуется употреблять ключевые слова. Кроме этого, они помогают структурировать текст, делая его удобным для чтения. Заголовки, также, как и в HTML, бывают h1-h6 (или более, уровня).
К слову, работая с ключевыми фразами, избегайте их использования в неестественных формах – это негативно скажется на продвижении. Поисковики «не любят» накрутки в любом их проявлении.
Наиболее «горячие» ключевые фразы постарайтесь разместить как можно ближе к началу текста, лучше самый основной запрос употребить в первом абзаце.
И самое главное, текст должен представлять ценность для читателя, а также необходимо следить за его качеством в целом. Если это будет откровенно плохой рерайт или текст содержащий большое количество грамматических ошибок, то при продвижении возникнет масса сложностей.
Применяем лучшие практики digital–продвижения как из вашей тематики, так и из смежных областей бизнеса. Именно это сделает вас на голову выше конкурентов и принесёт лиды и продажи.
Не стоит забывать про юзабилити файла. Для удобства пользователя, можно создать оглавление, разместив его вначале файла с активными ссылками навигации по документу. Это поможет улучшить поведенческие факторы, а они, как известно, имеют колоссальное влияние на поисковое ранжирование.
Читайте также: