Не обновляется файл robots txt
Раздел содержит решения часто встречающихся проблем категории «Возможные» , выявленных при диагностике сайта в\nВебмастере. Проблемы этой группы могут влиять на качество и скорость индексирования страниц сайта.
Не найден файл robots.txt
Несколько раз в сутки индексирующий робот запрашивает файл robots.txt и обновляет информацию о нем в своей базе. Если при очередном обращении робот не может загрузить файл, в\nВебмастере появляется соответствующее предупреждение.
В сервисе проверьте доступность файла robots.txt. Если файл по-прежнему недоступен, добавьте его. Если вы не можете сделать это самостоятельно, обратитесь к хостинг-провайдеру или регистратору доменного имени. После добавления файла данные в Вебмастере обновляются в течение нескольких дней.
Что произойдет, если в файле robots.txt будет ошибка или неподдерживаемая директива?
Ошибки проверки URL
Перечень ошибок проверки URL в инструменте Анализ robots.txt .
Ошибка синтаксиса URL.
Заданный URL не принадлежит сайту, для которого производится анализ файла. Возможно, вы указали адрес одного из зеркал вашего сайта или допустили ошибку в написании имени домена.
Ошибка синтаксиса URL.
Заданный URL не принадлежит сайту, для которого производится анализ файла. Возможно, вы указали адрес одного из зеркал вашего сайта или допустили ошибку в написании имени домена.
— это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.
Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.
При очередном обходе сайта робот Яндекса загружает файл robots.txt . Если при последнем обращении к файлу, страница или раздел сайта запрещены, робот не проиндексирует их.
Я использую один файл robots.txt для нескольких сайтов. Можно ли указывать полные URL, а не относительные?
Нет. В директивах файла robots.txt (за исключением sitemap: ) должны быть только относительные пути.
Как загрузить файл robots.txt
Сохраненный на компьютере файл robots.txt необходимо загрузить на сайт и сделать доступным для поисковых роботов. Специального инструмента для этого не существует, поскольку способ загрузки зависит от вашего сайта и серверной архитектуры. Обратитесь к своему хостинг-провайдеру или попробуйте самостоятельно найти его документацию (пример запроса: "загрузка файлов infomaniak").
После загрузки файла robots.txt проверьте, доступен ли он для роботов и может ли Google обработать его.
Я хочу заблокировать доступ к личной папке. Можно ли сделать файл robots.txt недоступным для других пользователей?
Нет. Файл robots.txt доступен всем. Если вы не хотите, чтобы названия папок или файлов с контентом стали известны другим людям, не указывайте эти названия в файле robots.txt. Не рекомендуется передавать разные файлы robots.txt в зависимости от агента пользователя или других атрибутов.
Полезные правила
Вот несколько часто используемых в файлах robots.txt правил.
Следует учесть, что в некоторых случаях URL сайта могут индексироваться, даже если они не были просканированы.
Сканировать весь сайт может только робот googlebot-news .
Робот Unnecessarybot не может сканировать сайт, а все остальные могут.
Это правило запрещает сканирование отдельной страницы.
Например, можно запретить сканирование страницы useless_file.html .
Это правило скрывает определенное изображение от робота Google Картинок.
Например, вы можете запретить сканировать изображение dogs.jpg .
Это правило скрывает все изображения на сайте от робота Google Картинок.
Google не сможет индексировать изображения и видео, которые недоступны для сканирования.
Это правило запрещает сканировать все файлы определенного типа.
Например, вы можете запретить роботам доступ ко всем файлам .jpg .
Это правило запрещает сканировать весь сайт, но при этом он может обрабатываться роботом Mediapartners-Google
Робот Mediapartners-Google сможет получить доступ к удаленным вами из результатов поиска страницам, чтобы подобрать объявления для показа тому или иному пользователю.
Например, эта функция позволяет исключить все файлы .xls .
Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.
Можно ли использовать метатег robots за пределами раздела ?
Нет. Метатег robots можно добавлять только в раздел на странице.
Обнаружены ошибки в файле robots.txt
Через какое время изменения в файле robots.txt отразятся на результатах поиска?
Прежде всего должна обновиться копия файла robots.txt в кеше (обычно Google кеширует контент не более чем на один день). Чтобы ускорить этот процесс, отправьте в Google обновленный файл robots.txt. Однако процесс сканирования и индексирования устроен достаточно сложно, и для некоторых URL обновление информации может занимать продолжительное время даже после обнаружения изменений. Поэтому мы не можем точно сказать, когда изменения отразятся на результатах поиска. Следует также иметь в виду, что URL может появляться в результатах поиска, даже если доступ к нему заблокирован в файле robots.txt и Google не может его просканировать. Если вы хотите, чтобы заблокированные страницы быстрее исчезли из результатов поиска Google, отправьте запрос на их удаление.
Я возвращаю код ответа 403 Forbidden для всех URL на моем сайте, в том числе для URL файла robots.txt. Почему мой сайт по-прежнему сканируется?
Можно ли с помощью метатега robots запретить индексирование только части страницы?
Нет, метатег robots применяется ко всей странице.
Рекомендации по наполнению файла
Яндекс поддерживает следующие директивы:
Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.
Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере.
Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.
Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере.
Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:
Роботы других поисковых систем и сервисов могут иначе интерпретировать директивы.
Примечание. Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.
Предупреждения
Перечень предупреждений, возникающих при анализе файла robots.txt .
Обнаружен спецсимвол, отличный от * и $.
Обнаружена директива, не описанная в правилах использования robots.txt. Возможно, эта директива используется роботами других поисковых систем.
Строка не может быть интерпретирована как директива robots.txt .
При анализе файла возникла неизвестная ошибка. Обратитесь в службу поддержки.
Обнаружен спецсимвол, отличный от * и $.
Обнаружена директива, не описанная в правилах использования robots.txt. Возможно, эта директива используется роботами других поисковых систем.
Строка не может быть интерпретирована как директива robots.txt .
При анализе файла возникла неизвестная ошибка. Обратитесь в службу поддержки.
Как добавить правила в файл robots.txt
Правила – это инструкции для поисковых роботов, указывающие, какие разделы сайта можно сканировать. Добавляя правила в файл robots.txt, учитывайте следующее:
- Файл robots.txt состоит из одной или более групп.
- Каждая группа может включать несколько правил, по одному на строку. Эти правила также называются директивами или инструкциями. Каждая группа начинается со строки User-agent , определяющей, какому роботу адресованы правила в ней.
- Группа содержит следующую информацию:
- К какому агенту пользователя относятся директивы группы.
- К каким каталогам или файлам у этого агента есть доступ.
- К каким каталогам или файлам у этого агента нет доступа.
Директивы в файлах robots.txt, поддерживаемые роботами Google
Все директивы, кроме sitemap , поддерживают подстановочный знак * для обозначения префикса или суффикса пути, а также всего пути.
Строки, не соответствующие ни одной из этих директив, игнорируются.
Ознакомьтесь со спецификацией Google для файлов robots.txt, где подробно описаны все директивы.
Как проверить наличие заголовка X-Robots-Tag для URL?
Заголовки ответа сервера проще всего анализировать с помощью инструмента проверки URL в Google Search Console. Чтобы проверить заголовки ответа для любого URL, попробуйте выполнить поиск по запросу server header checker.
Как создать robots.txt
Пример файла. Данный файл разрешает индексирование всего сайта для всех поисковых систем.
Использование кириллицы
Для указания имен доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.
Пример файла robots.txt :
Нужно ли указывать директиву allow , чтобы разрешить сканирование?
Нет. Сканирование будет выполняться и без директивы allow . По умолчанию все URL разрешены. Указывать allow имеет смысл только для того, чтобы переопределить директиву disallow , которая задана в том же файле robots.txt.
Вопросы о файле robots.txt
Чем директива nofollow в метатеге robots отличается от атрибута rel="nofollow" в теге link?
Директива nofollow в метатеге robots запрещает переходить по всем ссылкам на странице. Атрибут rel="nofollow" тега link относится только к той ссылке, в которой он указан. Дополнительная информация об атрибуте rel="nofollow" в теге link представлена в статьях, посвященных спаму в комментариях и атрибуту rel="nofollow" .
Нет используемых роботом файлов Sitemap
Файл Sitemap является вспомогательным инструментом при индексировании сайта, он позволяет регулярно сообщать роботу о появлении новых страниц на сайте. Данное предупреждение появляется, если робот не использует ни одного файла Sitemap для сайта.
Чтобы робот начал использовать созданный файл, добавьте его в Вебмастер и дождитесь обработки файла роботом. Обычно на это требуется до двух недель. После этого предупреждение пропадет.
Файл favicon недоступен для робота
Перечень ошибок, возникающих при анализе файла robots.txt .
Правило может начинаться только с символа / или *.
Допускается только одно правило такого типа.
Количество правил в файле превышает 2048.
Правило должно всегда следовать за директивой User-agent. Возможно, файл содержит пустую строку после User-agent.
Правило превышает допустимую длину (1024 символа).
В директиве Clean-param указывается один или несколько параметров, которые робот будет игнорировать, и префикс пути. Параметры перечисляются через символ & и отделяются от префикса пути пробелом.
Правило может начинаться только с символа / или *.
Допускается только одно правило такого типа.
Количество правил в файле превышает 2048.
Правило должно всегда следовать за директивой User-agent. Возможно, файл содержит пустую строку после User-agent.
Правило превышает допустимую длину (1024 символа).
В директиве Clean-param указывается один или несколько параметров, которые робот будет игнорировать, и префикс пути. Параметры перечисляются через символ & и отделяются от префикса пути пробелом.
Как лучше всего запрещать роботам сканировать страницы?
Разные методы блокировки подходят для разных ситуаций:
Нет. Эти методы подходят только для сайтов, на которых вы можете изменять код или добавлять файлы. Подробнее о том, как удалять информацию из Google…
Как полностью приостановить сканирование моего сайта на некоторое время?
Can't find the answer?
If you can't find the answer to your question on this page, check out Google's help resources for site owners.
Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.
Если вы пользуетесь сервисом веб-хостинга (например, Wix или Blogger), вероятнее всего, вам не потребуется редактировать файл robots.txt напрямую или у вас даже не будет такой возможности. Вместо этого ваш провайдер будет указывать поисковым системам, нужно ли сканировать ваш контент, с помощью страницы настроек поиска или другого инструмента.
Если же вы хотите самостоятельно запретить или разрешить поисковым системам обработку определенной страницы вашего сайта, попробуйте найти информацию об этом в сервисе управления хостингом. Пример запроса: "wix как скрыть страницу от поисковых систем".
Ниже приведен пример простого файла robots.txt с двумя правилами.
Более подробные сведения вы найдете в разделе Синтаксис.
Является ли метатег robots заменой файлу robots.txt?
Нет. Файл robots.txt управляет доступностью страниц, в то время как метатег robots указывает, нужно ли индексировать страницу. И чтобы обнаружить этот тег, робот должен ее просканировать. Если нужно запретить сканирование страницы (например, когда она создает высокую нагрузку на сервер), используйте файл robots.txt. Если же просто требуется указать, должна ли страница появляться в результатах поиска, можно воспользоваться метатегом robots.
Обнаружены ошибки в файлах Sitemap
Проверьте файл Sitemap вашего сайта. Проверка может выявить ошибку «Неизвестный тег» . Она сообщает, что файл содержит неподдерживаемые Яндексом элементы. Такие элементы игнорируются роботом при обработке Sitemap , но данные из поддерживаемых элементов учитываются. Поэтому менять содержимое файла необязательно. Подробнее о поддерживаемых элементах Sitemap.
Вопросы и ответы
Как правило, после установки запрета на индексирование каким-либо способом исключение страниц из поиска происходит в течение двух недель. Вы можете ускорить этот процесс.
В Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots.txt»
Чтобы проверить доступность файла robots.txt для робота, проверьте ответ сервера.
Если ваш robots.txt выполняет перенаправление на другой файл robots.txt (например, при переезде сайта), Яндекс учитывает robots.txt , на который происходит перенаправление. Убедитесь, что в этом файле указаны верные директивы. Чтобы проверить файл, добавьте сайт, который является целью перенаправления, в Вебмастер и подтвердите права на управление сайтом.
Требования к файлу robots.txt
Размер файла не превышает 500 КБ.
Если файл не соответствует требованиям, сайт считается открытым для индексирования.
Яндекс поддерживает редирект с файла robots.txt , расположенного на одном сайте, на файл, который расположен на другом сайте. В этом случае учитываются директивы в файле, на который происходит перенаправление. Такой редирект может быть удобен при переезде сайта.
Отсутствуют элемент title и метатег description
Элемент title и метатег description помогают сформировать корректное описание сайта в результатах поиска. Подробно см. раздел Отображение заголовка и описания сайта в результатах поиска.
В какой программе нужно создавать файл robots.txt?
Используйте любую программу, позволяющую создавать текстовые файлы, например Блокнот, TextEdit, vi или Emacs. Советуем сначала прочитать эту статью. Создав файл, проверьте его с помощью этого инструмента.
Если я с помощью директивы disallow файла robots.txt заблокирую роботу Googlebot доступ к странице, исчезнет ли она из результатов поиска?
Если заблокировать роботу Googlebot доступ к странице, она может быть удалена из индекса Google.
На страницах есть одинаковые заголовки и описания
Эта проблема отображается, если заголовок или описание повторяется на значительной доле страниц сайта. Когда title и description отражают контент страницы, информативны и привлекательны, пользователям удобнее находить ответы в поисковой выдаче.
Проблема перестанет отображаться, когда робот узнает об изменениях на сайте. Чтобы это произошло быстрее, отправьте наиболее важные страницы на переобход или настройте обход страниц со счетчиком Метрики.
Вопросы о метатеге robots
Как протестировать разметку файла robots.txt
Для этой цели Google предлагает два средства:
- Инструмент проверки файла robots.txt в Search Console. Этот инструмент можно использовать только для файлов robots.txt, которые уже доступны на вашем сайте.
- Если вы разработчик, мы рекомендуем воспользоваться библиотекой с открытым исходным кодом, которая также применяется в Google Поиске. С помощью этого инструмента файлы robots.txt можно локально тестировать прямо на компьютере.
Когда вы загрузите и протестируете файл robots.txt, поисковые роботы Google автоматически найдут его и начнут применять. С вашей стороны никаких действий не требуется. Если вы внесли в файл robots.txt изменения и хотите как можно скорее обновить кешированную копию, следуйте инструкциям в этой статье.
Мой сервер не учитывает регистр. Как полностью запретить сканирование некоторых папок?
Как уменьшить скорость сканирования моего сайта поисковыми роботами Google?
Можно ли разместить файл robots.txt в подкаталоге?
Нет. Этот файл должен быть размещен в корневом каталоге сайта.
Основные рекомендации по созданию файла robots.txt
Работа с файлом robots.txt включает четыре этапа.
Как создать файл robots.txt
Создать файл robots.txt можно в любом текстовом редакторе, таком как Блокнот, TextEdit, vi или Emacs. Не используйте офисные приложения, поскольку зачастую они сохраняют файлы в проприетарном формате и добавляют в них лишние символы, например фигурные кавычки, которые не распознаются поисковыми роботами. Обязательно сохраните файл в кодировке UTF-8, если вам будет предложено выбрать кодировку.
Правила в отношении формата и расположения файла
Можно ли с помощью метатега robots запретить сканирование?
Нет. Даже если в метатеге robots указана директива noindex , роботы будут периодически сканировать URL, чтобы проверить, не был ли этот атрибут изменен.
Читайте также: