Настройка файла robots txt для joomla
Файл robots.txt необходим для правильного сканирования и индексирования сайта роботами поисковых систем. Отсутствие файла или ошибки в нём могут негативно повлиять на ранжирование как отдельных веб-страниц, так и всего сайта.
Мета-тег robots и как он прописывается
Данный вариант запрета страниц лучше учитывается поисковой системой Google. Яндекс одинаково хорошо учитывает оба варианта.
Директив у него 2: follow/nofollow и index/noindex. Это разрешение/запрет перехода по ссылкам и разрешение/запрет на индексацию документа. Директивы можно прописывать вместе, смотрим пример ниже.
Для любой отдельной страницы вы можете прописать в теге следующее:
Как разрешить индексацию в robots.txt?
Следующие условия означают, что сайт открыт для индексации и сканирования:
- если файл отсутствует или он пустой,
- если применяются указанные ниже настройки.
Разрешать индексирование отдельных файлов и папок приходится в исключительных случаях, когда родительская папка настроена на запрет:
Важное примечание
В качестве завершения напомним, что настройка запретов индексации в robots.txt не гарантируют непопадание данных страниц и каталогов в индекс, т. к. роботы могут попадать на закрытые в файле страницы по ссылкам с других ресурсов. Для того, чтобы полностью исключить возможность индексирования страниц и каталогов, следует использовать дополнительные настройки (например, мета-тег Robots ).
Директивы и правила написания файла robots.txt.
Файл начинается с наиболее важной директивы -User-agent – она содержит название поискового робота. Для всех поисковых роботов - User-agent: *, а для Яндекса добавляем в User-agent название Yandex - User-agent: Yandex.
Следущие это Allow и Disallow. Первая разрешает, а вторая запрещает индексацию поисковым роботам.
Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent». А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.
Также необходима директива Host – которую понимает только поисковая система Яндекс, она служит, для определения главного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, что для поисковых систем это является двумя разными сайтами.
Так как директиву Host понимает только Яндекс, то для этого нужно использовать отдельно User-agent: Yandex, а для указания действий к индексации другим поисковым роботам использовать директиву User-agent.
Да и при составлении правильного robots.txt вы должны соблюдать правила написания: (директива):(пробел)(значение).
И последняя важная директива - Sitemap. Она показывает поисковикам где у вас на блоге расположена карта сайта в формате .xml.
Пример Robots.txt для WordPress
Ниже вы можете увидеть мой вариант с данного Seo блога.
Трэкбэки запрещаю потому что это дублирует кусок статьи в комментах. А если трэкбэков много — вы получите кучу одинаковых комментариев.
Служебные папки и файлы любой CMS я стараюсь я закрываю, т.к. не хочу чтобы они попадали в индекс (хотя поисковики уже и так не берут, но хуже не будет).
Фиды (feed) стоит закрывать, т.к. это частичные либо полные дубли страниц.
Теги закрываем, если мы их не используем или нам лень их оптимизировать.
Генератор robots.txt
Как проверить файл robots.txt?
Для проверки на правильность можно воспользоваться специальными инструментами-анализаторами, которые нам любезно предоставляют ведущие поисковые системы рунета.
Как проверить корректность работы файла
Анализ robots.txt в Яндекс Вебмастере – тут.
Указываем адрес своего сайта, нажимаем кнопку «Загрузить» (или вписываем его вручную) – бот качает ваш файл. Далее просто указываем нужные нам УРЛы в списке, которые мы хотим проверить и жмем «Проверить».
Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.
Видео по теме
Примеры для других CMS
Чтобы скачать правильный robots для нужной CMS просто кликните по соответствующей ссылке.
Что же такое robots.txt?
Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!
Комментарии
Синтаксис и директивы стандарта
Стандарт robots.txt отличается оригинальным синтаксисом. Существуют общие для всех роботов директивы (правила), а также директивы, понятные только роботам определенных поисковых систем.
Анализ robots.txt онлайн в Google
Инструмент проверки правильности файлов robots.txt от Google менее удобен, т. к. требуется авторизация в сервисе Search Console и сайт, подтверждённый в данном сервисе.
Преимущества анализатора от Google
После добавления сайта файл проверяется автоматически. Отчет появляется на странице анализатора.
Нельзя вносить изменения в robots.txt, размещённый на сервере, но можно вносить правки в редакторе, скачивать файл и заменять его на сервере.
После обновления файла можно сообщить Google об этом.
Позволяет проверять доступность URL-адресов для роботов с возможностью выбора типа робота.
Недостатки анализатора от Google
Необходима регистрация в сервисе Google Search Console.
Нельзя проверить код, просто скопировав его, или загрузив файл с локального компьютера.
Нельзя проверить файл для сайта, не подтверждённого в Search Console.
Как проверить robots.txt в Google?
Рассмотрим процесс проверки файла в Search Console.
Проверка файла для определённого сайта
Требуется авторизация в поисковой системе Google. Если у Вас нет аккаунта, то необходимо его создать.
Выберите сайт, для которого Вы желаете проверить robots.txt. Если сайта нет – необходимо пройти процедуру добавления сайта.
Развернутся дополнительные элементы навигации.
Вы попадете на страницу соответствующего инструмента. Если для текущего сайта существует robots.txt, размещённый в корне сайта, то на странице будут отображаться:
- дата последней проверки файла,
- статус ответа сервера при запросе файла,
- размер файла,
- содержимое файла,
- ошибки и предупреждения.
Проверка доступности URL-адресов
- в нижней части страницы инструмента введите относительный URL страницы для проверки,
- выберите тип робота Google, от лица которого будет проводиться проверка,
- кликните Проверить ,
- статус отобразиться на месте кнопки Проверить .
Дополнительные возможности
-
Скачайте обновленный код.
Клик по соответствующей кнопке осуществит скачивание файла с кодом, который отображался в редакторе. Эта возможность позволяет осуществить правильную настройку robots.txt непосредственно в анализаторе Google, после чего скачать готовый файл и заменить его на сервере.
Клик по соответствующей кнопке осуществит переход к robots.txt текущего сайта. Позволяет проверить наличие файла на сайте.
Клик по соответствующей кнопке позволяет сообщить Google о том, что файл обновлен, и роботам следует обратить внимание на новые правила.
Этот файл нужен для указания роботам того, что нужно индексировать на вашем сайте и чего НЕ нужно.
Изначально robots.txt имеет такой вид:
Чтобы понимать суть этого файла, давайте слегка разберём что здесь написано и какие операторы (команды) он поддерживает.
User-agent - это имя робота, для которого предназначена инструкция. По умолчанию в Joomla стоит * (звёздочка) - это означает, что инструкция предназначена для абсолютно всех поисковых роботов.
Наиболее распространённые имена роботов:
- Yandex - все роботы поисковой системы Яндекса
- YandexImages - индексатор изображений
- Googlebot - робот Гугла
- BingBot - робот системы Bing
- YaDirectBot - робот системы контекстной рекламы Яндекса
Использовать отдельные инструкции для каждого робота в большинстве случаем нет необходимости. Если только на каких то специфичных проектах и для особенных задач.
Каждый робот понимает большую часть команд, и только для некотрых, например для робота Яндекса существуют собственные команды.
Поэтому смело можно ставить * (звёздочку) и писать инструкции для всех. Если какой-то робот не поёмёт что-то, он просто проигнорирует эту команду и будет работать дальше.
Disallow - запрещает индексировать содержимое указанной папки или URL.
Disallow: /images/ - запрет индексации всего содержимого папки images
Disallow: /index.php* - запрет индексации всех URL адресов, начинающихся с index.php
Allow - наоборот, разрешает индексацию папки или URL.
Allow: /index.php?option=com_xmap&sitemap=1&view=xml - разрешает индексацию карты сайта, созданной при помощи Xmap.
Такая директива необходима если у вас стоит запрет на индексацию адресов с index.php, а чтобы робот мог получить доступ к карте сайта, нужно разрешить этот конкретный URL.
Host - указание основного зеркала сайта (с www или без www)
Sitemap - указание на адрес по которму находиться карта сайта
По этому адресу находится карта сайта в формате xml
Clean-param - специальная директива, которая запрещает роботам Яндекса индексировать URL адреса с динамическими параметрами.
Динамические параметры, это различные переменные и цифры, которые подставляются к адресу, например при поиске по сайту.
Пример таких параметров:
И чтобы Яндекс не учитывал такие служебные страницы, в robots.txt задаётся директива Clean-param.
Всё тот же пример с поиском по сайту:
Clean-param: searchword / - директива запрещает индексировать все URL с параметром ?searchword
Crawl-delay - директива пока знакомая только Яндексу. Она указывает с каким интервалом сканировать страницы, интервал задаётся в секундах.
Может быть полезно если у вас много страниц и достаточно высокая нагрузка на сервер, поскольку каждое обращение робота к странице вашего сайта - это нагрузка на сервер. Робот может сканировать по несколько страниц в секунду и тем самым загрузить серврер.
Пример:
Crawl-delay: 5 - интервал для загрузки страницы - 5 секунд.
Прим: Но с crawl-delay нужно быть осторожнее, он может замедлить индексацию страниц сайта.
Специфичные директивы для Яндекса вы можете посмотреть здесь >>
Все директивы пишутся с новой строки, без пропуска.
Таким образом для Joomla 3, со включенным SEF (красивыми ссылками без index.php) можно вывести такой файл robots.txt
Здесь мы запретили индексацию URL адресов с index.php - это можно применить только если у вас включен SEF.
Разрешили индексацию картинок, xml-карты сайта, указали главное зеркало сайта, путь до карты сайта, запретили (очистили) параметр searchword, который используется в поиске Joomla.
И так, файл robots.txt, это текстовый файл, который находиться в корне вашего сайта и говорит поисковым роботам как именно индексировать ваш проект. На какие страницы не стоит обращать внимание, а каким уделить особое внимание.
Если в файле robots.txt не правильно определить правила для поисковых роботов, то они проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего сайта, то есть одна и та же статья будет доступна по разным ссылкам а это не есть хорошо.
Давайте рассмотрим основные директивы и правила этого файла.
Правильные файлы robots.txt для популярных CMS
Правила и термины robots.txt
В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.
Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.
Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.
Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.
Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap. Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.
Как правильно настроить robots.txt?
Большинство сайтов, в зависимости от используемой CMS, имеет ряд страниц с одинаковым контентом, содержащих различные параметры в URL-адресах. Кроме того, содержание страниц по одинаковым URL-адресам иногда может меняться в зависимости от определённых условий. Такие страницы необходимо оградить от индексирования и сканирования. Чтобы облегчить работу поисковым роботам в отношении вашего сайта, нужно грамотно ограничить доступ к следующим страницам:
Директивы robots.txt и правила настройки
User-agent. Это обращение к конкретному роботу поисковой системы или ко всем роботам. Если прописывается конкретное название робота, например «YandexMedia», то общие директивы user-agent не используются для него. Пример написания:
Disallow/Allow. Это запрет/разрешение индексации конкретного документа или разделу. Порядок написания не имеет значения, но при 2 директивах и одинаковом префиксе приоритет отдается «Allow». Считывает поисковый робот их по длине префикса, от меньшего к большему. Если вам нужно запретить индексацию страницы — просто введи относительный путь до нее (Disallow: /blog/post-1).
Регулярные выражения с * и $. Звездочка означает любую последовательность символов (в том числе и пустую). Знак доллара означает прерывание. Примеры использования:
Директива Sitemap. Если вы используете карту сайта (sitemap.xml) – то в robots.txt она должна указываться так:
Директива Host. Как вам известно у сайтов есть зеркала (читаем, Как склеить зеркала сайта). Данное правило указывает поисковому боту на главное зеркало вашего ресурса. Относится к Яндексу. Если у вас зеркало без WWW, то пишем:
Crawl-delay. Задает задержу (в секундах) между скачками ботом ваших документов. Прописывается после директив Disallow/Allow.
Clean-param. Указывает поисковому боту, что не нужно скачивать дополнительно дублирующую информацию (идентификаторы сессий, рефереров, пользователей). Прописывать Clean-param следует для динамических страниц:
Главное правило: robots.txt должен быть написан в нижнем регистре и лежать в корне сайта. Пример структуры файла:
Правильный robots.txt
Соблюдение вышеперечисленных требований позволяет обеспечить доступ к файлу поисковым роботам. Чтобы создать правильный robots.txt, необходимо хорошо изучить его синтаксис. В зависимости от сложности структуры сайта и его системы управления неправильно созданный файл может затруднить его сканирование и индексирование, а также способствовать увеличению нагрузки на сервер.
Правильный robots.txt для Joomla
Правильный файл robots.txt для Joomla которую использую я на этом сайте, выглядит так:
Да и необходимо знать, что у поисковых систем Google и Яндекс по мимо основных имеются специальные роботы для индексации новостей, изображений и т.д., так что не забудьте открыть для индексации изображения с вашего сайта. По умолчанию в robots.txt Joomla стоит Disallow: /images/. Удалите эту директиву.
Robots.txt – это служебный файл, который служит рекомендацией по ограничению доступа к содержимому веб-документов для поисковых систем. В данной статье мы разберем настройку Robots.txt, описание директив и составление его для популярных CMS.
Находится данный файл Робота в корневом каталоге вашего сайта и открывается/редактируется простым блокнотом, я рекомендую Notepad++. Для тех, кто не любит читать — есть ВИДЕО, смотрите в конце статьи 😉
Процесс cоздания файла
Чтобы правильно сделать robots.txt для вашего сайта, следуйте следующему алгоритму действий:
- создайте простой текстовый файл формата txt ,
- переименуйте его в robots,
- внимательно изучите синтаксис стандарта,
- откройте созданный файл с помощью блокнота (или другого текстового редактора), файл (заполните с учетом особенностей сайта),
- осуществите проверку файла,
- при отсутствии ошибок, скопируйте созданный файл в корневую директорию сайта,
- проверьте его доступность по URL-адресу домен/robots.txt.
Как создать файл robots.txt?
При создании необходимо соблюдать ряд общих требований поисковых систем к данному файлу для того, чтобы поисковые роботы могли следовать его инструкциям.
Директивы Яндекса
Роботы Яндекса способны понимать три специальных директивы:
- Host (устарела),
- Crawl-delay,
- Clean-param.
Директива Host
Директива Host является устаревшей и в настоящее время не учитывается. Вместо неё необходимо настраивать редирект на страницы главного зеркала.
Директива Crawl-delay
Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.
Яндекс.Помощь
Правило Crawl-delay следует размещать в группу правил, которая начинается с директивы User-Agent , но после стандартных для всех роботов директив Disallow и Allow :
В качестве значений Crawl-delay могут использоваться дробные числа:
Как запретить индексацию в robots.txt?
На примерах разберем настройку запретов индексации.
Как закрыть сайт от индексации?
Чтобы запретить индексацию всего сайта применяется следующая настройка:
Как запретить индексацию страницы?
Чтобы запретить индексацию конкретной страницы нужно настроить файл следующим образом:
Как запретить индексацию папки?
Чтобы запретить индексацию папки с вложенными директориями и файлами применяются следующие настройки:
Запрет индексации каталога вместе с исходной страницей:
Как запретить индексацию страниц с параметрами?
Запрет индексации страниц с определёнными расширениями
Чтобы запретить индексацию всех страниц с конкретными расширениями, правила применяются в следующем виде:
Содержание
Управление сканированием
Robots.txt позволяет упорядочить процесс сканирования страниц и файлов сайта, что способствует:
- снижению нагрузки на сервер,
- ускорению попадания нужных страниц в поисковую выдачу,
- исключению попадания ненужных страниц в поисковую выдачу,
- индексированию главного зеркала сайта.
Для чего нужен файл robots.txt?
Robots.txt позволяет запретить роботам сканировать определенные страницы, директории и отдельные файлы сайта.
Простейший пример содержания robots.txt, которое равнозначно отсутствию самого файла:
В то же время следующий код означает противоположный результат:
Директива Clean-param
Директива Clean-param помогает роботу Яндекса верно определить страницу для индексации, URL-адрес которой может содержать различные параметры, не влияющие на смысловое содержание страницы.
Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.
Яндекс.Помощь
В качестве значения правила Clean-param указывается параметр и URL-префикс адресов, для которых не следует учитывать данный параметр. Параметр и URL-префикс должны быть разделены пробелом:
Для указания 2-х и более незначительных параметров в одном правиле Clean-param применяется символ & :
Директива Clean-param может быть указана в любом месте robots.txt. Все указанные правила Clean-param будут учтены роботом Яндекса:
Настройка файла robots.txt
Правильная настройка файла позволит избежать ошибок при индексировании сайта, а также поможет поисковым роботам правильно его сканировать.
Требования к файлу
У всех поисковых систем есть общие требования к robots.txt, которые необходимо учитывать при его создании:
- файл должен быть в формате txt ,
- файл должен называться robots (в нижнем регистре),
- файл должен быть доступен по URL-адресу домен/robots.txt ,
- при запросе файла сервер должен возвращать код 200 OK,
- размер файла не должен превышать 500 Кб.
При несоблюдении первых трех требований поисковые роботы просто не смогут найти файл из-за несоответствия формата/названия/URL-адреса файла правилам, установленным стандартом. Последние два пункта актуальны для роботов Яндекса:
Если файл не соответствует требованиям, сайт считается открытым для индексирования.
Яндекс.Помощь
Стандартные директивы
Директивами для robots.txt называются правила, состоящие из названия и значения (параметра), идущего после знака двоеточия. Например:
Регистр символов в названиях директив не учитывается.
Для большинства директив стандарта в качестве значения применяется URL-префикс (часть URL-адреса). Например:
Регистр символов учитывается роботами при обработке URL-префиксов.
Директива User-agent
Правило User-agent указывает, для каких роботов составлены следующие под ним инструкции.
Значения User-agent
В качестве значения директивы User-agent указывается конкретный тип робота или символ * . Например:
Основные типы роботов, указываемые в User-agent :
Yandex Подразумевает всех роботов Яндекса. YandexBot Основной индексирующий робот Яндекса YandexImages Робот Яндекса, индексирующий изображения. YandexMedia Робот Яндекса, индексирующий видео и другие мультимедийные данные. Google Подразумевает всех роботов Google. Googlebot Основной индексирующий робот Google. Googlebot-Image Робот Google, индексирующий изображения.
Регистр символов в значениях директивы User-agent не учитывается.
Обработка User-agent
Чтобы указать, что нижеперечисленные инструкции составлены для всех типов роботов, в качестве значения директивы User-agent применяется символ * (звездочка). Например:
Перед каждым последующим набором правил для определённых роботов, которые начинаются с директивы User-agent , следует вставлять пустую строку.
При этом нельзя допускать наличия пустых строк между инструкциями для конкретных роботов, идущими после User-agent :
Обязательно следует помнить, что при указании инструкций для конкретного робота, остальные инструкции будут им игнорироваться:
Директива Disallow
Правило Disallow применяется для составления исключающих инструкций (запретов) для роботов. В качестве значения директивы указывается URL-префикс. Первый символ / (косая черта) задает начало относительного URL-адреса. Например:
Применение директивы Disallow без значения равносильно отсутствию правила:
Директива Allow
Правило Allow разрешает доступ и применяется для добавления исключений по отношению к правилам Disallow . Например:
При равных значениях приоритет имеет директива Allow:
Директива Sitemap
В качестве значения директивы Sitemap в указывается прямой (с указанием протокола) URL-адрес карты сайта:
Директива Sitemap является межсекционной и может размещаться в любом месте robots.txt. Удобнее всего размещать её в конце файла, отделяя пустой строкой.
Следует учитывать, что robots.txt является общедоступным, и благодаря директиве Sitemap злоумышленники могут получить доступ к новым страницам раньше поисковых роботов, что может повлечь за собой воровство контента.
Зачем нужен robots.txt
Как я уже говорил выше – с помощью файла robots.txt мы можем ограничить доступ поисковых ботов к документам, т.е. мы напрямую влияем на индексацию сайта. Чаще всего закрывают от индексации:
- Служебные файлы и папки CMS
- Дубликаты
- Документы, которые не несут пользу для пользователя
- Не уникальные страницы
Разберем конкретный пример:
Управление индексированием
Запрет на сканирование в robots.txt не гарантирует исключение данных страниц из поисковой выдачи (индексной базы), т. к. правила в файле носят рекомендательный характер:
Настройки файла robots.txt являются указаниями, а не прямыми командами. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их.
Справка Google
Кроме того, инструкции в robots.txt не могут отменить входящие с внешних ресурсов ссылки, благодаря которым поисковые роботы могут попасть на те страницы сайта, которые формально запрещены для сканирования в файле:
Нельзя использовать файл robots.txt, чтобы скрыть страницу из результатов Google Поиска. На нее могут ссылаться другие страницы, и она все равно будет проиндексирована.
Справка Google
Для того, чтобы запретить поисковым роботам индексировать страницы, следует применять мета-тег Robots. Однако это не касается изображений:
Файл robots.txt может использоваться для скрытия изображений из результатов поиска. Однако они будут доступны посетителям, и их все ещё можно будет открыть с других страниц.
Справка Google
Таким образом, robots.txt позволяет управлять сканированием сайта и индексированием изображений, но не исключает индексирование прочих файлов.
Регулярные выражения
В robots.txt могут применяться специальные регулярные выражения в URL-префиксах с помощью символов * и $ .
Символ /
Символ / (косая черта) является разделителем URL-префиксов, отражая степень вложенности страниц. Важно понимать, что URL-префикс с символом / на конце и аналогичный префикс, но без косой черты, поисковые роботы могут воспринимать как разные страницы:
Символ *
Символ * (звездочка) предполагает любую последовательность символов. Он неявно приписывается к концу каждого URL-префикса директив Disallow и Allow :
Символ * может применяться в любом месте URL-префикса:
Символ $
Символ $ (знак доллара) применяется для отмены неявного символа * в окончаниях URL-префиксов:
Символ $ (доллар) не отменяет явный символ * в окончаниях URL-префиксов:
Как указать Sitemap в robots.txt?
Чтобы добавить Sitemap (сообщить поисковым роботам о существовании файла карты сайта) применяется директива Sitemap :
Анализ robots.txt онлайн в Яндекс
Проверить правильность файла можно с помощью инструмента сервиса Яндекс.Вебмастер. Авторизация не обязательна.
Преимущества анализатора Яндекса
Можно скопировать текст файла, не указывая ссылку на него. Это удобно, когда файл еще не размещен в интернете.
Если файл уже размещен в интернете, для проверки достаточно указать URL сайта.
Позволяет проверять доступность URL-адресов для роботов, в т. ч. относительных, если проверяемый сайт не указан.
Единственным значимым недостатком анализатора от Яндекса является необходимость авторизации.
Как проверить файл в Яндексе?
Проверять robots.txt в инструменте от Яндекса можно с указанием URL-адреса сайта, или просто введя код файла в текстовую область для проверки.
Проверка не размещённого в интернете файла
Рассмотрим процесс проверки robots.txt с помощью инструмента от ПС Яндекс без указания URL-адреса сайта:
Проверка файла для определённого сайта
Чтобы проверить размещённый в интернете для конкретного сайта robots.txt с помощью анализатора Яндекса, перейдём к вышеописанному пункту 2 и, вместо ввода кода в текстовую область, указываем доменное имя проверяемого сайта в соответствующее текстовое поле и жмем стрелочку напротив него:
После этого в тестовой области «Текст robots.txt» отобразится код файла для указанного сайта. Далее следует действовать, как описано выше.
Проверка доступности URL-адресов для роботов
С помощью анализатора можно проверить, какие URL-адреса попадают под запрет.
Читайте также: