Роботы представляющие собой сервера на которых запущена программа сканирования сайтов называются
Роботы поисковых систем – это неутомимые труженики Интернета, постоянно просматривающие сотни тысяч сайтов и гигабайты текста в поисках самой свежей и интересной информации.
Что же собой представляет робот? Если сказать просто, это небольшая программа, просматривающая страницы сайта и собирающая некоторую информацию, которую впоследствии передает в базу поисковой системы. Задачи роботов довольно разнообразны, но в общем случае – это индексация содержимого интернет-страничек.
2. Робот как часть поисковой системы
В общем случае поисковая система выполняет две задачи: индексирование и поиск. Процесс индексирования заключается в получении и переработке страниц интернет-сайтов и последующем ее хранении. При этом индекс (базу) поисковой системы стараются устроить таким образом, чтобы процесс поиска был как можно более быстрым и эффективным.
Например, индекс поисковой системы Яндекс основывается на инвертированных файлах, т.е. текст любого документа хранится в виде упорядоченного списка всех встречающихся в документе слов с указанием позиции слова. При этом адрес позиции делают обычно относительным. Далее файл сжимается, но не очень сильно, чтобы не требовалось в последующем много затрат процессорного времени на распаковку файла.
Модуль скачивания подчиняется указаниям, прописанным в файле robots.txt , который лежит в корневой папке сервера. В robots.txt указывается, какие страницы запрещены к индексации роботом.
Для уменьшения трафика модуль скачивания не загружает страницы, которые присутствуют в спам-листе робота. Обычно, это сайты, наказанные за нарушение правил поисковых систем, за попытку влияния на алгоритмы ранжирования.
Кроме модуля скачивания, осуществляющего предварительную фильтрацию, в роботе присутствует модуль отслеживания дубликатов, который отбрасывает повторяющиеся документы.
Также в роботе есть модуль, который определяет кодировку сайта и язык. Например, Яндекс обычно индексирует только русскоязычные сайты.
После обработки документа всеми вышеперечисленными модулями робота, документ анализируется html-парсером, который оставляет только самое нужное и весомое для поиска: текст, оформление, ссылки и адреса. Все это при поиске будет влиять на ранжирование странички.
После обработки парсером происходит индексирование документа. При этом используются алгоритмы морфологического анализа. В конце концов, документ инвертируется и добавляется к основному индексу.
3. Порядок индексирования страницы роботом
Робот поисковой системы индексирует новые сайты, находя их по ссылкам с других страниц Интернета. Однако самый быстрый путь к индексации сайта поисковой системой – это самостоятельно сообщить ей, что в Интернете появился новый ресурс.
После ввода адреса сайта, специальный робот проверит, возможна ли индексация сайта, нет ли технических препятствий к этому.
Через некоторое время (обычно через один-два дня) страницу посетит основной индексирующий робот, который и соберет информацию для поисковой системы.
Сначала робот запрашивает на сайте файл robots.txt, на основании данных которого будет происходить дальнейшая навигация. Если страница не запрещена к индексации (о том, как управлять индексацией – чуть позже), то она посещается роботом.
Как и обычный браузер, робот может запросить дату последнего изменения страницы с помощью заголовка «if-modified-since» и на основе отдаваемого сервером «last-modified» сделать вывод о том, изменилась ли страница с момента последнего захода. Если нет – то повторная индексация не требуется. Однако сегодня большинство страниц – динамические и формируются сервером «на лету». Такие страницы имеют значение «last-modified» равное дате обращения к этой странице. Получается, что за несколько недель текст страницы может не измениться, а по значению «last-modified» получается, что страница обновлена. По этой причине многие роботы сегодня игнорируют отдаваемый сервером заголовок «last-modified» и определяют сами – изменилась страница или нет.
При обращении к конкретной странице робот определяет кодировку документа, анализируя мета-тег или при его отсутствии – определяет самостоятельно.
Для htm-документов робот анализирует не только текстовое содержание, но и теги html, на основе которых в дальнейшем будет оцениваться релевантность страницы. Но если теги html робот «понимает», то java-скрипты – нет. Поэтому не рекомендуется использовать скрипты в значимых элементах сайта: например, красивое выпадающее меню, написанное на java-script, может негативно сказаться на индексации страниц, на которые ведут ссылки из меню, так как такие ссылки робот может и пропустить.
Также не рекомендуется использовать различные «события», указываемые как параметры тега при простановке ссылок.
Существует еще один тег, который специально запрещает индексирование текста, расположенного в нем - … . Однако, данный тег воспринимается только роботом поисковой системы Яндекс.
4. Типы роботов
Каждая поисковая система имеет своего робота, который при посещении страниц представляется определенным образом. Для того чтобы узнать на какую страницу вашего сайта какой зашел робот, нужно проанализировать логи сайта, которые автоматически пишутся сервером apache. Например, что нам может сказать вот такая строчка в log-файле:
213.180.216.4 - - [05/Jun/2006:21:26:52 +0400] "GET /contacts.htm HTTP/1.1" 200 6762 "-" "Yandex/1.01.001 (compatible; Win16; I)"
netname: YANDEX-216
descr: Yandex search engine
А теперь рассмотрим подробнее роботов поисковых систем.
Поисковая система Яндекс имеет разнообразных роботов, специализирующихся на различных задачах.
Кроме роботов у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.
- Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.
Поисковая система Рамблер имеет только одного робота, который представляется как «StackRambler/2.0 (MSIE incompatible)». Ip-адрес робота может лежать в пределах интервала 81.19.64.0 - 81.19.66.255
81.19.66.8 - - [18/Jun/2006:11:19:59 +0400] "GET /robots.txt HTTP/1.0" 200 55 "-" "StackRambler/2.0 (MSIE incompatible)"
Робот поисковой системы Google представляется как "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" и может ходить с ip-адресов 66.249.64.0 - 66.249.72.225
66.249.72.113 - - [18/Jun/2006:13:13:55 +0400] "GET /robots.txt HTTP/1.1" 200 55 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
5. Управление роботом поисковой системы
Управление роботом поисковой системы ограничено и заключается в основном в установлении запретом на индексацию некоторых страниц сайта. На само расписание робота, на частоту его посещения можно лишь оказывать косвенное влияние.
Частота посещения страниц роботом
Обычно робот посещает страницу сайта исходя из того, как часто изменяется содержание этой страницы. На часто обновляемые страницы робот может ходить каждый день и даже чаще. Например, если это страница новостного сайта. Когда же страница изменяется нечасто, то робот посещает ее один-два раза в неделю. Те страницы, содержимое которых не меняется, все равно посещаются роботом, однако очень редко, не более трех раз в месяц.
При этом за один заход робот запрашивает не более 20-30 страничек с сайта. Это связано с тем, что роботы поисковых систем стараются не загружать сервер своими запросами. На сайт с большим количеством страниц робот ходит часто и каждый раз берет только небольшую «порцию» страниц.
Раньше, для управления частотой посещения роботом страницы веб-мастера использовали тег META NAME .
META NAME="Revizit-after" CONTENT="2 days"
означала, что робот должен посещать страницу раз в два дня.
Однако сейчас использование тега не оказывает никакого влияния на частоту посещения страницы роботом, робот сам определяет частоту обновления страницы и на основе этого строит свое расписание. (см. эксперимент).
Запрет индексации
Запрет для индексации в отношении определенных страниц можно реализовать двумя способами: с помощью robots.txt или тега .
Для запрета индексации с помощью robots.txt требуется в поле user-agent указать имя робота и после disallow прописать конкретные страницы, которые требуется закрыть от индексации (подробнее см. мастер-класс про правильное составление файла robots.txt). Например, для запрета индексации всего сайта поисковой системой Google:
User-agent: Googlebot
Disallow: /
В случае использования мета-тега инструкции по индексации записываются в поле content. Возможны следующие инструкции:
- NOINDEX - запрещает индексирование документа; - запрещает проход по ссылкам, имеющимся в документе;
- INDEX - разрешает индексирование документа;
- FOLLOW - разрешает проход по ссылкам.
- ALL - равносильно INDEX, FOLLOW
- NONE - равносильно NOINDEX, NOFOLLOW
Значение по умолчанию: .
Например, чтобы запретить индексирование страницы роботу поисковой системы Google требуется написать следующее:
6. Заключение
Робот – это один из основных элементов любой поисковой системы. Он выполняет очень важные функции, связанные с индексацией сайтов м/p>
Краулер (поисковый бот, робот, паук) – это неотъемлемая для поисковой системы программа, отвечающая за поиск сайтов и сканирование их содержимого путем перехода по страницам и ссылкам для занесения собранной информации в базу данных поисковика.
Зачем нужны поисковые пауки?
Допустим, есть пользователь Иван Иванов, ежедневно посещающий какой-нибудь популярный книжный онлайн-ресурс, и этот ресурс регулярно пополняется новыми произведениями. Переходя на сайт, Иван осуществляет следующую последовательность действий:
- Заходит на главную страницу.
- Переходит в раздел «Новые книги».
- Просматривает список с недавно добавленными материалами.
- Открывает ссылки с заинтересовавшими его заголовками.
- Ознакомляется с аннотациями и скачивает интересующие его файлы.
Чтобы найти подходящий материал, Иванову пришлось потратить около 10 минут. Если каждый день уделять 10 минут на поиск нужной книги, в месяц на этой уйдет в общем 5 часов. И это касается только одного сайта.
Во избежание таких временных затрат нужно использовать программу, в автоматическом режиме занимающуюся поиском новинок.
Без роботов ни один поисковик не будет эффективным, вне зависимости от того, Google это или новая поисковая система. И чтобы не делать, как Иван, они используют роботов для «обхода» сайтов, отыскивающих для поисковых систем новую информацию, которую они смогут предложить пользователям. И чем лучше сканирует краулер, тем актуальнее материалы в выдаче.
Основные боты выполняют следующие функции:
- Собирают новый или обновленный контент с веб-ресурсов. Сканированием свежих публикаций и ранее размещенных статей занимаются пауки первого порядка.
- Идентификация зеркал. Краулер отыскивает сайты, содержащие идентичный контент, но с разными доменами. Подобные боты имеет Яндекс.
- Сканирование графических файлов. Для поиска графики может быть привлечен отдельный робот.
И много других различных краулеров, которые имеют свое предназначение, о которых мы поговорим ниже.
Виды краулеров
У каждого поисковика есть набор собственных веб-пауков, выполняющих различные функции. Поговорим о ботах двух популярнейших поисковых машин.
Роботы Яндекса
Боты Google
Другие поисковые роботы
Краулеры есть не только у поисковых систем. Так, у популярной соцсети Facebook роботы собирают коды страниц, которые
репостят пользователи, чтобы показывать ссылки с заголовками, описанием и картинкой. Рассмотрим более детально веб-пауков, не относящихся к Google и Яндексу.
Ahrefs
Самый популярный инструмент для SEO-продвижения, который помогает анализировать ссылочную массу. Что делает:
- изучает обратные ссылки;
- проводит мониторинг конкурентов;
- анализирует ранжирование;
- проверяет сайты, недействительные ссылки;
- изучает ключевые слова, фразы и многое другое.
Благодаря нему специалисты в области цифрового маркетинга могут проанализировать своих конкурентов и подобрать наиболее эффективную тактику продвижения сайта.
SEMrush
Еще один отличный сервис для оптимизации сайтов, который больше заточен на зарубежный интернет и Google. Он решает такие задачи:
- создание качественного списка ключевиков;
- идентификацию и исправление ошибок;
- мониторинг и анализ отчетов;
- поиск факторов, негативно влияющих на SEO;
- увеличение целевой аудитории.
SEO Spider
Программа для сканирования данных на маленьких и крупных ресурсах. Способна:
- находить повторяющиеся материалы;
- объединяться с аналитикой от Google;
- отыскивать битые ссылки;
- обрабатывать большой список ссылок;
- осматривать элементы страниц отдельно для каждого URL;
- регулярно обновляться;
- изучать краулеры и другие директивы.
Spider работает на оперативных системах Windows, MacOS и Ubuntu. В бесплатной версии можно анализировать до 500 страниц.
Serpstat
Комплексный краулер для развития SEO, рекламного контента и улучшения показателей PPC. Он изучает:
- непосредственно сайт;
- SERP в поисковой выдаче;
- ранжирование;
- обратные ссылки, конкурентов, ключевики и тексты.
Еще здесь есть функция определения ключевых слов, сравнения доменов, анализ контента и так далее.
Часто используемый SEO инструмент за рубежом для проверки и оптимизации веб-ресурса.
И это далеко не полный список. Приведены только самые популярные краулеры.
Как управлять поисковым роботом?
Очень часто приходится ограничивать доступ некоторым краулерам к определенным страницам сайта. Для этого существуют специальные правила, которые вебмастера прописывают для пауков, чтобы они их придерживались. Указываются они в файле robots.txt.
Что прописывать в файле robots:
- разделы сайта или фрагменты контента, закрытых/открытых для пауков;
- интервалы между запросами роботов.
Команды можно адресовать как всем ботам сразу, так и каждому по-отдельности.
Если мы откроем файл robots поисковой системы Яндекс, то увидим:
Определим, что все это значит:
Как узнать что робот заходил на сайт?
Есть несколько способов вычислить, что краулер посещал сайт и какие именно страницы. Все зависит от того, чей это бот.
Поисковый робот Яндекса
Основной паук поисковика, индексирующий контент, посещает страницы веб-ресурсов и отсылает их в базу данных с завидной регулярностью. Но он может найти не все необходимые страницы сайта, если они например недоступны.
В Яндекс.Вебмастере вы можете с легкостью узнать, какие именно страницы обошел бот, чтобы отыскать URL недоступных для него документов по причине перебоев на сервере или неправильного содержимого непосредственно страниц.
Зайдите в панели управления Вебмастера на страницу Индексирование, а затем – Статистика обхода. Обновление данных проводится ежедневно, максимум через 6 часов с той поры, когда робот зашел на страницу.
Изначально на сервисе вы увидите информацию по всему ресурсу. Если же вам нужна информация по определенному разделу, кликните на него в списке, расположенного в поле с указанным адресом сайта. Разделы выстроены в соответствии со структурой ресурса. Если вы не нашли в списке нужную страницу, сообщите о них поисковику через Переобход страниц.
Другие роботы
Еще один отличный способ вычислить, что поисковый паук посещал сайт – заглянуть в логи сервера.
В них хранится вся информация касательно того, кто посещал ресурс, когда и по каким страницам переходил, какой у него IP-адрес, какой ответ получил на сайте и прочее. Читать логи вручную довольно трудно, поэтому есть специальные программы, помогающие анализировать и читать логи в удобном формате, что очень важно, потому что с их помощью вы видите любое посещение роботом и человеком.
Одним из самых популярных инструментов, используемых с данной целью, является Screaming Frog SEO Log File Analyser. Отметим, что программа платная. Лицензия стоит 100$ в год. Есть и бесплатная версия с ограниченным функционалом:
- Можно добавить лишь один сайт.
- Журнал событий содержит не более 1000 строк.
- Нет бесплатной техподдержки.
Пользоваться программой просто. Для начала потребуется найти файлы access.log на сервере и загрузить их на компьютер с помощью FTP. В большинстве случаев они располагаются в папке /access_logs/ или просто /logs/. Если вы хотите детально проанализировать историю посещений, скачайте логи за период не менее месяца. Скачав файлы, кликните по Import и выберите пункт Log file.
Затем, как данные загрузятся, укажите любое название проекта и укажите часовой пояс. Далее отобразится главное окно админки, где показывается подробная информация: какие краулеры посещали ресурс, с какой частотой, сколько страниц просматривали и так далее.
Кстати, если нажать правой кнопкой на ссылку, то можно:
- проверить ее на наличие в индексе поисковиков Google, Bing и Yahoo;
- узнать внешние ссылки, ведущие на нее;
- открыть ссылку в robots.txt;
- открыть в браузере или скопировать ее.
Особенно удобные функции перехода в файл robots и проверки индексирования.
Заключение
Без краулеров не существовало бы и поисковиков, ведь именно они сканируют сайты, собирают в них информацию и отправляют ее в базу данных, чтобы затем система включила ее в свой поиск и предоставила пользователям.
Поисковые боты нужны не только поисковикам, но и самим вебмастерам, чтобы успешно анализировать ресурсы, исправлять слабые места и успешно их раскручивать для поднятия на верхние позиции результатов выдачи.
Занимаюсь продвижением и заработком на сайтах с 2009 года. Владелец партнерки по монетизации PUSH-уведомлений MajorPush.pro.
Краулер (поисковый робот, бот, паук) — это программные модули поисковых систем, которые отвечают за поиск веб-сайтов их сканирование и добавление материалов в базу данных.
Поисковый паук без участия оператора посещает миллионы сайтов с гигабайтами текстов. Их принцип действия напоминает работу браузеров: на первом этапе оценивается содержимое документа, затем материал сохраняется в базе поисковика, после чего он переходит по линкам в другие разделы.
Какую работу выполняют роботы пауки поисковых машин
Малознакомые с принципом работы поисковых ботов вебмастера представляют их какими-то могущественными существами. Но, все гораздо проще. Каждый робот отвечает за выполнение своих функций.
Они не могут проникать как «шпионы» в запароленные разделы сайта, понимать работу фреймов, JavaScript или флеш-анимаций. Все зависит от того, какие функции в них были заложены разработчиками.
Скорость индексации и частота обходов сайта роботами во многом зависит от регулярности обновления контента и внешней ссылочной массы. Чтобы помочь боту проиндексировать все страницы, позаботьтесь о создании карт сайта в двух форматах .html и .xml.
Поисковая выдача формируется в 3 этапа:
- Сканирование — поисковые боты собирают содержимое сайтов (тексты, фото и видео).
- Индексация — робот вносит в базу данных собранную информацию и присваивает каждому документу определенный индекс. Материалы могут несколько дней находиться в быстровыдаче и получать трафик.
- Выдача результатов — каждая страница занимает определенную позицию по результатам ранжирования, заложенным в алгоритмах поисковых систем.
Специалисты Google и «Яндекс» часто вносят коррективы в работу поисковых роботов, например, ограничивают объем сканируемого текста или глубину проникновение паука внутрь сайта. Вебмастерам приходится адаптироваться под изменения при SEO-продвижении: выбирать оптимальные размеры текстов, ориентируясь на конкурентов в ТОП-10 выдаче, учитывать вложенность материалов, производить перелинковку материалов и так далее.
У каждой поисковой системы, будь то Google или «Яндекс», есть свои «пауки», отвечающие за разные функции. Их количество отличается, но задачи практически идентичные.
Как управлять поисковыми ботами?
Часто владельцы сайтов закрывают доступ некоторым поисковым роботам к определенному содержимому сайта, которое не должно принимать участие в поиске. Все команды паукам прописываются в специальном файле robots.txt.
Документ предоставляет краулерам список документов, которые нельзя индексировать (это может быть технические разделы сайта или личные данные пользователей). Ознакомившись с правилами, робот уходит с сайта или переходит на разрешенные для сканирования страницы.
Что указывать в robots.txt:
- Закрывать/открывать для индексации фрагменты контента или разделы сайта.
- Интервалы между запросами поисковых ботов.
Как узнать, что поисковый робот посещает сайт?
Существует несколько способов, позволяющих определить, как часто на ваш сайт заходят краулеры. Проще всего это отследить робота от «Яндекса». Для этого авторизуйтесь в сервисе «Яндекс.Вебмастер», откройте страницу «Индексирование» и «Статистика обхода»:
В этом разделе вы узнаете, какие страницы обошел робот, как часто обращался к вашему сайту («История обхода») и ошибки, случившиеся по причине перебоев со стороны сервера или неправильного содержимого документов.
Чтобы получить подробную информацию по конкретному разделу, найдите его в списке, где указан URL-сайта.
Точно также успешно можно отследить и посещение поискового робота Google. Для этого авторизуйтесь в Google Analytics.
Появятся данные про обход страниц роботом:
Выводы
Краулеры нужны не только поисковым системам для индексирования сайтов и добавления документов в базу данных, но и для SEO-специалистов, чтобы анализировать ресурсы, исправлять недочеты и успешно продвигать их в поиске.
Вебмастера будут всегда пытаться разгадать алгоритмы работы поисковых роботов, которые постоянно совершенствуются. Работа над качеством сайта — долгий и тернистый путь, направленный на долгосрочный результат.
А у вас не было проблем с индексацией сайта? Отслеживаете ли вы посещение сайта поисковыми роботами? Поделитесь свои опытом в комментариях.
Поисковый паук (другие наименования — робот, веб-паук, краулер) — программа поисковой системы, сканирующая веб-ресурсы для отражения сведений о них в базе данных.
С какой целью создают поисковых пауков?
1) открывает главную страницу;
2) заходит в раздел «Последние загруженные произведения»;
3) оценивает новинки из списка;
4) при появлении интересных заголовков, проходит по ссылкам;
5) читает аннотацию и, если она интересна, скачивает файл.
Указанные действия отнимают у Валерия 10 минут. Однако, если тратить на поиск 10 минут в день, в месяц это уже 5 часов. Вместо этого к задаче можно привлечь программу, отслеживающую новинки по расписанию. По механизму действия она будет представлять собой простейшего веб-паука, заточенного под выполнение определенных функций. Без краулеров не выживет никакая поисковая система, будь то лидеры Google и «Яндекс» или предприимчивые стартапы. Боты перемещаются по сайтам, отыскивая сырье для поисковой системы. При этом чем с большей отдачей трудится паук, тем актуальнее результаты выдачи (рис. 1).
Функции веб-пауков
В зависимости от поисковой системы, функции, которые мы перечислим ниже, могут выполнять один или несколько роботов.
1. Сканирование контента сайта. Функция краулера первого порядка — обнаружение вновь созданных страниц и сбор размещенной текстовой информации.
2. Считывание графики. Если поисковая система подразумевает поиск графических файлов, для этой цели может быть введен отдельный веб-паук.
3. Сканирование зеркал. Робот находит идентичные по содержанию, но разные по адресу, ресурсы. «Работник», наделенный такими должностными полномочиями, есть у «Яндекса».
Содержание
Виды поисковый роботов
У поисковых систем есть несколько пауков, каждый из которых поддерживает выполнение запрограммированных функций (рис. 2).
Пауки «Яндекс»
- Yandex/1.01.001 (compatible; Win16; I) — центральный поисковый продукт «Яндекса», который индексирует контент.
- Yandex/1.01.001 (compatible; Win16; P) — робот, который индексирует картинки и фотографии.
- Yandex/1.01.001 (compatible; Win16; H) — отыскивает зеркала и дубли ресурса.
- Yandex/1.03.003 (compatible; Win16; D) — первый паук, который приходит на ресурс после добавления его через раздел вебмастера. Его задачи — проверка добавленных параметров, указанных в панели, на соответствие.
- Yandex/1.03.000 (compatible; Win16; M) — краулер, который посещает страницу после ее загрузки по ссылке «Найденные слова» в поисковой выдаче.
- YaDirectBot/1.0 (compatible; Win16; I) — индексирует сайты из рекламной сети «Яндекса» (РСЯ).
- Yandex/1.02.000 (compatible; Win16; F) — бот сканирует фавиконы сайтов.
Пауки Google
Вежливые пауки — как научить роботов правилам поведения
Вежливыми называют краулеров, которые действуют, придерживаясь существующих правил поведения на сайте. Эти правила пишут вебмастеры, размещая их в файле robots.txt (рис. 3). Пауки, которые попадают на сайт, на начальном этапе изучают информацию в указанном файле, где перечислены страницы, содержание которых не подлежит разглашению (регистрационные данные пользователей, административные сведения). Получив указания, паук приступает к индексации сайта, либо покидает его.
В robots.txt прописывают:
- разделы сайта, закрытые/открытые для ботов;
- интервалы, которые паук обязан выдерживать между запросами.
User-Agent: Twitterbot Allow: /images
Расшифруем эти данные:
- ни одному роботу не разрешено заходить на страницу /about.html;
- веб-пауку Twitterbot предоставляется возможность просматривать ресурсы с адресами типа /images;
- прочие боты могут посещать страницы, заканчивающиеся на /images/, погружение ниже уровня Disallow: /images/* запрещено.
Поисковый робот, он же паук (от англ. spider), или краулер (англ. crawler = «ползун») или просто бот — это программа поисковой системы, которая осуществляет сканирование сайтов. Считывание страниц поисковым ботом — первый этап в процессе индексирования сайта поисковой системой.
Что делает робот
Чего не делает робот
Вопреки расхожему мнению, робот непосредственно не занимается какой-либо обработкой сканируемых документов. Он их только считывает и сохраняет, дальше их обработку осуществляют другие программы. Наглядное подтверждение можно получить, анализируя логи сайта, который индексируется в первый раз. При первом визите бот сначала запрашивает файл robots.txt, затем главную страницу сайта. То есть идет по единственной известной ему ссылке. На этом первый визит бота всегда и заканчивается. Через некоторое время (обычно на следующий день) бот запрашивает следующие страницы — по ссылкам, которые найдены на уже считанной странице. Дальше процесс продолжается в том же порядке: запрос страниц, ссылки на которые уже найдены — пауза на обработку считанных документов — следующий сеанс с запросом найденных ссылок.
Разбор страниц «на лету» означал бы значительно большую ресурсоемкость робота и потери времени. Каждый сервер сканирования запускает множество процессов-ботов параллельно. Они должны действовать максимально быстро, чтобы успеть считывать новые страницы и повторно перечитывать уже известные. Поэтому боты только считывают и сохраняют документы. Все, что они сохраняют, ставится в очередь на обработку (разборку кода). Найденные при обработке страниц ссылки ставятся в очередь заданий для ботов. Так и идет непрерывное сканирование всей сети. Единственное, что бот может и должен анализировать «на лету» — это файл robots.txt, чтобы не запрашивать адреса, которые в нем запрещены. При каждом сеансе сканирования сайта робот в первую очередь запрашивает этот файл, а уже после него — все стоящие в очереди на сканирование страницы.
Виды поисковых роботов
У каждой поисковой системы есть свой набор роботов для различных целей.
В основном они различаются по функциональному назначению, хотя границы очень условны, и каждый поисковик понимает их по-своему. Системам только для полнотекстового поиска вполне достаточно одного робота на все случаи жизни. У тех поисковиков, которые заняты не только текстом, боты разделяются как минимум на две категории: для текстов и рисунков. Существуют также отдельные боты, занятые специфическими видами контента — мобильным, блоговым, новостным, видео и т.д.
Роботы Google
Все роботы Google носят общее название Googlebot. Основной робот-индексатор «представляется» так:
Второй из основных ботов занят сканированием изображений с сайта. Он «представляется» просто:
Еще в логах замечены как минимум три бота, занятых сбором контента для мобильной версии поиска. Поле User-agent всех трех оканчивается строкой:
Перед этой строкой — модель мобильного телефона, с которой этот бот совместим. У замеченных ботов это модели телефонов Nokia, Samsung и iPhone. Принимаемые типы контента — все, но с указанием приоритетов:
Роботы Яндекса
Из поисковиков, активно действующих в Рунете, самая большая коллекция ботов у Яндекса. В разделе помощи для вебмастеров можно найти официальный список всего паучьего личного состава. Приводить его здесь полностью нет смысла, поскольку в этом списке периодически происходят изменения. 1)
Тем не менее, о самых важных для нас роботах Яндекса нужно упомянуть отдельно.
Основной индексирующий робот на текущий момент зовется
Ранее представлялся как
С 31 июля 2009 года в этом списке было замечено существенное расширение (число типов почти удвоилось), а с 10 ноября 2009 года список укоротился до */* (все типы).
Этого робота живо интересует вполне определенный набор языков: русский, несколько менее украинский и белорусский, еще чуть меньше английский и совсем мало — все остальные языки.
Робот-сканер изображений несет в поле User-agent строку:
Занимается сканированием графики разных форматов для поиска в картинках.
В отличие от Google, у Яндекса есть отдельные боты для обслуживания некоторых специальных функций общего поиска.
Робот-«зеркальщик»
Сборщик иконок favicon.ico
Периодически появляется и запрашивает иконку favicon.ico, которая потом появляется в поисковой выдаче рядом со ссылкой на сайт. По каким причинам эту обязанность не совмещает сборщик картинок, неизвестно. По-видимому, также имеет место отдельный программный комплекс.
Проверочный бот для новых сайтов, работает при добавлении в форму AddURL
Робот Рамблера
В настоящее время уже не работает, поскольку Рамблер сейчас использует поиск Яндекса
Робота-индексатора Рамблера легко опознать в логах по полю User-agent
По сравнению с «коллегами» из других поисковых систем этот бот кажется совсем простым: не указывает список медиатипов (соответственно, получает запрошенный документ любого типа), поле Accept-Language в запросе отсутствует, в запросах бота не встречено также поле If-Modified-since.
Прочие роботы
Поиск в интернете, конечно, не ограничивается двумя поисковыми системами. Поэтому существуют и другие роботы — например робот Bing — поисковой системы от Microsoft и другие роботы. Так, в частности, в Китае есть национальная поисковая система Baidu — но ее робот вряд ли долетит до середины реки дойдет до русского сайта 2) .
Кроме того, в последнее время расплодилось много сервисов — в частности solomono — которые хоть и не являются поисковыми системами, но тоже сканирует сайты. Часто ценность передачи информации о сайте таким системам сомнительна, и поэтому их роботов можно запретить в файле .htaccess - и нагрузка на сервер поменьше будет.
1) Разумеется, в официальном списке списке не упомнянуты специальные боты Яндекса для выполнения разнообразных проверок на поисковый спам – о них планируется отдельная статья
2) Тем не менее, доходит, хотя вяло и неуверенно. Отчасти это объясняется деятельностью ссылочных спамеров, которым абсолютно все равно, где орудовать Хрумером — хоть в индокитайском нете, хоть в южноафриканском. А поскольку у этих деятелей принято «разбавлять» нужные им ссылки какими попало, бот Baidu вполне может забрести на любой сайт.
поисковый-робот.txt · создано: 2010/06/12 20:45 — Zanuda · Последние изменения: 2012/10/13 18:45 — Spinne
Читайте также: