Робот не использует ни одного файла sitemap
Задача состоит в том, чтобы запретить некоторые каталоги для индексации поисковым системам, для того, чтобы избавится от дублированного контента. Например, на одну и ту же статью можно попасть как с /tag/ так и с /category/.
Вопросы и ответы
Как правило, в Sitemap принято включать все значимые страницы сайта. Если на сайте множество страниц, вы можете удалить из Sitemap уже известные Яндексу страницы и вносить в файл только новые или часто обновляющиеся.
Если вы используете файл индекса Sitemap отметьте тегом lastmod файлы Sitemap , которые часто обновляются.
Определить, какие страницы сайта уже известны Яндексу, можно в Вебмастере на странице Индексирование → Статистика обхода .
Отображение файла Sitemap и других XML-файлов как исключенных страниц носит только информативный характер и никак не влияет на индексирование сайта или обработку Sitemap .
Файл Sitemap может отображаться в группе исключенных страниц, так как робот попытался проиндексировать его как обычную страницу. Не смотря на это файлы Sitemap не участвуют в поиске.
Файл Sitemap может содержать только определенные XML-элементы. Если Вебмастер обнаружит в файле другие элементы, например, указание на мобильную версию, в Вебмастере появится ошибка «Неизвестный тег». Неподдерживаемые элементы игнорируются роботом при обработке Sitemap , при этом данные из поддерживаемых элементов учитываются. Поэтому менять файл Sitemap необязательно.
Если содержимое файла будет изменено, потребуется до двух недель на обновление информации в Вебмастере.
Файл Sitemap может быть не проиндексирован по нескольким причинам:
Робот обошел файл Sitemap недавно и еще не успел обработать его. Подождите две недели. Если вы используете файл индекса Sitemap с несколькими файлами, то их обработка может занять больше времени, чем одного файла Sitemap .
Сайт ранее был недоступен для индексирующего робота. Необходимо дождаться следующего посещения сайта роботом.
Если проблема с доступом актуальна, обратитесь к администратору сайта или сервера, на котором он расположен. Если файл составлен корректно, он будет повторно обработан в течение двух недель с момента последнего запроса роботом. Проверить файл можно с помощью инструмента Анализ файлов Sitemap.
Такой статус отображается в инструменте Проверка ответа сервера и сообщает, что робот не может проиндексировать файл как обычную страницу сайта и включить его содержимое в результаты поиска. На обработку Sitemap этот статус не влияет. Чтобы проверить корректность Sitemap используйте в Вебмастере инструмент Анализ файлов Sitemap.
Как правило, файл Sitemap обрабатывается роботом в течение двух недель после добавления его в Вебмастер. Если этого не произошло, проверьте:
Корректность файла с помощью инструмента Анализ файлов Sitemap. Устраните ошибки, если они обнаружены.
С помощью отчета о файлах Sitemap вы можете сообщить Google о появлении новых карт вашего сайта, посмотреть историю отправки файлов Sitemap, а также узнать об ошибках, с которыми столкнулась наша система при анализе файла Sitemap.
Что такое файл Sitemap? Будет ли мне полезен этот отчет?
Файл Sitemap содержит информацию о страницах сайта, на котором он размещен. По этому файлу Google определяет, какие страницы нужно просканировать.
- Если вы пользуетесь сервисом веб-хостинга (Squarespace, Wix и т. п.), вероятно, файл Sitemap создается для вас автоматически. В таком случае не требуется ни создавать его вручную, ни прибегать к помощи отчета, о котором идет речь. Поищите сведения о файлах Sitemap в справочных материалах своего хостинг-провайдера.
- Если у вас небольшой сайт (меньше 100 страниц) и если по ссылкам можно перейти от главной страницы к любой другой на этом сайте, то файлы Sitemap и отчет о них вам не нужны. Достаточно запросить индексирование главной страницы. При использовании сервиса веб-хостинга, как уже было сказано выше, никакие действия не требуются.
URL видео указывает на страницу воспроизведения
Отсутствует название видео
В некоторых записях о видео отсутствует название. Убедитесь, что в тегах указаны названия всех видео.
В файле Sitemap слишком много URL
В файле Sitemap более 50 000 URL. Разделите его на несколько, каждый из которых содержит до 50 000 адресов. Для удобства можно создать файл индекса Sitemap.
Как удалить файл Sitemap
Если вы удалите файл Sitemap, он исчезнет из отчета, но останется известным для Google, как и все перечисленные в нем URL. Если вам нужно, чтобы роботы Google перестали посещать ваши веб-страницы, добавьте правило в файл robots.txt.
Чтобы удалить файл Sitemap, выполните следующие действия:
- В основной таблице отчета найдите файл, который нужно удалить, и нажмите на него.
- На странице сведений о файле нажмите на значок в виде трех точек .
- Выберите Удалить файл Sitemap.
- Чтобы роботы Google больше не обращались к файлу Sitemap, удалите его с сайта или запретите доступ к нему с помощью файла robots.txt.
Пустой Sitemap
В файле Sitemap отсутствуют URL. Исправьте это.
Недопустимый XML: слишком много тегов
В файле Sitemap имеются повторяющиеся теги. Например, следующая запись станет причиной ошибки, поскольку тег повторяется в ней дважды:
Переход по URL не выполнен
Google не удалось просканировать все URL, указанные в файле Sitemap. Возможные причины:
- При переходе по URL слишком много раз выполняется переадресация, и поисковые роботы Google останавливаются, не достигая цели. Рекомендуем заменить все URL переадресации на адреса непосредственно тех страниц, которые нужно просканировать.
- Если вы все время применяете переадресацию с одной страницы на другую, используйте постоянную переадресацию.
- Рекомендуем отказаться от переадресации с помощью JavaScript или метатега refresh.
URL недоступны
Google не удалось просканировать адреса из файла Sitemap. Проверьте, доступны ли URL в нем нашему роботу, с помощью этого инструмента.
Ошибки в файлах Sitemap
В отчете по файлам Sitemap может появляться информация об ошибках, перечисленных ниже.
Комментарии
Уф, наконец-то и я сподобился сделать себе сайтмап. Спасибо за ссылку на плагин.
в таком случает прописывать ли путь к sitemap и Yandex тоже?
Нет, достаточно один раз прописать. Вы можете проверить robots.txt в центре веб-мастеров Яндекса и если прикрепиться сайтмат, то все работает нормально.Лично я для Яши ничего не прописывал дополнительно, работает все хорошо!
Я тоже таким образом делал примерное, хотя в некоторых случаях разбивал на поисковые боты. Недавно встретил сервис проверки на валидность и он показал кучу ошибок именно в
Advent, ага ругается, спасибо, буду изучать сервис :)
Добрый день. Я разобрался почему оно ругается. Дело в том, что это чекер указывает на то что символ * относится, как бы к именным поисковым ботам,то есть тем которые переваривают эту фишку. К таким системам относится гугл и яндекс.Тоже самое и с кодом allow. То есть по существу заданные параметры отвечают как гуглеботу, так и яндексу. Остается занозой внедрение гуглом нового алгоритма индексирования nofolow. По сути наверняка плагин сео, теперь нельзя использовать с nofolow, а рубить ненужные страницы в роботсе.тхт, как это сделано на примере, добавляя при необходимости все что является тормозом.
Угу, спасибо за информацию, полезно!
А почему ты выбрал индесацию по тэгам и архиву и закрыл по страницам и категориям?
Потомучто надо было один источник, а теги наиболее тематичны на мой взгляд
да, но как раз с тэгов получается море ссылок на одни и те же страницы.
Хм, не подумал сначала, думаю потом на категории переправлю )
я тут с роботсом занятную штуку увидел, куда бы не заходил на блоге постоянные ссылки на конкретную страницу и из архивов и из категорий, а при попытке зайти через категорию например адрес переписывается на стандартный. Что-то мне подсказывает, что при установке ЧПУ вся возня с запретами в роботсе не нужна никому.
Спасибо, за пост! Пост очень помог с создание robots.txt
Столкнулся с проблемой, мне нужно запретить проход поисковых ботов по счётчикам скачиваний файлов, можно ли через роботс это сделать?
Что такое "счётчикам скачиваний файлов"? У них есть URL?
Доброе время суток. У меня вопрос по поводу дублирующегося контента.
Например, в рубрике есть список статей, у многих из них есть тег , кликая на ссылку "читать далее" мы переходим на статью со своим уникальным url-ом. Но есть в рубрике короткие статьи, которые полностью отображают текст статьи в списке статей рубрики. Т.е. кликая на эту статью, мы заходим на юрл статьи, где текст абсолютно идентичен тексту на странице рубрики. Каким образом лучше избежать такой дубляж?
Спасибо за ответ.Вообще я бы закрывал для индексации тела статей в списке, а оставлял только названия и ссылки на отдельную страницу.
Спасиб. Закрыл через плагин SEO все-в-одном рубрики, архивы и теги. Надеюсь этого должно хватить.
Не, вернул рубрики назад, они мне нужны. Подскажите, каким образом можно закрыть именно "тела статей в списке рубрики"?
noindex/nofollow не подходит?
Нашла такой перечень:
но валидатор robots.txt ругается на все строки кроме карты сайта. почему?
Привет. Я добавил в Яндекс сайт и в корень своего сайта файл robots.txt, но мой сайт так и не проиндексирован в Яндексе и Гугле. Почему? Как заставить поисковиков Google и Яндекс проиндексировать мои сайты? Так чтобы они попали в поисковики и чтобы было ТИЦ 50 PR 15.
В статье описано как. Читайте "Центры веб-мастеров Google и Яндекс"
Adw0rd, а где это? В Яндексе?
По ссылке "Яндекс.Вебмастер" перешли?
Я когда пытаюсь в Яндексе сообщить о новом сайте, мне в ответ выдают ошибку вот какую: "Указанный URL запрещен к индексации. Подробнее о запрете на индексацию вы можете прочитать в FAQ". Почему так? Что делать?
А факу пробовали читать? Наверняка с юкозов всяких нельзя добавлять.
Я ещё хочу чтобы туда сайты принимали и с бесплатных хостингов!
Но там в помощи как создать сайт было вот что написано:
"Чтобы сайт появился в поиске Яндекса, робот должен проиндексировать его. Если на ваш сайт есть ссылки с других (чужих) сайтов, то специально добавлять сайт не требуется — он автоматически будет найден и, скорее всего, проиндексирован. Если ссылок на ваш сайт еще нет, вы можете воспользоваться формой «Сообщить о новом сайте», чтобы сообщить роботу о существовании сайта. Также сообщить о новом сайте можно через добавление его в разделе в «Мои сайты». Обратите внимание — добавление URL не гарантирует, что сайт будет проиндексирован или проиндексирован быстро".А что должно быть в роботе, ну в файле robots.txt? Сайты мои и страницы которые робот должен проиндексировать?
А есть ли средство автоматизации пингов для уведомления поисковиков?
Google XML Sitemaps для Wordpress уведомляет Gooogle и Bing. Как быть с остальными?Я для уведомления Яндекса юзаю его сервис Яндекс.Вебмастер, он сам забирает мой сайтмап. Плагинов для wp я не втречал и не искал. Но думаю такие есть, там его делать то 5 минут
А там файл sitemap.xml (сайтмэп.экс-эм-эль) обязательно? Если да - то как его скачать бесплатно и без регистрации?
Где? Вы сначала почитайте что такое sitemap.xml.
Там на сайте http://help.yandex.ru/webmaster/?id=1111288 там вот написано что такое файл Sitemap: "Файл Sitemap - это файл с дополнительной информацией о страницах сайта, подлежащих индексированию. С помощью файла Sitemap вы можете сообщить Яндексу, какие страницы вашего сайта нужно индексировать, как часто обновляется информация на страницах, а также индексирование каких страниц наиболее важно. Подробно об использовании файлов Sitemap читайте в соответствующем разделе Помощи".
Привет. Я вот ещё добавил в свой сайт файл robots.txt С таким содержимым:
Но мне всё равно выдают вот какую ошибку: "Указанный URL запрещен к индексации.
Подробнее о запрете на индексацию вы можете прочитать в FAQ". А там в запрете на индексирование сайта там написано:
"Индексирование сайта может быть запрещено либо по причинам технического характера (страницы содержат ошибки и их содержимое невозможно корректно проиндексировать или индексирование сайта запрещено в файле robots.txt) либо за использование недобросовестных приемов продвижения сайтов в поисковых системах (поисковый спам)".
Как эту проблему устранить? Я ещё хочу чтобы туда принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz!Если вы вообще ничего в этом не понимаете, а именно такое мнение сложилось, то тщательно погуглите и найдите ответы на вопросы. После чего проанализируйте ответы, все обдумайте и тогда можете еще что-то написать в камменты.
Как эту проблему устранить? Я ещё хочу чтобы туда принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz!
Ну всё правильно. Вот роботс так выглядит:
А ошибку всё равно выдаёт. Может там ещё чего-то не хватает? Может ещё не хватает файла sitemap.xml?
Может. Не пробовали указывать один раз сайтмап?
Пока нет. А этот файл можно скачать?
Саша Ярош, да, по вашей же ссылке
Аааа. Ну понятно. Но сейчас я вот какую ссылку добавлял: http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=mrjaroshfiles.at.ua. Но мне пишут вот что: "Сервер возвращает код статуса http 403 (ожидался код 200)". Что это значит? Опять ошибку выдаёт или что?
Ааааа. Там в Википедии там где эти коды там я понял что обозначает код ошибки 403:
Сервер понял запрос, но он отказывается его выполнять из-за ограничений в доступе со стороны клиента к указанному ресурсу.
В любом случае клиенту следует сообщить причины отказа в обработке запроса.
Наиболее вероятными причинами ограничения могут послужить:
Попытка доступа к системным ресурсам веб-сервера (например, файлам .htaccess или .htpasswd) или к файлам, доступ к которым был закрыт с помощью конфигурационных файлов.
Сервер не удовлетворён IP-адресом клиента (например, временная блокировка из-за частых обращений или же на этапе разработки приложения доступ разрешён только некоторым IP)».
А я всё-таки хочу чтобы мои сайты проиндексировали. И ещё хочу чтобы принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz! И я ещё хочу сделать такие показатели своего сайта как ТИЦ 1500 PR 13. Как мне это сделать? Ответьте кто-нибудь пожалуйста?
Саша Ярош, пожалуйста перестаньте писать сюда. Проблемы тут ваши не решаться, это не сео-форум.
2 Саша Ярош
Красавец! PR равный 13-ти! Для тебя будет легче поработить вселенную!Сергей, у меня показатели сайта mrjaroshfiles.at.ua тИЦ 0 PR 2. А у сайта 400receptow.ucoz.ua тИЦ 0 PR 0.
Саша Ярош, pr больше 10 не бывает. Вы задолбали задавать глупые вопросы, еще раз прошу сначала погуглить обо всех материалах, а потом говорить/спрашивать.
Сергей Дорохин, я вам уже отвечал
Я для уведомления Яндекса юзаю его сервис Яндекс.Вебмастер, он сам забирает мой сайтмап. Плагинов для wp я не втречал и не искал. Но думаю такие есть, там его делать то 5 минут
Adw0rd, а что означает погуглить? Как это сделать?
Саша Ярош, вы издеваетесь? Погуглить
А как сделать файл Sitemap_list.xml? Как он выглядит? Что там в нём есть?
Я не знаю что такое "Sitemap_list.xml".
Adw0rd, это я имел в виду "Sitemap.xml". Так что там должно быть? Ну чтобы я мог сообщить о новом сайте в Яндексе.
А то вместо того чтобы сообщить о новом сайте мне ошибку выдают такую: "Сервер возвращает код статуса http 403 (ожидался код 200)".
С помощью программы Xenu ты просканируешь свой сайт, а потом создашь этот sitemap.xml
Сашок! читай документацию, википедию, статьи всякие, пользуй поиск, не доставай людей!
Серёжа, это прога Xenu она на английском языке. Я английского НЕ понимаю. Можешь дать мне русификатор программы Xenu или другую выбрать по сканированию сайта? Только на русском языке!
Саша, я объясню. Если хочешь стать специалистом, сначала читаешь книги, статьи, блоги, форумы по теме. Терпишь и читаешь, пытаешься САМ ПОНЯТЬ ОСНОВЫ. А уж потом спрашиваешь у людей. Дилетанты отпугивают, ответа ты не получишь, пока не пройдешь начальную школу. Умываю руки.
Потому что никому не охота помогать тому, кто не хочет сам себе помочь.
Я снова солидарен с вами Сергей.Ой б%№дь. Ну хорошо. Я найду другую прогу по сканированию сайта. Но такую которая только на русском языке. Я английского НЕ понимаю.
Привет. Так должен выглядеть файл robots.txt? Вот он:
Но когда я запускаю под браузером интернета, мне оно выдаёт ошибку. Почему?
Саша Ярош, думаю, Вам лучше заказать сайт у людей, которые разбираются в сайтостроении. Т.к. похоже, что Вы не хотите разбираться сами, а ждете что Вам бесплатно сделают конфетку под все ваши требования и сразу с PR = 100 :)))).
adw0rd, от оповещений на e-mail отписалась, но ваш сайт внесла в закладки
Если я сообщу роботу поисковых систем о новом сайте, то через сколько дней мои сайты проиндексируются?
Да, сообщите Гуглу и Яндексу. На практике блог из 50 страниц индексируется неделю-две.
Я уже сообщал. И что теперь?
Саша Ярош, пить чай с плюшками и ждать великого дня.
Тогда обратите внимание на предложение VRS :)
Это никнейм, смотрите камменты выше!
Только не говорите что не знаете что такое "никнейм" и "камменты", вы уже знаете что такое "гуглить" и сможеть нагуглить новые для вас слова.Привет. Если робот Яндекса проиндексирует все мои страницы сайта, то повыситься от этого тИЦ и PR?
Саша Ярош, Вы определитесь сначала, для чего Вам нужны тИЦ и PR?
У меня, например, сайт с тИЦ=0, PR=1, при этом ежедневное посещение - более 400 уников и СЧ запросам он на первой странице Яши..тИЦ и PR нужен для того чтобы мои сайты находились в поисковиках Яндекс и Google. У вас ежедневное посещение более 400 уников. А как у вас это произошло?
Саша Ярош, прочтите сначала что такое тИЦ и PR . тИЦ НЕ ВЛИЯEТ на выдачу ПС Яндекса. PR тоже не единственный фактор для выдачи Гугла..
Вы задаете глупые вопросы, ответы на которые давно даны специально для новичков. Научитесь пользоваться поиском.
Уникальные продуманные тексты с грамотно подобранными ключевиками, регистрация в каталогах, размещение на досках объявлений. в сети море. нет. океан. нет. - ВСЕЛЕННАЯ информации о методах оптимизации сайта! Ищите, читайте, учитесь. Лень? Хотите получить в разжеванном виде? - идите на платные курсы или в институт..
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
Disallow: /?*
Disallow: /?*
Disallow: /trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /comments
Disallow: */comments
Disallow: /category
Disallow: /page
Disallow: */?replytocom*
Disallow: /searchUser-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
Disallow: /?*
Disallow: /?*
Disallow: /trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /comments
Disallow: */comments
Disallow: /category
Disallow: /page
Disallow: */?replytocom*
Disallow: /search
Host: доменКак самому проиндексировать сайт в Яндексе бесплатно?
Боюсь попасть в одну мусорку с Ярошем, но все-таки обрисую ситуевину и попрошу совета.
twoeyedyum . megabyet . net - вот он, источник моих мучений (вирусов нет)
Есть сайт: бесплатный хостинг, домен третьего уровня, блог Вордпресс. ЧПУ включены (само собой, хочется человеческих ссылок).
В canonical.php добавлена директива на запрет неправильных редиректов (нагуглил в десяти источниках, так что вроде не брехня) и, соответственно, перепроверен основной адрес в настройках Вордпресс.
Роботс.тхт составлен по вышеупомянутым правилам (открытыми я оставил именно диретории, в остальном отличий почти нет). Один раз упомянут sitemap.xml (автоматически создается плагином).Сайт спокойно виден в гугле, а вот Яша уже полтора апа меня игнорирует (апы ТИЦ имеются ввиду, ибо апов выдачи было гораздо больше). В Яндекс.Вебмастере карта сайта тестируется на УРА, ошибок не найдено, но страниц в поиске по-прежнему 0 (ноль штук). Вроде никаких правил сайт не нарушает, причин попадать совсем уж в бан - нет. Гугл-робот дает всем страницам код 200, яша-робот дает 403 Форбидден.
Собственно вопрос: неужели нужно ждать еще один-два (или еще десяток) апа ТИЦ/выдачи, чтобы Яша наконец разглядел и проиндексировал сайт в соотвествии с картой сайта и Роботс.тхт, которые ему так понравились?
Сами Гугл и Яндекс уже не знают, что мне ответить.Дополнительный момент касательно блога автора: здесь, как и в многих других стандалонах, нельзя подписаться своим блогом (просто не хочется быть совсем Анонимусом). Это какая-то фишка ВП, или я просто не нагуглил такого плагина?
Sitemap — это файл со ссылками на страницы сайта, который сообщает поисковым системам об актуальной структуре сайта. Яндекс поддерживает форматы XML и TXT. Формат XML позволяет передавать дополнительную информацию.
Слишком большой значок видео
Значок видео, указанный в файле Sitemap, слишком велик. Измените его размер до 160 x 120 пикселей. При необходимости обновите файл Sitemap и повторно отправьте его в Google. Подробнее о том, как добавить в файл Sitemap информацию о видео…
Интерпретация данных в отчете
Для каждого файла Sitemap указывается следующая информация:
Моего файла Sitemap нет в отчете
Вот несколько причин, по которым файл Sitemap может отсутствовать в отчете:
Вложенные файлы индекса Sitemap
В одной или нескольких записях файла индекса Sitemap указан его собственный URL или URL другого файла индекса Sitemap. Файл индекса Sitemap может содержать ссылки только на обычные файлы Sitemap, а не на индексы.
Удалите записи, указывающие на индексы Sitemap, и повторно отправьте файл.
Недопустимое значение тега
В файле Sitemap содержится один или несколько тегов с недопустимым значением. Проверьте спецификации для соответствующего типа файла Sitemap (индекс, стандартный, видео и т. п.).
Почему робот не видит карту сайта?
Чаще всего информации об отсутствии используемых роботом файлов sitemap появляется, если:
- Документ был добавлен недавно и робот ещё не успел его проиндексировать;
- Вы не добавили документ в панель вебмастера;
- Проблема связана с настройками в robots.txt;
- Вы указали нестандартное название документа;
- На сайте отсутствует карта.
В первом случае нет повода для беспокойства. Яндекс обрабатывает документы с задержкой и, если вы загрузили корректный файл, в течение нескольких дней ошибка пропадёт. Однако, чтобы не терять время, пока он находится в очереди на обработку мы рекомендуем вам пошагово проверить другие возможные ошибки. Как это сделать мы расскажем далее.
Sitemaps
Так же следует не забыть о файле sitemap.xml
Сайтмап не обязателен и поисковые системы не гарантируют его использование, он лишь помогает поисковым ботам проводить индексацию, однако я считаю что это очень полезным!
Для Wordpress существует плагин - Google XML Sitemaps (другие полезные плагины для Wordpress используемые мной). Этот плагин генерирует за вас файл sitemap.xml, в котором и содержится информация для поисковых ботов по индексации сайта. Вы сами можете его настроить и указать проценты приоритета для статей, страниц и т.д.
Как сформировать карту сайта?
В завершение рассмотрим ситуацию, когда на сервере вовсе отсутствует документ с картой ресурса.
Если у вас нет возможности нанимать специалиста в области SEO, вы можете воспользоваться автоматически генератором по созданию карты интернет-проекта. Однако этот способ платный и не всегда качественный. Поэтому некоторые большинство пользователей пытаются создать карту вручную с помощью рекомендаций Яндекс и Гугл. Однако следует иметь в виду, что они содержат не всю информацию. От себя также добавим, что при формировании файла sitemap, необходимо соблюдать следующие требования:
- Документ должен иметь формат xml или txt. Преимущество xml в том, что кроме списка адресов, в нём также можно указать дополнительные параметры страниц (частоту обновления и изменения, относительную значимость). Никто не знает улучшают ли данные сведения качество индексации, но лишним это точно не будет. Поэтому мы всё же рекомендуем использовать формат xml.
- Вы можете также создать вторую карту в формате html для пользователей. Однако поисковые системы будут её расценивать как обычную страницу. Поэтому наличие документа в формате xml или txt обязательно.
- Документ должен размещаться на одинаковом домене с сайтом, для которого он составлен, и указывать только на URL-адреса этого домена.
- В файле необходимо использовать кодировку «UTF-8».
- В документе необходимо указывать только актуальные и работающие ссылки. Например, в нём не должно быть битых ссылок и редиректов.
- Карта ресурса должна быть всегда актуальной, поэтому она должна автоматически генерироваться.
Как видите, без базовых знаний в области сайтостроения и поисковой оптимизации создать sitemap самостоятельно не так просто. Поэтому во избежание возможных ошибок и траты времени мы рекомендуем все-таки обратиться за помощью к профессионалам.
Sitemap — это файл со ссылками на страницы сайта, который сообщает поисковым системам об актуальной структуре сайта. Яндекс поддерживает форматы XML и TXT. Формат XML позволяет передавать дополнительную информацию.
Неправильно указано пространство имен
В корневом элементе файла Sitemap неверно задано или отсутствует пространство имен, содержится орфографическая ошибка или неправильный URL.
Убедитесь, что пространство имен задано правильно с учетом типа файла. Ниже приведены примеры.
- Файл Sitemap: xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
- Файл Sitemap для видео: xmlns:video="http://www.google.com/schemas/sitemap-video/1.1"
- Файл индекса Sitemap:
Robots.txt
Также есть немного информации на форуме MasterTalk: Что такое robots.txt и для чего он нужен, а также есть сайт посвященный этому файлу - Все о файле robots.txt по-русски.
Вот еще эксперименты Дениса Болтикова по идеальному роботсу для Wordpress: Идеальный robots.txt для Wordpress и Идеальный robots.txt для Wordpress — 2.
Центры веб-мастеров Google и Яндекс
Для ускорения индексации рекомендуется оповестить Google и Яндекс о ваших файлах robots.txt и sitemap.xml, для этого существуют специальные сервисы:
Google не рекомендует чаще чем раз в час его пинговать, вот пруфлинк.
Проблемы с названием
Иногда отсутствие используемых роботом файлов с картой сайта может быть вызвано тем, что вы назвали документ нестандартным именем. Во избежание проблем лучше присваивать документу стандартное наименование «sitemap.xml» .
Недопустимый URL
Убедитесь, что URL в файле Sitemap указаны в правильной кодировке и должным образом экранированы. Проверьте, нет ли недопустимых символов, таких как пробелы и кавычки. Кроме того, можно вставить URL в браузер и посмотреть, будет ли загружена страница.
Отсутствует атрибут XML
В одном из тегов в файле Sitemap отсутствует обязательный атрибут. Просмотрите файлы Sitemap и убедитесь, что все обязательные атрибуты на месте. Исправьте найденные ошибки в значениях атрибутов и ещё раз отправьте файл Sitemap.
Адреса видео и страницы воспроизведения совпадают
URL видео и страницы проигрывателя, указанные в файле Sitemap для видео, не должны совпадать. Если используются одновременно тег и тег , то URL в них должны различаться. Подробнее о том, как добавить в файл Sitemap информацию о видео…
Почему дублирующийся контент это плохо?
Вот, что говорит по этому поводу Google (перевод), можно так же найти информацию по поводу поисковой системы Яндекс, где говорится что их алгоритмы банят сайты с дублирующимся контентом. Не знаю так это или нет, я не специалист в области SEO (если есть спецы - отпишите в камменты), но на всякий случай прикрою дубляжи!
Воспользуйтесь поиском от Google или Яндекс и вы найдете море информации по этой теме.
Отсутствует URL значка видео
В некоторых записях о видео нет ссылки на значок. Убедитесь, что в тегах указаны URL всех значков видео.
Требования к файлу
Используйте кодировку UTF-8. Кириллические URL робот Яндекса распознает как в закодированном виде, так и в оригинале.
Максимальное количество ссылок — 50 000. Вы можете разделить Sitemap на несколько отдельных файлов и указать их в файле индекса Sitemap.
Неправильно введена дата
Как минимум одна дата в файле Sitemap имеет неверный формат или значение. Даты должны быть в формате кодировки даты и времени W3C. Время можно не указывать. Введите все даты в одном из допустимых форматов W3C:
Время задавать не требуется (по умолчанию устанавливается значение 00:00:00Z), однако если вы все же делаете это, не забудьте указать часовой пояс.
Как создать файл и сообщить о нем Яндексу
Определите канонические URL для страниц, которые будут указаны в файле Sitemap . Это необходимо, если на сайте есть несколько страниц со схожей информацией.
Несоответствующий путь: имеется префикс www
Добавьте префикс www во все URL внутри файла.
Требования к файлу
Используйте кодировку UTF-8. Кириллические URL робот Яндекса распознает как в закодированном виде, так и в оригинале.
Максимальное количество ссылок — 50 000. Вы можете разделить Sitemap на несколько отдельных файлов и указать их в файле индекса Sitemap.
В каких случаях нужен файл Sitemap
Яндекс разрабатывает специальные алгоритмы, по которым индексирующий робот узнает о сайте. Например, с помощью внутренних и внешних ссылок — переходя с одной страницы на другую. Иногда робот может пропустить страницы. Используйте Sitemap , если на сайте:
Неподдерживаемый формат файла
Вы создали некорректный файл.
Чтобы избежать самых частых ошибок XML, проверьте следующее:
- В файлах Sitemap должны быть правильные заголовки. Например, если файл содержит информацию о видео, заголовок должен быть следующим:
- Пространство имен в заголовке должно иметь вид http://www.sitemaps.org/schemas/sitemap/0.9 (не .9).
- Все атрибуты XML нужно заключать в одинарные (') или двойные (") кавычки, которые должны быть только прямыми. Обратите внимание, что текстовые редакторы, например Microsoft Word, могут автоматически менять кавычки на фигурные.
Файл Sitemap начинается с пробела
Ваш файл Sitemap начинается с пробела, а не с объявления пространства имен. Файлы XML должны начинаться с декларации XML, в которой указана используемая версия XML.
Управление файлами Sitemap
Также для управления файлами Sitemap можно использовать Search Console Sitemaps API. Этот API поддерживает те же функции и позволяет получать ту же информацию, что и отчет.
Следуйте приведенным ниже инструкциям.
Файл Sitemap сразу же будет обработан, однако для сканирования перечисленных в нем URL может потребоваться некоторое время. Иногда просканировать удается не все URL (это зависит от размера сайта, трафика и других факторов).
Если вы уже отправляли нам определенный файл Sitemap, не нужно делать это повторно, даже если вы внесли в него изменения. Новая информация будет обнаружена при следующем сканировании вашего сайта.
Отсутствует тег XML
Слишком маленький значок видео
Значок видео, указанный в файле Sitemap, слишком мал. Измените его размер до 160 x 120 пикселей. При необходимости обновите файл Sitemap. Подробнее о том, как добавить в файл Sitemap информацию о видео…
Неверное значение атрибута
Атрибут, связанный с одним из тегов XML в файле Sitemap, имеет недопустимое значение. Проверьте файлы Sitemap и убедитесь, что все атрибуты используются согласно техническим требованиям к таким файлам. Проверьте, нет ли опечаток в значениях атрибутов.
Ошибка синтаксического анализа
Google не удалось выполнить синтаксический анализ XML-контента вашего файла Sitemap.
Зачастую это происходит из-за неэкранированных символов в URL. Во всех файлах XML в любых значениях данных (включая URL) необходимо экранировать символы &, ', ", и некоторые другие. Проверьте, правильно ли выполнено экранирование в URL.
Почему дублирующийся контент это плохо?
Вот, что говорит по этому поводу Google (перевод), можно так же найти информацию по поводу поисковой системы Яндекс, где говорится что их алгоритмы банят сайты с дублирующимся контентом. Не знаю так это или нет, я не специалист в области SEO (если есть спецы - отпишите в камменты), но на всякий случай прикрою дубляжи!
Воспользуйтесь поиском от Google или Яндекс и вы найдете море информации по этой теме.
Временная ошибка
Настройка robots.txt
Иногда поисковая система может не видеть карту проекта из-за того, что её индексация запрещена в файле robots.txt. В таком случае перед ссылкой будет стоять директива «Disallow» и вам необходимо изменить её на «allow» .
Если же в robots.txt вовсе нет ссылки на документ, вы можете её добавить, прописав следующий код: «User-agent: * Allow: / Sitemap: [ссылка на документ]». Однако в таком случае вы откроете её для всех пользователей и этой информацией смогут воспользоваться злоумышленники. Поэтому мы рекомендуем предварительно посоветоваться со специалистом.
Нельзя использовать URL
Некоторые из перечисленных вами URL находятся в другом домене или на более высоком уровне по сравнению с файлом Sitemap.
Несоответствующий путь: отсутствует префикс www
Удалите префикс www из всех URL внутри файла.
В каких случаях нужен файл Sitemap
Яндекс разрабатывает специальные алгоритмы, по которым индексирующий робот узнает о сайте. Например, с помощью внутренних и внешних ссылок — переходя с одной страницы на другую. Иногда робот может пропустить страницы. Используйте Sitemap , если на сайте:
Превышен максимальный размер файла Sitemap
Размер файла Sitemap в несжатом виде превышает 50 МБ. Разбейте его на несколько файлов и укажите их в индексе Sitemap, а затем отправьте нам этот индекс.
Как создать файл и сообщить о нем Яндексу
Определите канонические URL для страниц, которые будут указаны в файле Sitemap . Это необходимо, если на сайте есть несколько страниц со схожей информацией.
Поддерживаемые Яндексом форматы
Яндекс поддерживает протокол Sitemap. Чтобы передать информацию, используйте следующие элементы:
Тег Обязательно Описание loc Да Адрес страницы. lastmod Нет Дата последнего обновления страницы. Максимальный размер — 100 байтов.
Максимальный размер — 100 байтов.
Максимальный размер — 100 байтов.
Тег Обязательно Описание loc Да Адрес страницы. lastmod Нет Дата последнего обновления страницы. Максимальный размер — 100 байтов.
Максимальный размер — 100 байтов.
Максимальный размер — 100 байтов.
Также с помощью Sitemap вы можете передать информацию о локализованных страницах сайта и об изображениях (см. раздел Справки Яндекс Картинок).
Чтобы передавать информацию о видео, в файле Sitemap укажите ссылки на XML-фиды (см. подробно в Справке поиска Яндекса по видео).
Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt
Роботу Google не удалось обработать файл Sitemap, поскольку доступ к нему или его содержанию запрещен в файле robots.txt. Воспользуйтесь инструментом проверки URL, чтобы выяснить, на какой именно файл влияет блокировка доступа, и внесите в директивы robots.txt необходимые изменения.
Неполные URL в файле индекса Sitemap
Добавьте в индекс Sitemap полные URL всех нужных файлов Sitemap и отправьте его ещё раз.
Вопросы и ответы
Как правило, в Sitemap принято включать все значимые страницы сайта. Если на сайте множество страниц, вы можете удалить из Sitemap уже известные Яндексу страницы и вносить в файл только новые или часто обновляющиеся.
Если вы используете файл индекса Sitemap отметьте тегом lastmod файлы Sitemap , которые часто обновляются.
Определить, какие страницы сайта уже известны Яндексу, можно в Вебмастере на странице Индексирование → Статистика обхода .
Отображение файла Sitemap и других XML-файлов как исключенных страниц носит только информативный характер и никак не влияет на индексирование сайта или обработку Sitemap .
Файл Sitemap может отображаться в группе исключенных страниц, так как робот попытался проиндексировать его как обычную страницу. Не смотря на это файлы Sitemap не участвуют в поиске.
Файл Sitemap может содержать только определенные XML-элементы. Если Вебмастер обнаружит в файле другие элементы, например, указание на мобильную версию, в Вебмастере появится ошибка «Неизвестный тег». Неподдерживаемые элементы игнорируются роботом при обработке Sitemap , при этом данные из поддерживаемых элементов учитываются. Поэтому менять файл Sitemap необязательно.
Если содержимое файла будет изменено, потребуется до двух недель на обновление информации в Вебмастере.
Файл Sitemap может быть не проиндексирован по нескольким причинам:
Робот обошел файл Sitemap недавно и еще не успел обработать его. Подождите две недели. Если вы используете файл индекса Sitemap с несколькими файлами, то их обработка может занять больше времени, чем одного файла Sitemap .
Сайт ранее был недоступен для индексирующего робота. Необходимо дождаться следующего посещения сайта роботом.
Если проблема с доступом актуальна, обратитесь к администратору сайта или сервера, на котором он расположен. Если файл составлен корректно, он будет повторно обработан в течение двух недель с момента последнего запроса роботом. Проверить файл можно с помощью инструмента Анализ файлов Sitemap.
Такой статус отображается в инструменте Проверка ответа сервера и сообщает, что робот не может проиндексировать файл как обычную страницу сайта и включить его содержимое в результаты поиска. На обработку Sitemap этот статус не влияет. Чтобы проверить корректность Sitemap используйте в Вебмастере инструмент Анализ файлов Sitemap.
Как правило, файл Sitemap обрабатывается роботом в течение двух недель после добавления его в Вебмастер. Если этого не произошло, проверьте:
Корректность файла с помощью инструмента Анализ файлов Sitemap. Устраните ошибки, если они обнаружены.
Ошибка «Нет используемых роботом файлов Sitemap» появляется в панели вебмастера, если Яндекс не видит карту сайта. Уточним, что карта веб-ресурса — это документ в формате xml или txt, в котором содержится актуальных список всех разделов и URL-адресов ресурса. При её отсутствии поисковик может не сразу увидеть обновление проекта, из-за чего новые страницы попадут в индекс с задержкой.
Слишком много файлов Sitemap в файле индекса
В файле индекса более 50 000 файлов Sitemap. Разделите его на несколько и убедитесь, что в каждом указано не более 50 000 файлов Sitemap.
Загрузка карты сайта
Первым делом перейдите в панель вебмастера Яндекс и откройте вкладку «Индексирование» — «Файлы Sitemap». Далее добавьте ссылку на карту ресурса в специальное поле. В течение двух недель система проверит документ и, если вы всё сделали правильно, напротив ссылки появится код ответа «ОК».
Аналогично необходимо загрузить документ в Google Search Console.
Поддерживаемые Яндексом форматы
Яндекс поддерживает протокол Sitemap. Чтобы передать информацию, используйте следующие элементы:
Тег Обязательно Описание loc Да Адрес страницы. lastmod Нет Дата последнего обновления страницы. Максимальный размер — 100 байтов.
Максимальный размер — 100 байтов.
Максимальный размер — 100 байтов.
Тег Обязательно Описание loc Да Адрес страницы. lastmod Нет Дата последнего обновления страницы. Максимальный размер — 100 байтов.
Максимальный размер — 100 байтов.
Максимальный размер — 100 байтов.
Также с помощью Sitemap вы можете передать информацию о локализованных страницах сайта и об изображениях (см. раздел Справки Яндекс Картинок).
Чтобы передавать информацию о видео, в файле Sitemap укажите ссылки на XML-фиды (см. подробно в Справке поиска Яндекса по видео).
Ошибка сжатия
Произошла ошибка при попытке восстановить сжатый файл Sitemap. Выполните повторное сжатие файла (например, с помощью gzip), после чего загрузите его на сайт и повторно отправьте в Google.
Мой Robots.txt
Так вот выглядит мой роботс:
Я разрешил поисковым ботам индексировать меня только по "Тегам" и "Архиву". Обратите внимание, я использую маску /wp-, для того чтобы URL'ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow).
Также я разрешил индексировать мой "/wp-content/uploads/" для сервисов "Яндекс.Картинки" и "Google Картинки", так как там хранятся в основном картинки. И расшарил файл "sitemap.xml" для лучшей индексации.
Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:
Читайте также: