Не удалось обработать файл sitemap
Вы создали карту сайта, загрузили ее в Google Search Console и Яндекс.Вебмастер, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковики игнорируют ваш файл Sitemap и не собираются индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и даже расскажем, как это сделать.
Если у вас еще нет карты сайта и вы хотите узнать, зачем она нужна, ознакомьтесь с нашим вводным интенсивом по созданию файла Sitemap. Здесь мы расскажем о преимуществах использования карты сайта и действенных рекомендациях по работе с ней. Если вы пока не знаете, для чего используют теги и , что такое карта сайта для видео или файл индекса Sitemap, вводное руководство вам точно пригодится.
В первой части этой статьи перечислены все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console и Яндекс.Вебмастере. Если же вы ищете способ устранить конкретные проблемы, воспользуйтесь содержанием, чтобы перейти к интересующим вас ошибкам.
Во второй части — рекомендации, которые помогут вам извлечь максимальную выгоду из карты сайта. Вы узнаете, как найти мусорные страницы в файле Sitemap, где искать страницы, которые вы могли пропустить и не добавить в карту сайта, и как заставить поисковики проиндексировать как можно больше страниц из файла Sitemap. Поэтому очень советую всем внимательно ознакомиться со второй главой этой статьи.
Загруженные vs проиндексированные URL-адреса
Ваша карта сайта и файл индекса Sitemap могут получить статус «Успешно» или «Ок», но на этом ваша работа не заканчивается.
Давайте сначала разберем, что делать дальше в Google Search Console. Щелкните на значок диаграммы рядом с количеством выявленных URL-адресов, чтобы перейти к отчету об индексировании. Как только вы начнете анализировать его, вы скорее всего заметите, что не все отправленные страницы были проиндексированы.
Это нормально, когда страницы исключаются из индексации — Google не может оценить и проиндексировать все страницы вашего сайта, о которых он знает. Более того, почти на каждом сайте есть страницы, которые вебмастера не хотят индексировать: страницы защищенные паролем, служебные страницы и дубли. Что не нормально, так это наличие ошибок и предупреждений в вашем отчете об индексировании. Также недопустимо, чтобы количество исключенных страниц во много раз превышало количество страниц без ошибок.
Так почему же поисковики не могут проиндексировать страницы, которые были добавлены в карту сайта? В большинстве случаев это происходит, когда вы добавляете туда страницы, которых в карте сайта быть не должно. Возможно, поисковики просто не могут проиндексировать страницу из-за директивы noindex. Кроме того, поисковики могут запутаться, действительно ли вы хотите, чтобы страница была проиндексирована — например, когда вы добавляете неканонические страницы в карту сайта.
Удалите из карты сайта неиндексируемые и неканонические страницы. А если страницы были по ошибке помечены как неиндексируемые и неканонические, решите эту проблему.
Недопустимое значение тега
В файле Sitemap содержится один или несколько тегов с недопустимым значением. Проверьте спецификации для соответствующего типа файла Sitemap (индекс, стандартный, видео и т. п.).
Прочие сайтмапы
Если ранее были отправлены иные сайтмапы, они могут задерживать обработку, отъедая краулинговый бюджет сайта. Недостаточно просто удалить сайтмап из консоли.
Столкнулся с проблемой, при которой Google не мог прочитать файлы sitemap.xml, которые я загружал ему через панель вебмастеров Google Search Console.
Как все происходит. После добавления появляется нормальное уведомление что все «окей»:
Google прекрасно видел индексный файл, и видел что лежит внутри этого файла, но каждый отдельный sitemap.xml он не читал, а лишь ставил отметку «Не получено»:
Стал читать форумы, на которых высказывались какие-то небылицы и бредовые идеи, я перепробовал абсолютно все, что там было написано:
- «Надо файлы держать в корней директиве, на одном уровне с индексным файлом sitemap.xml» — но опытным путем подтвердилось, что это не так. Хоть и Google сам об этом пишет:
- «В названии файла не должны использоваться _ (нижнее подчеркивание)» — но у меня их и не было.
- В каждом файле изначально было по 40к урлов, т.е. ниже максимального значения в 50к. Я разбил их на 10к, потом на 5000 и затем уже по 1000 — ничего не помогло.
- «Добавлять // в начале адреса» — не помогает:
- «Заканчивать адрес sitemap-1.xml/ т.е. слеш добавить в конце расширения файла «.xml/» — не помогло
- У меня были примеры индексного файла, в котором было 40 файлов карты сайта, общей численностью 2 000 000 адресов сайта, которые Google легко читал.
- Стал предполагать, что Google не нравится что медленно скачивает, начал делать txt файлы (да, можно делать вместо xml обычный txt) — частично это помогло. Файлы по 100-1000 url как формата xml так и txt проходили и читались. Я уже думал что нашел решение, и добавить 140 000 адресов сайта нужно прост создав 140 файлов по 1000 url:
Но это не помогло, и на большой выборке файлов Google опять написал «Не получено». Это уже очень сильно бесило. - Я начал сравнивать файлы с других сайтов, которые я знал, что точно читаются Google. Нашел некоторые закономерности, напр., у меня появилась гипотеза, что Google восприимчив к формату переноса строк и нужен Windows (CR LF), а не Unix LF, как было в моих файлах — но это тоже не помогло.
- Убрал все «лишние» теги в xml файлах, оставил только , а lastmod changefreq и priority удалил — не помогло.
- Менял формат тега lastmod — не помогло.
В общем после всех мучений, проб всего, что только можно было попробовать, я уже сдался и признал победу за Google.
Какого же было мое удивление, что день через день Google начал индексировать файлы sitemape.xml из индексного файла. Да, просто по чуть-чуть, и в течение 1-2 недель он проиндексировал все отдельные файлы.
Короче, если у вас такая проблема, то попробуйте просто оставить все на несколько дней, и посмотрите, что будет происходить. Видимо у Google есть свой темп чтения файлов для каждого сайта. Т.е. для каких-то он за раз все показывает, а для других откладывает в долгий ящик, и исходя из каких-то лимитов или наличия ресурсов читает уже «в свободное от работы время». Возможно это бред, но все же.
В общем оставляйте как есть, и смотрите что произойдет через неделю, не тратьте нервы и время.
Ошибки на сайте
Ошибки загрузки
- Сайтмап недоступен или генерируется с ошибками - Проверьте в браузере и используя сервис от Яндекс
- Проблема с зеркалами сайта WWW/HTTPS - Сам сайтмап и содержимое должны принадлежать главному зеркалу
- Сайтмап запрещен к индексации в robots.txt - Разрешите используя оператор "Allow:" в конце списка
- Сайтмап отдается слишком долго (больше 15с)
Ошибки содержимого
- Адресация в сайтмапе и на сайте отличается либо большое кол-во адресов с редиректами
- В адресах используются спецсимволы - используйте только латинские буквы (a-z), цифры и тире (-)
- Несоответствие стандарту XHTML, как правило не заменено & на &аmр;
- Имеются пробелы в начале, либо кодировка отличная от UTF-8 (без BOM)
Как удалить файл Sitemap
Если вы удалите файл Sitemap, он исчезнет из отчета, но останется известным для Google, как и все перечисленные в нем URL. Если вам нужно, чтобы роботы Google перестали посещать ваши веб-страницы, добавьте правило в файл robots.txt.
Чтобы удалить файл Sitemap, выполните следующие действия:
- В основной таблице отчета найдите файл, который нужно удалить, и нажмите на него.
- На странице сведений о файле нажмите на значок в виде трех точек .
- Выберите Удалить файл Sitemap.
- Чтобы роботы Google больше не обращались к файлу Sitemap, удалите его с сайта или запретите доступ к нему с помощью файла robots.txt.
Слишком большой значок видео
Значок видео, указанный в файле Sitemap, слишком велик. Измените его размер до 160 x 120 пикселей. При необходимости обновите файл Sitemap и повторно отправьте его в Google. Подробнее о том, как добавить в файл Sitemap информацию о видео…
Несоответствующий путь: отсутствует префикс www
Удалите префикс www из всех URL внутри файла.
Отсутствует атрибут XML
В одном из тегов в файле Sitemap отсутствует обязательный атрибут. Просмотрите файлы Sitemap и убедитесь, что все обязательные атрибуты на месте. Исправьте найденные ошибки в значениях атрибутов и ещё раз отправьте файл Sitemap.
Проблемы со сканированием вашего файла Sitemap
Начнем с самого худшего сценария, когда поисковик не может обработать файл Sitemap. Сначала разберемся с Google — что делать, если статус вашей карты сайта «Не получено».
В этом случае вам придется использовать «Инструмент проверки URL», чтобы выяснить, что может быть причиной проблемы. В инструменте нажмите кнопку «Проверить страницу на сайте» и посмотрите статус получения страницы. Если написано «Успешно», значит ошибка на стороне Google.
Теперь давайте разберемся, что делать, если проблема возникла в Яндекс.Вебмастере. Если Яндекс не сможет обработать ваш файл Sitemap, его статус будет «Не проиндексирован».
Если сервер отвечает больше 10 секунд, файл не загрузится с помощью инструмента и не будет учитываться роботом при обходе.
Кроме того, как и в случае с Google Search Console, обратите внимание на файл robots.txt и плагины CMS.
Ошибка «Не получено» или «Не проиндексирован» может возникнуть как при загрузке отдельной карты сайта, так и в случае загрузки в Google Search Console и Яндекс.Вебмастер файла индекса Sitemap. Проблему нужно решить так же, как и с одной картой сайта.
URL недоступны
Google не удалось просканировать адреса из файла Sitemap. Проверьте, доступны ли URL в нем нашему роботу, с помощью этого инструмента.
Ошибки в файлах Sitemap
В отчете по файлам Sitemap может появляться информация об ошибках, перечисленных ниже.
Вложенные файлы индекса Sitemap
В одной или нескольких записях файла индекса Sitemap указан его собственный URL или URL другого файла индекса Sitemap. Файл индекса Sitemap может содержать ссылки только на обычные файлы Sitemap, а не на индексы.
Удалите записи, указывающие на индексы Sitemap, и повторно отправьте файл.
Отсутствует тег XML
Ошибки в файле индекса Sitemap
Теперь перейдем к случаям, когда поисковики просканировали добавленный вами файл и обнаружили ошибки. И начнем мы с ошибок файла индекса Sitemap.
Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.
И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса», а в Яндексе — «Число файлов Sitemap превышает заданный предел». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.
Недопустимый XML: слишком много тегов
В файле Sitemap имеются повторяющиеся теги. Например, следующая запись станет причиной ошибки, поскольку тег повторяется в ней дважды:
Превышен максимальный размер файла Sitemap
Размер файла Sitemap в несжатом виде превышает 50 МБ. Разбейте его на несколько файлов и укажите их в индексе Sitemap, а затем отправьте нам этот индекс.
Неправильно введена дата
Как минимум одна дата в файле Sitemap имеет неверный формат или значение. Даты должны быть в формате кодировки даты и времени W3C. Время можно не указывать. Введите все даты в одном из допустимых форматов W3C:
Время задавать не требуется (по умолчанию устанавливается значение 00:00:00Z), однако если вы все же делаете это, не забудьте указать часовой пояс.
Интерпретация данных в отчете
Для каждого файла Sitemap указывается следующая информация:
Моего файла Sitemap нет в отчете
Вот несколько причин, по которым файл Sitemap может отсутствовать в отчете:
URL видео указывает на страницу воспроизведения
Пустой Sitemap
В файле Sitemap отсутствуют URL. Исправьте это.
В файле Sitemap слишком много URL
В файле Sitemap более 50 000 URL. Разделите его на несколько, каждый из которых содержит до 50 000 адресов. Для удобства можно создать файл индекса Sitemap.
Отсутствует название видео
В некоторых записях о видео отсутствует название. Убедитесь, что в тегах указаны названия всех видео.
Проверка сайтмапа
К сожалению гугл убрал инструмент проверки сайтмапа в новой Search Console. На данный момент такую возможность дает только Яндекс.
В Google можно проверить статус URL и ускорить индексацию единственным способом:
Исправление ошибок в отчете Sitemap
После загрузки карты сайта в Google или Яндекс в столбце «Статус» можно увидеть, удалось ли поисковикам обработать файл. Если ваш файл соответствует всем правилам, появится статус «Успешно» в Google Search Console или «Ок» в Яндекс.Вебмастере. В этой главе мы рассмотрим другие статусы, а именно «Не получено» и «Обнаружены проблемы» в Google, а также аналогичные «Не проиндексирован» и «Ошибка» — в Яндексе.
Неподдерживаемый формат файла
Вы создали некорректный файл.
Чтобы избежать самых частых ошибок XML, проверьте следующее:
- В файлах Sitemap должны быть правильные заголовки. Например, если файл содержит информацию о видео, заголовок должен быть следующим:
- Пространство имен в заголовке должно иметь вид http://www.sitemaps.org/schemas/sitemap/0.9 (не .9).
- Все атрибуты XML нужно заключать в одинарные (') или двойные (") кавычки, которые должны быть только прямыми. Обратите внимание, что текстовые редакторы, например Microsoft Word, могут автоматически менять кавычки на фигурные.
Неполные URL в файле индекса Sitemap
Добавьте в индекс Sitemap полные URL всех нужных файлов Sitemap и отправьте его ещё раз.
Недопустимый размер файла Sitemap и ошибки сжатия
Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google и «Размер файла превышает заданный предел» в Яндексе. Узнать больше о том, как разделить карту сайта на несколько файлов, можно из нашего полного руководства по созданию файла Sitemap.
Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в Google. В Яндексе она звучит так — «Ответ не содержит данных».
Недопустимый URL
Убедитесь, что URL в файле Sitemap указаны в правильной кодировке и должным образом экранированы. Проверьте, нет ли недопустимых символов, таких как пробелы и кавычки. Кроме того, можно вставить URL в браузер и посмотреть, будет ли загружена страница.
Синтаксические ошибки в карте сайта
В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок.
Также напомню, что Яндекс распознает не все теги, с которыми работает Google. Из-за этого часто возникают проблемы в отчете Яндекс.Вебмастера.
Давайте рассмотрим все подобные ошибки детально.
- «Недопустимое значение тега» в Google Search Console. Значение тега — это то, что вы указываете между начальным и конечным тегами — URL-адрес между тегами , или дата, которую вы определяете с помощью тега . Ошибка возникает, когда вы указываете недопустимое значение в карте сайта, например, устанавливаете приоритет вне диапазона от 0,0 до 1,0. В последнем случае Яндекс выдаст ошибку «Неверный формат приоритета URL». Также нельзя оставлять теги без значения в принципе. Если такое случится, в Яндекс.Вебмастере вы получите ошибку «Нет данных в теге».
- «Неверное значение атрибута» в Google Search Console. Значение атрибута указывается после знака равенства (=) в кавычках. В следующей строке кода перечислены различные языковые версии страницы в файле Sitemap.
Здесь «alternate», «gb» и «fr» являются значениями атрибутов, но «gb» используется неправильно. Вы не можете указать в hreflangs только код страны — он должен сочетаться с кодом языка, например, «en-gb».
Напомню, что специальные карты сайта для новостей, картинок и видео поддерживает только Google.
Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8. В последнем случае Яндекс.Вебмастер выдаст ошибку «Неверная кодировка».
Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.
После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.
Такие действия заставят Google и Яндекс повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок.
Слишком маленький значок видео
Значок видео, указанный в файле Sitemap, слишком мал. Измените его размер до 160 x 120 пикселей. При необходимости обновите файл Sitemap. Подробнее о том, как добавить в файл Sitemap информацию о видео…
Слишком много файлов Sitemap в файле индекса
В файле индекса более 50 000 файлов Sitemap. Разделите его на несколько и убедитесь, что в каждом указано не более 50 000 файлов Sitemap.
Переход по URL не выполнен
Google не удалось просканировать все URL, указанные в файле Sitemap. Возможные причины:
- При переходе по URL слишком много раз выполняется переадресация, и поисковые роботы Google останавливаются, не достигая цели. Рекомендуем заменить все URL переадресации на адреса непосредственно тех страниц, которые нужно просканировать.
- Если вы все время применяете переадресацию с одной страницы на другую, используйте постоянную переадресацию.
- Рекомендуем отказаться от переадресации с помощью JavaScript или метатега refresh.
Несоответствующий путь: имеется префикс www
Добавьте префикс www во все URL внутри файла.
Неверное значение атрибута
Атрибут, связанный с одним из тегов XML в файле Sitemap, имеет недопустимое значение. Проверьте файлы Sitemap и убедитесь, что все атрибуты используются согласно техническим требованиям к таким файлам. Проверьте, нет ли опечаток в значениях атрибутов.
Отсутствует URL значка видео
В некоторых записях о видео нет ссылки на значок. Убедитесь, что в тегах указаны URL всех значков видео.
Управление файлами Sitemap
Также для управления файлами Sitemap можно использовать Search Console Sitemaps API. Этот API поддерживает те же функции и позволяет получать ту же информацию, что и отчет.
Следуйте приведенным ниже инструкциям.
Файл Sitemap сразу же будет обработан, однако для сканирования перечисленных в нем URL может потребоваться некоторое время. Иногда просканировать удается не все URL (это зависит от размера сайта, трафика и других факторов).
Если вы уже отправляли нам определенный файл Sitemap, не нужно делать это повторно, даже если вы внесли в него изменения. Новая информация будет обнаружена при следующем сканировании вашего сайта.
Адреса видео и страницы воспроизведения совпадают
URL видео и страницы проигрывателя, указанные в файле Sitemap для видео, не должны совпадать. Если используются одновременно тег и тег , то URL в них должны различаться. Подробнее о том, как добавить в файл Sitemap информацию о видео…
Ошибка сжатия
Произошла ошибка при попытке восстановить сжатый файл Sitemap. Выполните повторное сжатие файла (например, с помощью gzip), после чего загрузите его на сайт и повторно отправьте в Google.
Ошибка синтаксического анализа
Google не удалось выполнить синтаксический анализ XML-контента вашего файла Sitemap.
Зачастую это происходит из-за неэкранированных символов в URL. Во всех файлах XML в любых значениях данных (включая URL) необходимо экранировать символы &, ', ", и некоторые другие. Проверьте, правильно ли выполнено экранирование в URL.
Нельзя использовать URL
Некоторые из перечисленных вами URL находятся в другом домене или на более высоком уровне по сравнению с файлом Sitemap.
Проблемы со сканированием URL-адресов в карте сайта
По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.
«Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» в Google и аналогичная «URL запрещен в файле robots.txt» в Яндексе — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.
Всю необходимую информацию ищите в разделе «Код ответа сервера».
Google и Яндекс также выделяют другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.
Ошибка в Google «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.
Ошибка в Google «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.
Если инструмент обнаружит какие-либо ошибки, вы получите всю необходимую информацию по каждой из них — щелкнув на количество страниц, можно узнать, на какой странице есть проблема и как она связана с другими страницами сайта.
Яндекс.Вебмастер отдельно выделяет ошибку «Много некорректных URL в начале файла». Эта ошибка сообщает, что стоящие подряд URL-ы расположены за пределами каталога, в котором находится файл Sitemap. Скорее всего весь файл имеет неправильный формат, поэтому Яндекс не будет продолжать сканировать такую карту.
Наконец не забывайте, что длина каждого URL в файле не должна превышать установленный предел в 1024 символа. Иначе Яндекс.Вебмастер выдаст ошибку «Слишком длинный URL».
Временная ошибка
Заключение
Благодаря разнообразию инструментов для создания карты сайта сделать файл Sitemap очень легко. Однако, если вы просто воспользуетесь одним из случайных инструментов и проигнорируете рекомендации по созданию карты сайта, то наверняка получите отчет о файле Sitemap с большим количеством ошибок, или отправите через карту сайта множество некачественных страниц на рассмотрение поисковикам.
С помощью отчета о файлах Sitemap вы можете сообщить Google о появлении новых карт вашего сайта, посмотреть историю отправки файлов Sitemap, а также узнать об ошибках, с которыми столкнулась наша система при анализе файла Sitemap.
Что такое файл Sitemap? Будет ли мне полезен этот отчет?
Файл Sitemap содержит информацию о страницах сайта, на котором он размещен. По этому файлу Google определяет, какие страницы нужно просканировать.
- Если вы пользуетесь сервисом веб-хостинга (Squarespace, Wix и т. п.), вероятно, файл Sitemap создается для вас автоматически. В таком случае не требуется ни создавать его вручную, ни прибегать к помощи отчета, о котором идет речь. Поищите сведения о файлах Sitemap в справочных материалах своего хостинг-провайдера.
- Если у вас небольшой сайт (меньше 100 страниц) и если по ссылкам можно перейти от главной страницы к любой другой на этом сайте, то файлы Sitemap и отчет о них вам не нужны. Достаточно запросить индексирование главной страницы. При использовании сервиса веб-хостинга, как уже было сказано выше, никакие действия не требуются.
Оптимизируйте карту сайта с подсказками от Google
Убедившись, что с вашей картой сайта все в порядке, изучите «Отчет об индексировании», чтобы найти случаи, когда ваше мнение о странице расходится с Google.
На вкладке «Исключено» можно увидеть еще две интересные категории страниц: «Просканированы, но пока не проиндексированы», и «Обнаружены, не проиндексированы». Оба типа обычно определяют некачественные страницы с малым содержанием, которые Google не хочет показывать пользователям. В первом случае страница была по крайней мере просканирована, а затем признана некачественной. А во втором случае поисковик даже не потратил краулинговый бюджет на страницу. Тщательно проанализируйте все такие страницы и посмотрите, что вы можете сделать, чтобы повысить их ценность: поработайте над контентом, взаимодействием с пользователем, внутренней линковкой и т. д.
Неправильно указано пространство имен
В корневом элементе файла Sitemap неверно задано или отсутствует пространство имен, содержится орфографическая ошибка или неправильный URL.
Убедитесь, что пространство имен задано правильно с учетом типа файла. Ниже приведены примеры.
- Файл Sitemap: xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
- Файл Sitemap для видео: xmlns:video="http://www.google.com/schemas/sitemap-video/1.1"
- Файл индекса Sitemap:
Файл Sitemap начинается с пробела
Ваш файл Sitemap начинается с пробела, а не с объявления пространства имен. Файлы XML должны начинаться с декларации XML, в которой указана используемая версия XML.
Глюки новой Google Search Console
Иногда возникают проблемы при следующих ситуациях
Варианты оптимизации карты сайта для Яндекса
В отличие от Google, Яндекс обычно учитывает пожелания вебмастеров. Поэтому если страница помечена как noindex — поисковик не будет ее индексировать. Также Яндекс, как правило, индексирует канонические страницы. Но бывают и исключения. Чтобы увидеть проиндексированные неканонические страницы, выберите на вкладке «Последние изменения» статус «Добавлено: Неканоническая».
Если Яндекс посчитал, что неканоническая страница лучше той, которую выбрали вы, надо разобраться, что не так с канонической. Для начала проверьте, проиндексирована ли она — если да, вам придется столкнуться с каннибализацией ключевых слов. Если же каноническая страница выпала из индекса, то она по той или иной причине не понравилась поисковику. Доработайте каноническую страницу или послушайтесь Яндекса — поменяйте теги canonical и добавьте необходимую страницу в карту сайта.
В отличие от Google, у Яндекса нет возможности быстро проверить, каких проиндексированных страниц нет в вашей карте сайта. Но их можно легко найти с помощью SE Ranking. Ниже я описала, как это сделать.
Перейдите в инструмент «Аудит сайта» и кликните на зеленую линию в графике «Индексация страниц».
Вы увидите список страниц, открытых к индексации. Добавьте колонку «В карте сайта» и отфильтруйте страницы так, чтобы видеть только те, которых нет в файле Sitemap. Выгрузите список страниц, нажав на кнопку «Экспорт» и скопируйте из таблицы URL-aдреса.
Затем перейдите в инструмент «Проверка индексации», вставьте необходимые ссылки и нажмите «Начать проверку». Через пару минут вы увидите, какие страницы в индексе, а какие нет.
Теперь вы знаете, каких проиндексированных страниц не хватает в карте сайта. Добавьте их в файл Sitemap.
Теперь давайте вернемся в Яндекс.Вебмастер. Советую уделить внимание еще одной категории во вкладке «Последние изменения» — «Малоценные или маловостребованные страницы». Это страницы, которые были исключены из поиска по очевидной причине. Они не содержат контента, дублируют уже известные роботу страницы, или их контент не отвечает интересам пользователей. Так же как и в случае с Google, подумайте, что можно сделать, чтобы повысить ценность таких страниц.
Первые действия
- Убедитесь что сайтмап открывается в браузере и время открытия менее 10сек.
- Необходимо подождать определенное время. Если краулинговый бюджет сайта израсходован, сразу индексация сайтмапа не пройдет, ожидайте от 1 до 10 дней.
- Воспользуйтесь инструментом "Проверка URL" для анализа индексации сайтмапа и запроса на приоритетное сканирование (скрин ниже).
- Отслеживайте по логам, обращался ли GoogleBot к сайтмапу.
Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt
Роботу Google не удалось обработать файл Sitemap, поскольку доступ к нему или его содержанию запрещен в файле robots.txt. Воспользуйтесь инструментом проверки URL, чтобы выяснить, на какой именно файл влияет блокировка доступа, и внесите в директивы robots.txt необходимые изменения.
Перечень ошибок, возникающих при обработке файла Sitemap .
Загрузка файла Sitemap закончилась неудачно. Возможно URL файла задан неверно.
Размер файла Sitemap больше 50 МБ.
Указан невалидный URL файла Sitemap .
В процессе загрузки файла Sitemap сервер прервал соединение.
Не удалось загрузить файл из-за ошибки DNS. Возможно указан неправильный URL файла.
Файл Sitemap не удалось загрузить, так как не удалось соединиться с сервером.
URL файла Sitemap запрещен в файле robots.txt и поэтому не был загружен. Проверьте правильность файла robots.txt и адрес файла Sitemap .
При загрузке файла Sitemap сервер вернул пустой документ.
Произошла ошибка при распаковке файла Sitemap , сжатого с помощью gzip.
Указанный тег должен встречаться в данном контексте только один раз.
Указанный тег не должен встречаться в данном контексте.
Пропущен обязательный тег.
URL не соответствует стандарту.
Местоположение файла Sitemap определяет набор URL, которые можно включить в этот файл. Файл, расположенный в некотором каталоге, должен содержать URL, который размещен в этом же каталоге, либо в его подкаталогах. Подробнее см. Местоположение файла Sitemap.
Длина URL превышает установленный предел (1024 символа).
Указанный тег не должен быть пустым.
Указанный тег не должен содержать дочерние теги.
Указанный тег содержит слишком много данных.
Указанный тег не содержит необходимых данных.
Файл Sitemap не является правильно построенным (well-formed) XML-документом, то есть не соответствует правилам синтаксиса XML.
В файле Sitemap обнаружено более 100 ошибок. Дальнейшая обработка файла прекращена.
Файл Sitemap может содержать не более 50000 URL. Если необходимо перечислить более 50000 URL, следует создать несколько файлов Sitemap и включить их в файл индекса Sitemap (см. Использование файлов индекса Sitemap).
Файл индекса Sitemap может содержать не более 50 000 URL файлов Sitemap .
Файл Sitemap начинается с идущих подряд некорректных URL. Дальнейшая обработка файла прекращена, так как скорее всего файл имеет неверный формат.
Файл индекса Sitemap может содержать ссылки только на файлы Sitemap , но не на другие файлы индекса Sitemap .
В последнее время участились случаи когда Google отказывается принимать сайтмап длительное время.
В данном случае попробую расписать основные причины. Их можно разделить на 2 категории: ошибки на сайте и глюки новой гугл-консоли.
Google считает, что вы указали неправильные URL
В Яндекс.Вебмастере вы не увидите аналогичных ошибок, но, если вы хотите чтобы поисковик просканировал нужную вам версию URL-ов, стоит придерживаться описанных выше правил.
Читайте также: