Sitemap.xml — это файл, в котором содержится список ссылок на все полезные страницы вашего сайта.

У каждой ссылки (страницы) есть дата последнего изменения, и приоритет индексации.

Пример sitemap.xml без ошибок

Зачем нужен sitemap.xml

Благодаря sitemap.xml — поисковики понимают какие страницы нужно проиндексировать (или обновить информацию) и в каком порядке это следует делать.

Выходит, что sitemap.xml - это аналог карты для поискового робота.

По этой карте он легко доберется до любой страницы, и добавит ее в индекс.

Основные ошибки

1. Мусорные страницы в файле

В карте сайта не должно быть бесполезных для поисковика страниц:

  • Страницы результатов поиска по сайту
  • Страницы пагинации
  • Страницы авторизации и входа в админку
  • Страницы формируемые динамическими фильтрами товаров
  • Бесполезные страницы не содержащие полезной информации
  • Неканонические страницы (дубли)
  • Страницы закрытые от индексации
  • Удаленные страницы (404)
  • Страницы с редиректами (301/302)
  • Другие страницы, код ответа которых не 200

2. Ошибка в протоколе http

Частый косяк, обычно встречается у сайтов переехавших с http на https (подключивших SSL сертификат).

Получается, что ваш сайт уже работает на https, а ссылки в файле указаны на протокол с http

Это грубая ошибка

3. Не указаны даты последнего изменения страниц

Любые изменения на странице должны учитываться в карте сайта (даже обновления цены или остатков).

Если вы не будите обновлять даты изменения страниц — поисковик не сможет понять какие страницы следует переиндексировать (большая проблема для интернет магазинов).

4. Не указаны приоритеты индексации

Поисковой робот не может индексировать сайт целиком. Если у вас 1000 страниц, то он сможет обойти за раз около 200.

Какие страницы он обойдет — решать нам

Следует верно расставлять приоритеты.

Если вы интернет магазин, то главные приоритеты следует отдать главной странице и страницам товарных категорий.

5. Не указанна ссылка на sitemap.xml в файле robots.txt

Если вы не укажите ссылку на карту сайта — поисковик ее не найдет.

Файл robots.txt — это набор инструкций для поискового робота. В этом файле должна быть ссылка на вашу карту

6. Слишком больший sitemap.xml

Если ваша карта сайта содержит более 5000 страниц, то:

  1. Нужно разбить карту на 2 рахных файла
  2. Нужно создать один общий файл sitemap (называется индексный файл) и из него поставит ссылки на 2 ваших Сайтмапа

Все правила формирования изложенные выше, применимы как к обычному сайтмапу, так и к индексному.

Ищем кривые sitemap.xml у сайтов из поиска

У каждого 3го сайта есть проблемы с sitemap.xml

И что бы показать вам суровую реальность, я записал небольшое видео, в котором устроил проверку поисковой выдачи