Порядок действий:

  • Делаем полный скрининг сайта через программу Seo Screaming Frog (скачать можно с оф. Сайта: https://www.screamingfrog.co.uk/seo-spider/ ну или с торрентов)

Seo Screaming Frog - парсинг сайта

  • Выгружаем дубли по заголовку H1 в Excel

Seo Screaming Frog - выгрузка дублей H1

Теперь разберемся откуда на сайте появились страницы с одинаковыми заголовками. Вариантов тут не много: либо вы сами создали пачку дублей, либо же они сгенерировались автоматом.

90% дублей страниц я нахожу в следующих местах:

  • Товарные фильтры интернет-магазинов
  • Страницы пагинации (рубрики товаров, страницы блога, новостей и т.д.)
  • Корзины товаров, работающие через URL с параметрами
  • Незакрытые от индекса UTM метки (привет директологам))

Я тегирую дубли страниц по характеру их образования, и сразу прикидываю что с ними делать: удалять и склеивать, менять заголовок H1, или же закрывать от индексации.

Тегирование дублей в MS Excel

Удаление явных дублей страниц

  • Страницы пагинации нужно клеить череp: link rel="canonical" (каноничные страницы)
  • Страницы фильтра закрываем от индексации через атрибут rel="nofollow"
  • Неявные дубли страниц (те, что вы создали сами) - удаляем и клеим через 301 редирект

После склейки страниц, проверьте, не осталось ли битых ссылок.

Добавляем директивы в robots.txt

В дополнение, нужно закрыть дубли в robots.txt

Для того, что бы закрыть от индексации URL в которых есть знак "?", добавьте в robots.txt следующую строку:

  • Disallow: *?*

Вместо знака вопроса можно добавить любой фрагмент дубликата страниц, например:

Если в дублях страниц встречается фрагмент "filter": site.ru/category/filter/ - то, для того что бы закрыть все страницы дубли, нужно добавить фрагмент:

  • Disallow: *filter*

Пример:

  • https://artameb.ru/catalog/meditsinskie_shirmy/ - оригинальная страница

Дубли из под фильтра:

  • https://artameb.ru/catalog/meditsinskie_shirmy/filter/height-from-1676/apply/
  • https://artameb.ru/catalog/meditsinskie_shirmy/filter/price-base-from-4914/height-from-1676/apply/

У дублей в примере есть кое что схожее, в них встречается "apply" и "filter"

Для того что бы закрыть все возможные дубли страниц в моем случае, нужно добавить сл. директивы в robots.txt:

  • Disallow: *filter*
  • Disallow: *apply*

Виды дублей страниц

Я разделяю дубли на 2 типа:

  • Явные – полный дубль страницы. Их генерируют движки сайтов (Битрикс, Wordpress, OpenCart, и др.). Как их искать и удалять мы разобрали выше.
  • Неявные – похожая по смыслу страница, воспринимаемая поисковиком как дубль. Такие дубли создают сами пользователи по глупости. Как с ними работать - это тема для отдельной статьи.