Как закрыть дубли страниц сайта от индексации

Оптимизация и продвижения сайта – это систематический труд  и ежедневные работы по его улучшению. Но иногда оптимизаторы тратят огромную кучу времени на проработку контента и даже не догадываются, что причина кроется в дубликатах страниц сайта. Дубликаты, в свою очередь, представляют из себя страницы с одинаковым содержимым  на одном домене, но с разными URL. В них и кроется причина неправильной индексации страниц. О том, как сделать так, чтобы робот не обходил страницы дубли расскажем вам в этой статье.


Как найти дубли страниц на сайте

Для того, чтобы обнаружить дубликаты на страницах сайта существует большое количество программ и ресурсов.  Самыми простыми методами являются проверка сайта через инструменты Яндекс.Вебмастер или Google Seach Console для вебмастеров.

Яндекс. Вебмастер

Следуйте следующему пути: «Индексирование» > «Вид в поиске»

Затем, необходимо сделать сортировку «Исключенные страницы» > «Дубли»

Для того, чтобы было удобно работать со страницами дубликатами рекомендуем вам выгрузить в Excel


Google Seach Console

В вебмастере Google есть раздел «Оптимизация HTML». Здесь отражены дублируемые мета – данные, по которым можно найти страницы дубликаты.

Есть еще один нехитрый способ на проверку дублей сайта. В поисковой системе необходимо ввести следующие данные:

host:URL домена, который проверяется на дубликаты.

Полученная в результате выдача помогает проверять сайт на дубли. В отраженных страницах будет идти повторяющиеся  заголовки и сниппеты.


Способ №1. rel = «canonical»

Каноническая страница – это одна из версии страницы дубликата, которая была выбрана в качестве основной. Поисковые системы индексируют, так как считают ее главной среди нескольких ее вариантов. Многие программисты, особенно работающие на сайтах с большим количеством страниц, выбирают данный способ для устранения дубликатов.

 

Настройка rel = «canonical»

Для того, чтобы назначить канонический URL – адрес  для страницы необходимо прописать код в разделе head. Если этот атрибут  прописать в другом разделе эффективности не будет, так как роботы поисковых систем  проигнорируют данную инструкцию.

<link rel=”canonical” href =”http://URL”>

 

Также настроить каноническую страницу сайта можно с помощью xml – карты сайта. Необходимо прописать канонические ссылки в файле индексации, но иногда роботы могут игнорировать данные правила.


Способ №2. Настройка robots.txt

В файле robots.txt мы можем настроить правила, по которым мы можем закрыть дублирующийся контент от роботов поисковых систем. Сделать это мы может с помощью директивы  Disallow. Этот способ привычен для многих вебмастеров, так как он удобен и нет необходимости прописывать код в HTML. Итак, для того, чтобы прописать правила нам необходимо узнать какие страницы дублируются на сайте. Стоит отметить, что:

 

  • / - запрет на обход целой страницы;
  • /catalog – запрет на обход страниц, адрес которых начинается с /catalog;
  • /catalog/* - запрет на обход страниц, адрес которые начинаются на /catalog и другая любая последовательность символов;
  • * - означает любую последовательность символов;
  • $ - избирательный подход к индексации, исключение из правил;
  • *@* - запрет на определенные символы, встречающихся в URL – сайта.

Примером запрета на индексацию дублирующихся страниц могут быть прописанные следующие правила.

 

Disallow: /set_filter=* - это правило для уникальных страниц;

Disalow: /catalog/*?* - запрет на индексирование динамических страниц;

Disallow: /filter/* - запрет на индексирование страниц с фильтром.


Способ №3. 301 редирект

Редирект означает перенаправление пользователей и поисковых систем на другой URL. Если редирект настроен правильно, то пользователю это переадресация совершенно не мешает. И продвижению кстати тоже. Прописывается он с помощью файла .htaccess. В этом файле прописываем, какие страницы, на какие перенаправлять.

 

Пример склейки страницы с www на без www:

RewriteCond %{HTTP_HOST} ^www.site\.com$[NC]

RewriteRule ^(.*)$http://site.com/$1 [R=301.L]

 

Не стоит забывать о том, что дубликаты страниц могут плохо сказаться на продвижении сайта. Но удалять их сразу не стоит, так как данные страницы могут находиться в топе запросов. Так что, прежде чем удалять страницу обязательно проверьте ее с помощью Serpstat, чтобы не вылететь из топа.

 

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *