Как закрыть дубли страниц сайта от индексации

Posted on 30/01/2020

Оптимизация и продвижения сайта – это систематический труд и ежедневные работы по его улучшению. Но иногда оптимизаторы тратят огромную кучу времени на проработку контента и даже не догадываются, что причина кроется в дубликатах страниц сайта. Дубликаты, в свою очередь, представляют из себя страницы с одинаковым содержимым на одном домене, но с разными URL. В них и кроется причина неправильной индексации страниц. О том, как сделать так, чтобы робот не обходил страницы дубли расскажем вам в этой статье.

Как найти дубли страниц на сайте

Для того, чтобы обнаружить дубликаты на страницах сайта существует большое количество программ и ресурсов. Самыми простыми методами являются проверка сайта через инструменты Яндекс.Вебмастер или Google Seach Console для вебмастеров.

Яндекс. Вебмастер

Следуйте следующему пути: «Индексирование» > «Вид в поиске»

Затем, необходимо сделать сортировку «Исключенные страницы» > «Дубли»

Для того, чтобы было удобно работать со страницами дубликатами рекомендуем вам выгрузить в Excel

Google Seach Console

В вебмастере Google есть раздел «Оптимизация HTML». Здесь отражены дублируемые мета – данные, по которым можно найти страницы дубликаты.

Есть еще один нехитрый способ на проверку дублей сайта. В поисковой системе необходимо ввести следующие данные:

host:URL домена, который проверяется на дубликаты.

Полученная в результате выдача помогает проверять сайт на дубли. В отраженных страницах будет идти повторяющиеся заголовки и сниппеты.

Способ №1. rel = «canonical»

Каноническая страница – это одна из версии страницы дубликата, которая была выбрана в качестве основной. Поисковые системы индексируют, так как считают ее главной среди нескольких ее вариантов. Многие программисты, особенно работающие на сайтах с большим количеством страниц, выбирают данный способ для устранения дубликатов.

Настройка rel = «canonical»

Для того, чтобы назначить канонический URL – адрес для страницы необходимо прописать код в разделе head. Если этот атрибут прописать в другом разделе эффективности не будет, так как роботы поисковых систем проигнорируют данную инструкцию.

Также настроить каноническую страницу сайта можно с помощью xml – карты сайта. Необходимо прописать канонические ссылки в файле индексации, но иногда роботы могут игнорировать данные правила.

Способ №2. Настройка robots.txt

В файле robots.txt мы можем настроить правила, по которым мы можем закрыть дублирующийся контент от роботов поисковых систем. Сделать это мы может с помощью директивы Disallow. Этот способ привычен для многих вебмастеров, так как он удобен и нет необходимости прописывать код в HTML. Итак, для того, чтобы прописать правила нам необходимо узнать какие страницы дублируются на сайте. Стоит отметить, что:

/ — запрет на обход целой страницы;
/catalog – запрет на обход страниц, адрес которых начинается с /catalog;
/catalog/* — запрет на обход страниц, адрес которые начинаются на /catalog и другая любая последовательность символов;
* — означает любую последовательность символов;
$ — избирательный подход к индексации, исключение из правил;
*@* — запрет на определенные символы, встречающихся в URL – сайта.

Примером запрета на индексацию дублирующихся страниц могут быть прописанные следующие правила.

Disallow: /set_filter=* — это правило для уникальных страниц;

Disalow: /catalog/*?* — запрет на индексирование динамических страниц;

Disallow: /filter/* — запрет на индексирование страниц с фильтром.

Способ №3. 301 редирект

Редирект означает перенаправление пользователей и поисковых систем на другой URL. Если редирект настроен правильно, то пользователю это переадресация совершенно не мешает. И продвижению кстати тоже. Прописывается он с помощью файла .htaccess. В этом файле прописываем, какие страницы, на какие перенаправлять.

Пример склейки страницы с www на без www:

RewriteCond %{HTTP_HOST} ^www.site\.com$[NC]

RewriteRule ^(.*)$http://site.com/$1 [R=301.L]

Не стоит забывать о том, что дубликаты страниц могут плохо сказаться на продвижении сайта. Но удалять их сразу не стоит, так как данные страницы могут находиться в топе запросов. Так что, прежде чем удалять страницу обязательно проверьте ее с помощью Serpstat, чтобы не вылететь из топа.

Post Views: 3 554

Предыдущая запись

Как Яндекс торгует местами в выдаче

Следующая запись

Что такое юзабилити и почему многие про него забывают?