Оптимизация и продвижения сайта – это систематический труд и ежедневные работы по его улучшению. Но иногда оптимизаторы тратят огромную кучу времени на проработку контента и даже не догадываются, что причина кроется в дубликатах страниц сайта. Дубликаты, в свою очередь, представляют из себя страницы с одинаковым содержимым на одном домене, но с разными URL. В них и кроется причина неправильной индексации страниц. О том, как сделать так, чтобы робот не обходил страницы дубли расскажем вам в этой статье.
Как найти дубли страниц на сайте
Для того, чтобы обнаружить дубликаты на страницах сайта существует большое количество программ и ресурсов. Самыми простыми методами являются проверка сайта через инструменты Яндекс.Вебмастер или Google Seach Console для вебмастеров.
Яндекс. Вебмастер
Следуйте следующему пути: «Индексирование» > «Вид в поиске»
Затем, необходимо сделать сортировку «Исключенные страницы» > «Дубли»
Для того, чтобы было удобно работать со страницами дубликатами рекомендуем вам выгрузить в Excel
Google Seach Console
В вебмастере Google есть раздел «Оптимизация HTML». Здесь отражены дублируемые мета – данные, по которым можно найти страницы дубликаты.
Есть еще один нехитрый способ на проверку дублей сайта. В поисковой системе необходимо ввести следующие данные:
host:URL домена, который проверяется на дубликаты.
Полученная в результате выдача помогает проверять сайт на дубли. В отраженных страницах будет идти повторяющиеся заголовки и сниппеты.
Способ №1. rel = «canonical»
Каноническая страница – это одна из версии страницы дубликата, которая была выбрана в качестве основной. Поисковые системы индексируют, так как считают ее главной среди нескольких ее вариантов. Многие программисты, особенно работающие на сайтах с большим количеством страниц, выбирают данный способ для устранения дубликатов.
Настройка rel = «canonical»
Для того, чтобы назначить канонический URL – адрес для страницы необходимо прописать код в разделе head. Если этот атрибут прописать в другом разделе эффективности не будет, так как роботы поисковых систем проигнорируют данную инструкцию.
<link rel=”canonical” href =”http://URL”>
Также настроить каноническую страницу сайта можно с помощью xml – карты сайта. Необходимо прописать канонические ссылки в файле индексации, но иногда роботы могут игнорировать данные правила.
Способ №2. Настройка robots.txt
В файле robots.txt мы можем настроить правила, по которым мы можем закрыть дублирующийся контент от роботов поисковых систем. Сделать это мы может с помощью директивы Disallow. Этот способ привычен для многих вебмастеров, так как он удобен и нет необходимости прописывать код в HTML. Итак, для того, чтобы прописать правила нам необходимо узнать какие страницы дублируются на сайте. Стоит отметить, что:
- / — запрет на обход целой страницы;
- /catalog – запрет на обход страниц, адрес которых начинается с /catalog;
- /catalog/* — запрет на обход страниц, адрес которые начинаются на /catalog и другая любая последовательность символов;
- * — означает любую последовательность символов;
- $ — избирательный подход к индексации, исключение из правил;
- *@* — запрет на определенные символы, встречающихся в URL – сайта.
Примером запрета на индексацию дублирующихся страниц могут быть прописанные следующие правила.
Disallow: /set_filter=* — это правило для уникальных страниц;
Disalow: /catalog/*?* — запрет на индексирование динамических страниц;
Disallow: /filter/* — запрет на индексирование страниц с фильтром.
Способ №3. 301 редирект
Редирект означает перенаправление пользователей и поисковых систем на другой URL. Если редирект настроен правильно, то пользователю это переадресация совершенно не мешает. И продвижению кстати тоже. Прописывается он с помощью файла .htaccess. В этом файле прописываем, какие страницы, на какие перенаправлять.
Пример склейки страницы с www на без www:
RewriteCond %{HTTP_HOST} ^www.site\.com$[NC]
RewriteRule ^(.*)$http://site.com/$1 [R=301.L]
Не стоит забывать о том, что дубликаты страниц могут плохо сказаться на продвижении сайта. Но удалять их сразу не стоит, так как данные страницы могут находиться в топе запросов. Так что, прежде чем удалять страницу обязательно проверьте ее с помощью Serpstat, чтобы не вылететь из топа.