Один из важнейших файлов для корректировки индексации и страниц сайта. Он позволяет как закрывать определенные разделы или страниц от индексации, так и задавать определенный режим нагрузки на сайт при обходе роботом.
Для создания файла роботс тхт нужно иметь под рукой простой текстовый редактор в идеале notepad++ для это нужно сохранить страницу в формате txt файла и озаглавить ее robots.
Основные команды файла robots.txt
User-agent: – имя робота для которого написана инструкция (Yandex, Google, и др.)
Disallow: – запрет на индексацию;
Allow: – разрешение на индексацию;
Sitemap: – карта сайта (указывается адрес по которому находится карта сайта);
Host: – главное зеркало сайта;
Crawl-delay: – время между закачками страниц у робота (помогает разгрузить сервер простановка в секундах от 0,5 до 5 секунд;
Clean-param: – настройка индексации страниц с динамическими параметрами (обычно данный тег редко используется) нужен по большей части для идентификаторов формируемых методом GET, но можно обойтись и просто тегом Disallow.
Спец символы для работы с robots.txt
* — любое значение;
$ — запрет всех значений после символа;
Основные моменты по написанию содержимого файла robots.txt.
- обязательно отдельно прописываем директивы для роботов Yandex;
- если для робота Google предполагается прописывать то же, что и для остальных роботов, то стоит заполнить так: User-agent: * ;
- нельзя использовать перевод строки между директивами ‘User-agent’ и ‘Disallow’ (‘Allow’) это приведет к сбою индексации сайта.
- теги Allow и Disallow сортируем по убыванию, если есть схожие сегменты то их можно заменить на упрощенные связки используя символ /teg/*.
- для Яндекс host пишется непосредственно (без пропуска пустой строки) после директив ‘Disallow'(‘Allow’);
- в директиве host указываем главное зеркало сайта, которое прописано в самом начале ТЗ;
- при использовании тега Sitemap, адрес карты сайта нужно указать в каждом сегменте для роботов;
- Robots.txt превышающий 32 Кб не работает.
Что нужно закрывать:
- страницы поиска;
- страницы сортировки, а также страницы «Показать все»;
- личный кабинет и другие пользовательские данные;
- версия для печати;
- страницы регистрации/авторизации;
- прочие технические страницы (восстановление пароля и т.п.);
- корзина, оформление заказа (часто они могут быть закрыты одним правилом);
- доступ к cms;
- прочие стандартные папки (шаблоны, кэш, компоненты, логи)
То, что требует анализа перед закрытием:
- Страницы типа «висячий узел». Иногда достаточно просто оформить контент такой страницы в общем шаблоне, и тогда ее закрытия от индексации не требуется (например, условия соглашения или другая нужная для пользователей информация). Поэтому решение о закрытии таких страниц нужно принимать только проанализировав каждую такую страницу.
- Страницы с фильтрами. Это требует глубокого анализа. По общему правилу, страницы фильтрации не закрываются, т.к. являются обычно потенциально трафикообразующими. Но если, например, мы на страницах фильтра реализуем ЧПУ, то остальные страницы, чтобы не засорять индекс ПС страницами с нулевой добавочной ценностью, можно закрыть от индексации. Кроме того, даже если ЧПУ не реализовано, можно закрывать от индексации страницы с большим количеством параметров, например, если параметров в URL пять и более. Это уменьшит возможность попадания в индекс страниц с малым или дублированным контентом.