Интернет-магазинам стоит обратить внимание на страницы, где представлены "шаги" оформления заказа, или страницы с отправками различных форм - они не должны быть доступны для поискового робота. Выходит, что файл robots.txt - важная часть внутренней поисковой оптимизации сайта. И как же сделать так, чтобы страницы с качественным контентом увидела целевая аудитория, а малоценные страницы не мешали индексации всего ресурса?
Для этого были придуманы специальные "директивы". Благо, их немного и легко запомнить:
- User-agent - используется для обращения к поисковому роботу.
Так, например, директива User-agent:* будет означать обращение ко всем роботам одновременно. Отдельно для роботов Google директива будет выглядеть так: User-agent: Googlebot, а для всех роботов Яндекса - User-agent: Yandex.- Disallow - используется как раз для того, чтобы скрыть определенные страницы сайта.
Например, чтобы скрыть страницы поиска на сайте достаточно прописать строчку Disallow: /search. Для того, чтобы скрыть страницы личных кабинетов пользователей, подойдут директивы Disallow: /account или, например, Disallow: /profile, в зависимости от url-адресов на Вашем сайте.- Allow - как можно догадаться, это наоборот разрешающая директива.
В основном, она используется в том случае, когда нужно открыть для индексации только некоторые части раздела на сайте или, например, каталога.- Host - с помощью этой директивы Вы можете указать роботу корректное зеркало Вашего сайта.
Например, получится директива вида Host: https://www.вашдомен.ru.- Sitemap - используется для того, чтобы сообщить поисковым роботам, по какому url-адресу находится карта Вашего сайта.
Пользуясь случаем, стоит отметить, что в файл с картой сайта включаются все url-адреса обязательные для индексации.- Clean-param - эта директива необходима для избежания дублирования контента.
Она борется с get-параметрами, которые просто неизбежно появятся, если в каталоге Вашего сайта присутствуют различные фильтры.Сделать файл robots.txt можно вручную прямо в Блокноте, но все же стоит отметить, что создается этот документ
в кодировке UTF-8 и действует для протоколов http, https, а также FTP. Расположить robots.txt необходимо в корневом каталоге. И доступен он должен быть по url-адресу типа: https://вашдомен.ru/robots.txt