Стандарт исключения для роботов (robots.txt) – это текстовый файл, главной задачей которого является ограничения доступа для поисковых роботов к содержимому сайта. Для быстрой и корректной индексации сайта необходимо понимать, как правильно настроить robots.txt. В записях прописываются конкретные инструкции, в которых указано, что нужно индексировать, а ненужно. Основные задачи, которые решает robots.txt это:
Каждая запись содержит из<поля>:, где поле – стандартная директива (Disallow или User-agent) и<значения>. Через User-agent указывается, кому запретить доступ, а через Disallow на какие разделы сайта.
Также было внедрено расширение под robots.txt, которое к изначальным директивам добавило еще Visit-time (промежуток времени запуска страницы) и Request-rate (количество и частота загружаемых страниц).
Существуют несколько нестандартных команд: Allow, Crawl-deley, Clean-param:
Также стоит учитывать, что Рамблер обрабатывает только стандартные команды.
Запретить доступ конкретному роботу к разделу сайт /admin/
User-agent: googlebot
Disallow: /admin/
Разрешить доступ всем поисковым роботам к разделу сайт /downloads/ в определенный промежуток времени, с интервалом загрузки не больше одной страницы в три секунды:
User-agent: *
Allow: /downloads/
Request-rate: 1/3
Visit-time: 0700-0120 # загружать downloads с промежутком от 7 до 12 часов
Разрешить доступ ко всем разделам сайта с выдержкой загрузки страницы в 5 секунд:
Allow: /
Crawl-delay: 5
Для того, что подключить данный документ достаточно поместить его в пределах каталогов сайта. Однако в случае, когда имеется несколько поддоменов, он обязательно должен находиться в корневом каталоге каждого из них. Данный документ дополняет набор стандарта Sitemaps.