robots.txtСтандарт исключения для роботов (robots.txt) – это текстовый файл, главной задачей которого является ограничения доступа для поисковых роботов к содержимому сайта. Для быстрой и корректной индексации сайта необходимо понимать, как правильно настроить robots.txt. В записях прописываются конкретные инструкции, в которых указано, что нужно индексировать, а ненужно. Основные задачи, которые решает robots.txt это:

  • запрет или разрешение к данным раздела сайта;
  • время выдержки роботом между загрузкой;
  • промежуток времени (по Гринвичу) индексирования страницы.

Стандартные и нестандартные директивы

Каждая запись содержит из<поля>:, где поле – стандартная директива (Disallow или User-agent) и<значения>. Через User-agent указывается, кому запретить доступ, а через Disallow на какие разделы сайта.
Также было внедрено расширение под robots.txt, которое к изначальным директивам добавило еще Visit-time (промежуток времени запуска страницы) и Request-rate (количество и частота загружаемых страниц).
Существуют несколько нестандартных команд: Allow, Crawl-deley, Clean-param:

  • Allow: является противоположной по значению директиве Disallow. То есть предоставляет доступ к разделу сайта.
  • Crawl: указывает время необходимое для выдержки перед загрузкой страницы. Это необходимо для предотвращения лишних нагрузок на http-сервер, которые могут возникнуть в случаи частой загрузки.
  • Clean-param: используется для описания динамических параметров на сайте. Эта директива избавляет сервер от загрузки повторяющихся данных и упрощает его работу.

Также стоит учитывать, что Рамблер обрабатывает только стандартные команды.

Примеры инструкций

Запретить доступ конкретному роботу к разделу сайт /admin/
User-agent: googlebot
Disallow: /admin/
Разрешить доступ всем поисковым роботам к разделу сайт /downloads/ в определенный промежуток времени, с интервалом загрузки не больше одной страницы в три секунды:
User-agent: *
Allow: /downloads/
Request-rate: 1/3
Visit-time: 0700-0120 # загружать downloads с промежутком от 7 до 12 часов
Разрешить доступ ко всем разделам сайта с выдержкой загрузки страницы в 5 секунд:
Allow: /
Crawl-delay: 5

Как подключить robots.txt

Для того, что подключить данный документ достаточно поместить его в пределах каталогов сайта. Однако в случае, когда имеется несколько поддоменов, он обязательно должен находиться в корневом каталоге каждого из них. Данный документ дополняет набор стандарта Sitemaps.

Обратный звонок
×
Оформить заявку
×
Отправить сообщение
×