Что такое robots.txt: синтаксис, директивы и правильная настройка для SEO

Файл robots.txt — текстовый документ в корне сайта, через который владелец указывает поисковым роботам, какие страницы и разделы можно сканировать, а какие — нет. Это один из старейших инструментов технического SEO, появившийся в 1994 году и используется до сих пор. Неправильный robots.txt может закрыть весь сайт от индексации одной строкой; правильно настроенный — экономит краулинговый бюджет и направляет алгоритм на важные страницы.

Что такое robots.txt

Robots.txt — текстовый файл в корне сайта, который содержит инструкции для поисковых роботов. Через директивы файла владелец сайта говорит роботам: «эти разделы можно сканировать, эти — нельзя, вот карта сайта, по которой удобно ходить». Стандарт robots.txt известен как Robots Exclusion Protocol и поддерживается всеми крупными поисковыми системами: Google, Яндекс, Bing, DuckDuckGo.

Robots.txt — это первый файл, который поисковый робот запрашивает при заходе на сайт. Корневой каталог — единственное место, где этот файл ищется. Robots.txt поисковый робот запрашивает при заходе на сайт. По адресу https://site.by/robots.txt робот считывает правила и дальше работает в соответствии с ними. Если файл отсутствует или возвращает ошибку — робот считает, что разрешено сканировать всё.

Robots.txt управляет обходом, не индексацией (индексирование закрывается отдельно через meta noindex). Закрытая в robots.txt страница не сканируется, но может попасть в индекс через внешние ссылки — без содержимого, только URL и анкор. Для гарантированного исключения из индекса используется meta robots noindex или HTTP-заголовок X-Robots-Tag.

Различие между управлением обходом и управлением индексацией — базовое различие в работе robots.txt. Файл robots.txt — инструмент управления обходом. Технические страницы (корзина, личный кабинет, поиск по сайту, параметры фильтров) закрываются от обхода, чтобы не тратить краулинговый бюджет. Удалить уже проиндексированные страницы через robots.txt нельзя — для этого нужны meta robots или 410 Gone.

Где находится файл и как его открыть

Файл robots.txt всегда располагается в корне домена, доступен по адресу https://site.by/robots.txt. Никакие другие пути не работают — даже https://site.by/files/robots.txt или https://blog.site.by/robots.txt для основного сайта робот не найдёт. Для поддоменов нужен отдельный robots.txt в корне поддомена.

Проверить наличие файла можно несколькими способами:

Через браузер. Открыть https://site.by/robots.txt — должен отобразиться текстовый файл с правилами. Если открывается главная страница сайта или 404 — файла нет.
Через Яндекс.Вебмастер. Раздел «Инструменты → Анализ robots.txt». Показывает содержимое файла, проверяет синтаксис, позволяет протестировать конкретные URL — разрешён ли их обход.
Через Google Search Console. Раздел «Настройки → robots.txt» (новый интерфейс) показывает последнюю обнаруженную версию файла, статус доступности, ошибки парсинга.
Через FTP или панель хостинга. Файл лежит в корневом каталоге сайта (обычно public_html, www или htdocs). Редактируется в любом текстовом редакторе.

Если файла нет, нужно создать его в текстовом редакторе (Notepad, Sublime Text, VS Code) с кодировкой UTF-8 без BOM и загрузить в корень сайта. В большинстве CMS robots.txt управляется через SEO-плагины (Yoast SEO, Rank Math, All in One SEO для WordPress; встроенный модуль в Bitrix) — править файл вручную не нужно, достаточно настроек в админке.

Базовый синтаксис и директивы

Robots.txt — простой текстовый формат с набором директив. Каждая директива — отдельная строка. Группы директив привязываются к конкретному роботу через User-agent.

Основные директивы robots.txt:

Директива	Что делает	Пример
User-agent	Указывает, к какому роботу относится блок правил	`User-agent: *` (все роботы) `User-agent: Yandex`
Disallow	Запрещает обход указанного пути	`Disallow: /admin/` `Disallow: /*.pdf$`
Allow	Разрешает обход (важно при наличии более широкого Disallow)	`Allow: /uploads/public/`
Sitemap	Указывает URL карты сайта	`Sitemap: https://site.by/sitemap.xml`
Crawl-delay	Минимальная задержка между запросами робота (Яндекс)	`Crawl-delay: 2`
Clean-param	Указывает GET-параметры, которые робот игнорирует при склейке URL (только Яндекс)	`Clean-param: utm_source&utm_medium`

Простейший правильный robots.txt для большинства бизнес-сайтов выглядит так:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Disallow: /*?utm_

Sitemap: https://site.by/sitemap.xml

Здесь запрещён обход административной зоны, корзины, оформления заказа, страницы поиска и URL с UTM-метками. Указана карта сайта. Минимальный, но рабочий вариант для большинства проектов.

Как составить robots.txt пошагово

Задача «как настроить robots.txt» укладывается в 5 шагов:

Шаг 1. Определить, какие разделы должны быть закрыты. Стандартный список: административная зона CMS, корзина и оформление заказа, личный кабинет пользователя, страницы внутреннего поиска, технические страницы (404, 500), параметры фильтров и сортировки в каталоге, страницы пагинации в некоторых случаях.

Шаг 2. Решить, какие разделы остаются открытыми. Все коммерческие и информационные страницы, категории каталога, карточки товара, главная, страницы услуг, блог, контакты, страница «О компании» — всё это должно быть открыто для индексации.

Шаг 3. Написать директивы. Один общий блок User-agent: * с правилами для всех роботов. При необходимости — отдельные блоки для Yandex (если используются директивы, уникальные для Яндекса, — Clean-param) или для Googlebot (если нужны разные правила).

Шаг 4. Добавить ссылку на карту сайта. Директива Sitemap: с полным URL до файла sitemap.xml. Если карт сайта несколько (например, отдельные для статей и товаров) — указываются все.

Шаг 5. Загрузить файл в корень сайта и проверить. Через FTP, панель хостинга или CMS. Проверка — через Яндекс.Вебмастер и Google Search Console.

Готовые шаблоны для CMS

WordPress. User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /?s= Disallow: /search/ Disallow: /*?utm_ Allow: /wp-admin/admin-ajax.php

Sitemap: https://site.by/sitemap_index.xml

На WordPress управление robots.txt удобнее всего через плагины Yoast SEO или Rank Math. Они создают виртуальный robots.txt и подставляют его при обращении к /robots.txt. Ручной файл в корне сайта при этом не нужен — виртуальный имеет приоритет.

1С-Битрикс. User-agent: * Disallow: /bitrix/ Disallow: /local/ Disallow: /personal/ Disallow: /cart/ Disallow: /order/ Disallow: /auth/ Disallow: /search/ Disallow: /*?PAGEN Disallow: /*?sort Disallow: /*?filter Disallow: /*?utm_ Allow: /bitrix/components/

# Host — устаревшая директива, в новых проектах не нужна # Host: https://site.by Sitemap: https://site.by/sitemap.xml

В Битрикс robots.txt управляется через модуль «Поисковая оптимизация → Настройка robots.txt» в админке.

Tilda. В Tilda robots.txt генерируется автоматически. Базовые директивы (закрытие административной зоны, открытие основного контента) уже прописаны. Дополнительные правила добавляются через «Настройки сайта → SEO → robots.txt».

MODX

User-agent: *
Disallow: /manager/
Disallow: /assets/
Disallow: /core/
Disallow: /connectors/
Disallow: /*?utm_

Sitemap: https://site.by/sitemap.xml

Как проверить robots.txt

После создания и загрузки файла обязательно проверяется его корректность. Несколько способов:

Яндекс.Вебмастер: «Анализ robots.txt». Раздел «Инструменты → Анализ robots.txt». Загружает файл сайта, показывает все директивы, выделяет ошибки синтаксиса. Дополнительно — поле «Список URL» для проверки конкретных адресов: можно ввести URL и увидеть, разрешён ли он для обхода или закрыт.

Google Search Console: «Robots.txt Tester». В новом интерфейсе Search Console — раздел «Настройки → robots.txt». Показывает последнюю обнаруженную Google версию файла, его статус, ошибки. Старый интерфейс Search Console содержит более удобный инструмент тестирования URL.

Screaming Frog. При сканировании сайта учитывает robots.txt и помечает URL, заблокированные от обхода. Удобен для аудита: можно увидеть, какие именно страницы попадают под директивы Disallow.

Онлайн-валидаторы. Сторонние сервисы (TechnicalSEO.com Robots.txt Tester, Merkle SEO Tools) — для быстрой проверки без авторизации в Яндекс.Вебмастере или Search Console.

Что обязательно проверить после внесения изменений: открывается ли robots.txt в браузере по адресу /robots.txt, нет ли синтаксических ошибок в Яндекс.Вебмастере, не заблокированы ли коммерческие разделы (главная, категории, карточки товара), указана ли актуальная ссылка на sitemap.xml.

Типичные ошибки

Ошибка	Последствие	Решение
Забытый `Disallow: /` после миграции с тестового сервера	Полное исчезновение сайта из индекса за 2–4 недели	Чек-лист пост-миграционного аудита: проверка `/robots.txt` сразу после переноса
Закрытие `/wp-content/` целиком на WordPress	Блокировка обхода изображений, CSS, JS — ухудшение отрисовки страниц при обработке Google	Закрывать только `/wp-content/plugins/` и `/wp-content/cache/`, оставляя `/wp-content/uploads/` открытым
Кириллические URL в Disallow без URL-кодирования	Директива не работает, потому что роботы видят URL в percent-encoded формате	Использовать URL-encoded форму: `Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3/` вместо `Disallow: /каталог/`
Ожидание удаления страниц из индекса через robots.txt	Страницы остаются в индексе как «зомби-URL» без содержимого	Сначала `meta noindex` при открытом доступе, после удаления из индекса — `Disallow`
Конфликт между Disallow и Allow для одного пути	Поведение зависит от робота: Яндекс выбирает более длинное правило, Google — более специфичное	Чёткая структура: сначала широкий Disallow, потом точечный Allow для исключений
Отсутствие директивы Sitemap	Робот не находит карту сайта автоматически, индексация новых страниц замедляется	Обязательная строка `Sitemap: https://site.by/sitemap.xml` в конце файла
Robots.txt на поддомене закрыт целиком вместо открытия конкретных разделов	Поддомен пропадает из индекса, теряется трафик на блог или региональную версию	Отдельный robots.txt для каждого поддомена с правилами под его контент

Часто задаваемые вопросы

Обязателен ли файл robots.txt для сайта?

Технически — нет. Без robots.txt роботы считают, что разрешено сканировать всё, и обходят все доступные страницы. Но для коммерческого сайта файл обязателен: даже простой robots.txt с указанием на sitemap.xml и закрытием технических разделов экономит краулинговый бюджет и упрощает работу роботов.

Сколько времени уходит на применение изменений в robots.txt?

Поисковые роботы перечитывают robots.txt при каждом заходе на сайт, но кэшируют его на сутки. Реальное применение изменений — от 1 до 7 дней в зависимости от частоты переобхода. Принудительное обновление возможно через Яндекс.Вебмастер (раздел «Анализ robots.txt → Передать») и Google Search Console.

Можно ли закрыть сайт от конкретного робота?

Да, через директиву User-agent с указанием имени робота. Например, User-agent: AhrefsBot с Disallow: / закроет сайт от сканирования сервисом Ahrefs. Полный список имён роботов крупных поисковиков и SEO-сервисов — в их официальной документации.

Чем отличается Disallow в robots.txt от meta noindex?

Disallow управляет обходом — робот не заходит на страницу. Meta noindex управляет индексацией — робот заходит на страницу, видит мета-тег и не добавляет страницу в индекс. Для удаления страницы из индекса нужен meta noindex (при открытом доступе для робота), для экономии бюджета обхода — Disallow.

Влияет ли robots.txt на ранжирование?

Прямо — нет, это не фактор ранжирования. Косвенно — да: неправильный robots.txt может заблокировать важные разделы, что приведёт к выпадению из индекса. Правильно настроенный — экономит краулинговый бюджет и направляет роботов на коммерчески значимые страницы.

Нужны ли отдельные правила для Yandex и Google?

В большинстве случаев — нет, достаточно общего блока User-agent: *. Отдельный блок User-agent: Yandex нужен для специфичных директив Clean-param (Яндекс) или Host (устарела, но иногда используется). Отдельный блок User-agent: Googlebot — редко, в большинстве случаев Google поддерживает общие директивы.

Что делать, если robots.txt пустой или возвращает 404?

Создать файл с минимальным содержанием: User-agent: * в первой строке, Disallow: (пустой Disallow разрешает всё) во второй, Sitemap: с адресом карты сайта в третьей. Это рабочий минимум, который улучшает работу роботов с сайтом и не несёт риска что-то случайно закрыть.

Существуют ли лимиты на размер robots.txt?

Google поддерживает файлы до 500 КБ. Яндекс — до 32 КБ (всё, что превышает 32 КБ, игнорируется). Для большинства сайтов это с большим запасом; файл редко превышает 1–5 КБ.

Как указать директиву Sitemap, если карт сайта несколько?

В robots.txt можно указать любое количество строк Sitemap:. Под каждый файл sitemap — отдельная строка. Альтернатива — индекс-файл sitemap (sitemap_index.xml), который ссылается на все остальные карты, и в robots.txt указывается только он.