Файл robots.txt — текстовый документ в корне сайта, через который владелец указывает поисковым роботам, какие страницы и разделы можно сканировать, а какие — нет. Это один из старейших инструментов технического SEO, появившийся в 1994 году и используется до сих пор. Неправильный robots.txt может закрыть весь сайт от индексации одной строкой; правильно настроенный — экономит краулинговый бюджет и направляет алгоритм на важные страницы.
Что такое robots.txt
Robots.txt — текстовый файл в корне сайта, который содержит инструкции для поисковых роботов. Через директивы файла владелец сайта говорит роботам: «эти разделы можно сканировать, эти — нельзя, вот карта сайта, по которой удобно ходить». Стандарт robots.txt известен как Robots Exclusion Protocol и поддерживается всеми крупными поисковыми системами: Google, Яндекс, Bing, DuckDuckGo.
Robots.txt — это первый файл, который поисковый робот запрашивает при заходе на сайт. Корневой каталог — единственное место, где этот файл ищется. Robots.txt поисковый робот запрашивает при заходе на сайт. По адресу https://site.by/robots.txt робот считывает правила и дальше работает в соответствии с ними. Если файл отсутствует или возвращает ошибку — робот считает, что разрешено сканировать всё.
Robots.txt управляет обходом, не индексацией (индексирование закрывается отдельно через meta noindex). Закрытая в robots.txt страница не сканируется, но может попасть в индекс через внешние ссылки — без содержимого, только URL и анкор. Для гарантированного исключения из индекса используется meta robots noindex или HTTP-заголовок X-Robots-Tag.
Различие между управлением обходом и управлением индексацией — базовое различие в работе robots.txt. Файл robots.txt — инструмент управления обходом. Технические страницы (корзина, личный кабинет, поиск по сайту, параметры фильтров) закрываются от обхода, чтобы не тратить краулинговый бюджет. Удалить уже проиндексированные страницы через robots.txt нельзя — для этого нужны meta robots или 410 Gone.
Где находится файл и как его открыть
Файл robots.txt всегда располагается в корне домена, доступен по адресу https://site.by/robots.txt. Никакие другие пути не работают — даже https://site.by/files/robots.txt или https://blog.site.by/robots.txt для основного сайта робот не найдёт. Для поддоменов нужен отдельный robots.txt в корне поддомена.
Проверить наличие файла можно несколькими способами:
- Через браузер. Открыть
https://site.by/robots.txt— должен отобразиться текстовый файл с правилами. Если открывается главная страница сайта или 404 — файла нет. - Через Яндекс.Вебмастер. Раздел «Инструменты → Анализ robots.txt». Показывает содержимое файла, проверяет синтаксис, позволяет протестировать конкретные URL — разрешён ли их обход.
- Через Google Search Console. Раздел «Настройки → robots.txt» (новый интерфейс) показывает последнюю обнаруженную версию файла, статус доступности, ошибки парсинга.
- Через FTP или панель хостинга. Файл лежит в корневом каталоге сайта (обычно
public_html,wwwилиhtdocs). Редактируется в любом текстовом редакторе.
Если файла нет, нужно создать его в текстовом редакторе (Notepad, Sublime Text, VS Code) с кодировкой UTF-8 без BOM и загрузить в корень сайта. В большинстве CMS robots.txt управляется через SEO-плагины (Yoast SEO, Rank Math, All in One SEO для WordPress; встроенный модуль в Bitrix) — править файл вручную не нужно, достаточно настроек в админке.
Базовый синтаксис и директивы
Robots.txt — простой текстовый формат с набором директив. Каждая директива — отдельная строка. Группы директив привязываются к конкретному роботу через User-agent.
Основные директивы robots.txt:
| Директива | Что делает | Пример |
|---|---|---|
| User-agent | Указывает, к какому роботу относится блок правил | User-agent: * (все роботы)User-agent: Yandex |
| Disallow | Запрещает обход указанного пути | Disallow: /admin/Disallow: /*.pdf$ |
| Allow | Разрешает обход (важно при наличии более широкого Disallow) | Allow: /uploads/public/ |
| Sitemap | Указывает URL карты сайта | Sitemap: https://site.by/sitemap.xml |
| Crawl-delay | Минимальная задержка между запросами робота (Яндекс) | Crawl-delay: 2 |
| Clean-param | Указывает GET-параметры, которые робот игнорирует при склейке URL (только Яндекс) | Clean-param: utm_source&utm_medium |
Простейший правильный robots.txt для большинства бизнес-сайтов выглядит так:
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Disallow: /*?utm_
Sitemap: https://site.by/sitemap.xmlЗдесь запрещён обход административной зоны, корзины, оформления заказа, страницы поиска и URL с UTM-метками. Указана карта сайта. Минимальный, но рабочий вариант для большинства проектов.
Как составить robots.txt пошагово
Задача «как настроить robots.txt» укладывается в 5 шагов:
Шаг 1. Определить, какие разделы должны быть закрыты. Стандартный список: административная зона CMS, корзина и оформление заказа, личный кабинет пользователя, страницы внутреннего поиска, технические страницы (404, 500), параметры фильтров и сортировки в каталоге, страницы пагинации в некоторых случаях.
Шаг 2. Решить, какие разделы остаются открытыми. Все коммерческие и информационные страницы, категории каталога, карточки товара, главная, страницы услуг, блог, контакты, страница «О компании» — всё это должно быть открыто для индексации.
Шаг 3. Написать директивы. Один общий блок User-agent: * с правилами для всех роботов. При необходимости — отдельные блоки для Yandex (если используются директивы, уникальные для Яндекса, — Clean-param) или для Googlebot (если нужны разные правила).
Шаг 4. Добавить ссылку на карту сайта. Директива Sitemap: с полным URL до файла sitemap.xml. Если карт сайта несколько (например, отдельные для статей и товаров) — указываются все.
Шаг 5. Загрузить файл в корень сайта и проверить. Через FTP, панель хостинга или CMS. Проверка — через Яндекс.Вебмастер и Google Search Console.
Готовые шаблоны для CMS
WordPress. User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /?s=
Disallow: /search/
Disallow: /*?utm_
Allow: /wp-admin/admin-ajax.php
Sitemap: https://site.by/sitemap_index.xml
На WordPress управление robots.txt удобнее всего через плагины Yoast SEO или Rank Math. Они создают виртуальный robots.txt и подставляют его при обращении к /robots.txt. Ручной файл в корне сайта при этом не нужен — виртуальный имеет приоритет.
1С-Битрикс. User-agent: *
Disallow: /bitrix/
Disallow: /local/
Disallow: /personal/
Disallow: /cart/
Disallow: /order/
Disallow: /auth/
Disallow: /search/
Disallow: /*?PAGEN
Disallow: /*?sort
Disallow: /*?filter
Disallow: /*?utm_
Allow: /bitrix/components/
# Host — устаревшая директива, в новых проектах не нужна
# Host: https://site.by
Sitemap: https://site.by/sitemap.xml
В Битрикс robots.txt управляется через модуль «Поисковая оптимизация → Настройка robots.txt» в админке.
Tilda. В Tilda robots.txt генерируется автоматически. Базовые директивы (закрытие административной зоны, открытие основного контента) уже прописаны. Дополнительные правила добавляются через «Настройки сайта → SEO → robots.txt».
MODX
User-agent: *
Disallow: /manager/
Disallow: /assets/
Disallow: /core/
Disallow: /connectors/
Disallow: /*?utm_
Sitemap: https://site.by/sitemap.xmlКак проверить robots.txt
После создания и загрузки файла обязательно проверяется его корректность. Несколько способов:
Яндекс.Вебмастер: «Анализ robots.txt». Раздел «Инструменты → Анализ robots.txt». Загружает файл сайта, показывает все директивы, выделяет ошибки синтаксиса. Дополнительно — поле «Список URL» для проверки конкретных адресов: можно ввести URL и увидеть, разрешён ли он для обхода или закрыт.
Google Search Console: «Robots.txt Tester». В новом интерфейсе Search Console — раздел «Настройки → robots.txt». Показывает последнюю обнаруженную Google версию файла, его статус, ошибки. Старый интерфейс Search Console содержит более удобный инструмент тестирования URL.
Screaming Frog. При сканировании сайта учитывает robots.txt и помечает URL, заблокированные от обхода. Удобен для аудита: можно увидеть, какие именно страницы попадают под директивы Disallow.
Онлайн-валидаторы. Сторонние сервисы (TechnicalSEO.com Robots.txt Tester, Merkle SEO Tools) — для быстрой проверки без авторизации в Яндекс.Вебмастере или Search Console.
Что обязательно проверить после внесения изменений: открывается ли robots.txt в браузере по адресу /robots.txt, нет ли синтаксических ошибок в Яндекс.Вебмастере, не заблокированы ли коммерческие разделы (главная, категории, карточки товара), указана ли актуальная ссылка на sitemap.xml.
Типичные ошибки
| Ошибка | Последствие | Решение |
|---|---|---|
Забытый Disallow: / после миграции с тестового сервера | Полное исчезновение сайта из индекса за 2–4 недели | Чек-лист пост-миграционного аудита: проверка /robots.txt сразу после переноса |
Закрытие /wp-content/ целиком на WordPress | Блокировка обхода изображений, CSS, JS — ухудшение отрисовки страниц при обработке Google | Закрывать только /wp-content/plugins/ и /wp-content/cache/, оставляя /wp-content/uploads/ открытым |
| Кириллические URL в Disallow без URL-кодирования | Директива не работает, потому что роботы видят URL в percent-encoded формате | Использовать URL-encoded форму: Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3/ вместо Disallow: /каталог/ |
| Ожидание удаления страниц из индекса через robots.txt | Страницы остаются в индексе как «зомби-URL» без содержимого | Сначала meta noindex при открытом доступе, после удаления из индекса — Disallow |
| Конфликт между Disallow и Allow для одного пути | Поведение зависит от робота: Яндекс выбирает более длинное правило, Google — более специфичное | Чёткая структура: сначала широкий Disallow, потом точечный Allow для исключений |
| Отсутствие директивы Sitemap | Робот не находит карту сайта автоматически, индексация новых страниц замедляется | Обязательная строка Sitemap: https://site.by/sitemap.xml в конце файла |
| Robots.txt на поддомене закрыт целиком вместо открытия конкретных разделов | Поддомен пропадает из индекса, теряется трафик на блог или региональную версию | Отдельный robots.txt для каждого поддомена с правилами под его контент |
Часто задаваемые вопросы
Обязателен ли файл robots.txt для сайта?
Технически — нет. Без robots.txt роботы считают, что разрешено сканировать всё, и обходят все доступные страницы. Но для коммерческого сайта файл обязателен: даже простой robots.txt с указанием на sitemap.xml и закрытием технических разделов экономит краулинговый бюджет и упрощает работу роботов.
Сколько времени уходит на применение изменений в robots.txt?
Поисковые роботы перечитывают robots.txt при каждом заходе на сайт, но кэшируют его на сутки. Реальное применение изменений — от 1 до 7 дней в зависимости от частоты переобхода. Принудительное обновление возможно через Яндекс.Вебмастер (раздел «Анализ robots.txt → Передать») и Google Search Console.
Можно ли закрыть сайт от конкретного робота?
Да, через директиву User-agent с указанием имени робота. Например, User-agent: AhrefsBot с Disallow: / закроет сайт от сканирования сервисом Ahrefs. Полный список имён роботов крупных поисковиков и SEO-сервисов — в их официальной документации.
Чем отличается Disallow в robots.txt от meta noindex?
Disallow управляет обходом — робот не заходит на страницу. Meta noindex управляет индексацией — робот заходит на страницу, видит мета-тег и не добавляет страницу в индекс. Для удаления страницы из индекса нужен meta noindex (при открытом доступе для робота), для экономии бюджета обхода — Disallow.
Влияет ли robots.txt на ранжирование?
Прямо — нет, это не фактор ранжирования. Косвенно — да: неправильный robots.txt может заблокировать важные разделы, что приведёт к выпадению из индекса. Правильно настроенный — экономит краулинговый бюджет и направляет роботов на коммерчески значимые страницы.
Нужны ли отдельные правила для Yandex и Google?
В большинстве случаев — нет, достаточно общего блока User-agent: *. Отдельный блок User-agent: Yandex нужен для специфичных директив Clean-param (Яндекс) или Host (устарела, но иногда используется). Отдельный блок User-agent: Googlebot — редко, в большинстве случаев Google поддерживает общие директивы.
Что делать, если robots.txt пустой или возвращает 404?
Создать файл с минимальным содержанием: User-agent: * в первой строке, Disallow: (пустой Disallow разрешает всё) во второй, Sitemap: с адресом карты сайта в третьей. Это рабочий минимум, который улучшает работу роботов с сайтом и не несёт риска что-то случайно закрыть.
Существуют ли лимиты на размер robots.txt?
Google поддерживает файлы до 500 КБ. Яндекс — до 32 КБ (всё, что превышает 32 КБ, игнорируется). Для большинства сайтов это с большим запасом; файл редко превышает 1–5 КБ.
Как указать директиву Sitemap, если карт сайта несколько?
В robots.txt можно указать любое количество строк Sitemap:. Под каждый файл sitemap — отдельная строка. Альтернатива — индекс-файл sitemap (sitemap_index.xml), который ссылается на все остальные карты, и в robots.txt указывается только он.



