Как индексируются сайты в Яндексе и Google: процесс индексации пошагово

Индексация сайта — процесс, при котором поисковая система обходит страницы, изучает их содержание и добавляет в свою базу данных для последующего показа в выдаче. Без индексации сайт не существует для поиска: ни одна страница не появится в результатах Google или Яндекса. Это первый барьер технического SEO — пока он не преодолён, заниматься ранжированием, ключевыми словами и трафиком бессмысленно.

Что такое индексация сайта

Индексация сайта (от англ. indexing) — процесс, в ходе которого поисковая система добавляет страницы сайта в свою базу данных (индекс). Только страницы из индекса могут появиться в поисковой выдаче по запросам пользователей. Если страница не проиндексирована, для поиска её не существует. Индексация страниц — это обязательный этап перед любым появлением в выдаче.

В обиходе термин «индексация» иногда используют шире, объединяя весь процесс взаимодействия поисковика с сайтом: от первого визита робота до появления страниц в выдаче. Технически индексация — это только один из этапов: ему предшествует сканирование, а после идёт ранжирование. Различия между этими тремя этапами — основа понимания SEO с технической стороны.

Размер индекса у Google и Яндекса — десятки миллиардов страниц. Попасть в индекс — это право участвовать в выдаче, а не гарантия позиций. Дальше идёт борьба за позицию, в которой задействованы сотни факторов ранжирования.

Для собственника бизнеса индексация — базовый показатель здоровья сайта. Если в индексе должно быть 500 страниц, а Search Console показывает 47, у проекта серьёзные технические проблемы — решать их нужно до начала работ по ранжированию.

Три этапа работы поисковика

Как индексируется сайт — это вопрос трёх последовательных этапов: сканирование, индексация, ранжирование. Каждый из них выполняется поисковой системой автоматически, но решает свою задачу. Различение этих этапов помогает точно ставить задачи разработке и контролировать прогресс по техническому SEO.

Сканирование (crawling)

Поисковая система отправляет на сайт автоматическую программу — краулер (другие названия: паук, бот, поисковый робот). У Google это Googlebot, у Яндекса — YandexBot. Краулер скачивает HTML-код страниц, переходит по ссылкам, обнаруживает новые URL.

Сканирование — это не индексация. Краулер может обойти страницу, но не добавить её в индекс — если на странице noindex, она дубль, имеет слишком тонкое содержание или несёт другие негативные сигналы.

У каждого сайта есть «краулинговый бюджет» (crawl budget) — лимит страниц, которые поисковая система готова обходить за единицу времени. На небольших сайтах лимит избыточен и не накладывает ограничений. На сайтах с десятками и сотнями тысяч страниц краулинговый бюджет становится узким местом: робот не успевает обойти все страницы, и часть из них долго не попадает в индекс.

Индексация (indexing)

После сканирования поисковая система определяет, добавлять страницу в индекс или нет. На этом этапе анализируется содержание страницы, мета-теги, canonical, наличие дублей, технические сигналы (noindex, X-Robots-Tag), HTTP-код ответа сервера.

Страница попадает в индекс, если: HTTP-код 200 (OK), нет директивы noindex, содержание уникальное или canonical указывает на эту страницу, само содержание достаточно осмысленное.

Страница не индексируется, если возвращает 404 (не найдено), 410 (удалено навсегда), 301 или 302 (редирект), содержит noindex, помечена canonical на другой URL, имеет слишком тонкое содержание или признаки автогенерации.

Ранжирование (ranking)

После того как страница в индексе, поисковая система может показывать её в результатах по релевантным запросам. На этом этапе работают сотни факторов: текстовая релевантность, ссылки, поведенческие сигналы, E-E-A-T, технические параметры скорости и UX.

Ранжирование — это про позицию в выдаче. Индексация — про сам факт присутствия в базе. Без первого этапа второй невозможен, но и наличие в индексе не гарантирует попадания в топ.

Частая ошибка холодной аудитории — путать индексацию и ранжирование. Если сайт не в топе, но в индексе — это вопрос работы над факторами ранжирования. Если сайт вне индекса — это вопрос технических настроек; до их решения работа над ранжированием не имеет смысла.

Инструменты управления индексацией

Поисковики позволяют владельцу сайта явно управлять индексацией страниц через несколько технических инструментов. Их правильная настройка — основа технического SEO.

robots.txt

Текстовый файл в корне сайта (адрес: /robots.txt), который указывает поисковым роботам, какие разделы можно сканировать, а какие — нет.

Базовый синтаксис:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Allow: /

Sitemap: https://example.by/sitemap.xml

robots.txt управляет сканированием, а не индексацией. Закрытая в robots.txt страница может попасть в индекс, если на неё есть внешние ссылки — Google добавит URL без содержания. Чтобы гарантированно закрыть страницу от индексации, нужен мета-тег noindex; при этом она должна быть открыта в robots.txt, иначе робот не увидит сам тег.

sitemap.xml

XML-файл со списком всех важных страниц сайта — карта сайта в техническом смысле. Помогает поисковикам быстрее находить новые и обновлённые URL. Особенно полезен для крупных сайтов с глубокой структурой, где не все страницы доступны через 1–2 клика от главной.

Стандартный sitemap.xml содержит URL, дату последнего обновления (lastmod), частоту изменений (changefreq, опционально), приоритет (priority, опционально). Для больших проектов sitemap делится на несколько файлов и собирается в sitemap index.

Sitemap не гарантирует индексацию — это рекомендация. Но без него поисковики могут пропустить часть страниц, особенно глубоко расположенные в структуре сайта.

Meta robots и X-Robots-Tag

Мета-тег в HTML-коде страницы:

<meta name="robots" content="noindex, nofollow">

Основные директивы:

index / noindex — индексировать страницу или нет
follow / nofollow — переходить по ссылкам со страницы или нет
noarchive — не сохранять в кеш поисковика
nosnippet — не использовать содержание в сниппете выдачи

X-Robots-Tag — аналогичная директива в HTTP-заголовке. Применяется для нетекстовых файлов (PDF, изображения), где нельзя добавить мета-тег в HTML.

Типовые сценарии применения noindex: страницы пагинации второго порядка и дальше, страницы фильтров каталога с тонким содержанием, технические страницы (вход в аккаунт, корзина, оформление заказа), тестовые версии и зоны разработки.

canonical URL

Атрибут rel="canonical" в <head> страницы:

<link rel="canonical" href="https://example.by/glavnaya-stranica/">

Указывает поисковику, какая версия страницы — основная среди возможных дублей. Используется когда один товар доступен по нескольким URL (категория, фильтр, поиск); страница с параметрами (?utm_source=, ?sort=price) ведёт на тот же контент, что и без параметров; HTTPS и HTTP версии существуют параллельно.

Canonical — это указание для поисковика, а не строгий запрет. Алгоритм может проигнорировать canonical, если найдёт сильные противоречащие сигналы — например, существенно разный контент на «дубле».

IndexNow и инструменты быстрой индексации

IndexNow — протокол, инициированный Microsoft Bing и поддержанный Яндексом. Позволяет уведомлять поисковики о новых и изменённых страницах в реальном времени, без ожидания планового обхода краулером.

У Google аналог — Indexing API, но он официально предназначен только для страниц с вакансиями и онлайн-трансляциями. Для остальных страниц Google рекомендует использовать sitemap, переобход через Search Console и естественный обход краулера.

В Яндекс.Вебмастере есть функция «Переобход страниц» — ручная заявка на повторное сканирование конкретных URL. Лимит — несколько десятков URL в день для большинства сайтов.

Особенности индексации в Google и Яндексе

Индексация в Яндексе и Google построена на похожих принципах, но между двумя системами есть несколько отличий, которые влияют на работу с техническим SEO.

Скорость индексации. Google обычно индексирует новые страницы быстрее: для активного сайта со здоровой техникой — от нескольких часов до 1–2 дней. Яндекс работает медленнее, особенно с молодыми сайтами: типичный срок — от нескольких дней до 2–3 недель. После апдейтов поисковых баз Яндекса (АП — «апдейт») часть страниц может появиться в индексе одновременно.

Mobile-first indexing (Google). С 2019 года Google использует мобильную версию сайта как основную для индексации. Если мобильная и десктопная версии различаются — для индекса берётся мобильная. Это означает: контент, который есть только на десктопе, в индекс не попадёт.

JavaScript-рендеринг. Google умеет рендерить JavaScript и индексировать контент, формируемый на клиенте, но с задержкой. Сначала индексируется HTML, затем запускается рендеринг и индексируется JS-контент. Для SEO-критичных страниц рекомендуется server-side rendering (SSR) или статика. Яндекс с JS-рендерингом справляется хуже: контент, который появляется только после выполнения скриптов, в Яндексе может не индексироваться вовсе.

Crawl-delay. В Яндексе можно указать в robots.txt задержку между обходами:

Crawl-delay: 2

Google эту директиву игнорирует; для управления скоростью используется настройка в Search Console.

Для проектов под белорусский рынок (Google 65–75%, Яндекс 25–30%) технические настройки строятся под Google как более строгого и быстрого индексатора. Параллельно проверяется работа в Яндекс.Вебмастере, чтобы не упустить специфику Яндекса.

Как проверить и ускорить индексацию

Контроль индексации — отдельная регулярная задача. Без неё новые страницы могут месяцами не попадать в выдачу, а проблемные — оставаться в индексе и тянуть позиции вниз.

Проверка через оператор site:

Простейший способ — ввести в Google или Яндексе:

site:example.by

Поисковая система покажет страницы сайта, которые есть в её индексе. Это быстрая оценка масштаба, но не точное число — для официальных данных используются Search Console и Вебмастер.

Google Search Console

Раздел «Индексирование» → «Страницы» показывает, сколько страниц в индексе, сколько исключено и по каким причинам. Типичные категории исключённых страниц: «Просканировано, но не проиндексировано», «Обнаружена, не проиндексирована», «Альтернативная страница с тегом canonical», «Страница с переадресацией».

Для отдельных URL — инструмент «Проверка URL»: показывает статус конкретной страницы, причины исключения, дату последнего обхода. Через Search Console можно отправить страницу на индексацию — кнопка «Запросить индексирование» после проверки URL. Лимит — несколько десятков URL в день.

Яндекс.Вебмастер

Раздел «Индексирование» → «Страницы в поиске» показывает статус каждой проиндексированной страницы. Раздел «Переобход страниц» позволяет отправить заявку на повторное сканирование. Раздел «Статистика обхода» показывает историю визитов YandexBot.

Через раздел «Файлы Sitemap» отправляется sitemap.xml; через «Удалить URL» — заявка на исключение страницы из индекса.

Способы ускорить индексацию

Отправка sitemap.xml в Search Console и Вебмастере
Подключение IndexNow на сайте — Яндекс и Bing получают уведомления о новых URL мгновенно
Запрос индексирования через Search Console для приоритетных страниц
Переобход страниц через Яндекс.Вебмастер
Внутренние ссылки на новые страницы с активно посещаемых разделов (главная, ближайшие категории)
Внешние ссылки с других сайтов — даже одна авторитетная ссылка ускоряет обход
Публикация ссылки в социальных сетях с открытым доступом (X, LinkedIn, ВКонтакте)

Типичные проблемы индексации

Список распространённых причин, по которым страницы не индексируются или индексируются некорректно. Каждая встречается на коммерческих проектах регулярно.

Проблема	Последствие	Решение
Дубли страниц без canonical	Поисковик не определяет, какую версию индексировать, в индексе несколько копий с разделённой авторитетностью	Установить canonical на основную версию; для дублей через параметры — настроить обработку параметров в Search Console
Закрытие нужных страниц в robots.txt	Краулер не сканирует страницы, они не попадают в индекс — даже если на них есть внутренние ссылки	Регулярно проверять robots.txt, использовать инструмент «Файл robots.txt» в Search Console
Noindex на важных страницах	Часто появляется случайно при копировании шаблона или после миграции; страницы не попадают в индекс	Проверять meta robots на всех типах страниц после релиза изменений
Тонкое содержание на тысячах страниц	Google и Яндекс не индексируют такие страницы или быстро удаляют их из индекса при шаблонном или коротком контенте	Объединять тонкие страницы, дополнять контентом, либо ставить noindex на технические страницы
Не подан или устаревший sitemap.xml	Поисковик не получает актуального списка страниц, новые URL долго не находятся	Настроить автоматическую генерацию sitemap при добавлении страниц; подать через Search Console и Вебмастер
Медленный сервер и таймауты	Краулер не дожидается ответа, помечает страницу как недоступную; индексация замедляется	Оптимизировать скорость сервера, использовать кэширование, минимизировать тяжёлые запросы
Контент только в JavaScript без SSR	Яндекс не видит контент, Google индексирует с задержкой; страницы остаются за пределами выдачи неделями	Реализовать server-side rendering (SSR) или статический пререндеринг для критичного контента
Цепочки редиректов из 3+ переходов	Краулер обрывает обход, не достигает финальной страницы; индексация прерывается	Сокращать цепочки до одного редиректа: исходный URL → финальный URL без промежуточных

Часто задаваемые вопросы

Сколько времени занимает индексация нового сайта?

Для нового сайта — от нескольких дней до 2–4 недель в Google, от 2 недель до 1–2 месяцев в Яндексе. Сроки зависят от активности входящих ссылок (наличие хотя бы одной-двух внешних ссылок ускоряет процесс), подключённых Search Console и Вебмастера, наличия sitemap.xml. У сайта с правильной технической настройкой и минимальными внешними сигналами первые страницы появляются в индексе через 5–10 дней.

Что такое краулинговый бюджет и кому о нём думать?

Краулинговый бюджет (crawl budget) — лимит страниц, которые поисковая система готова сканировать на сайте за определённый период. Для сайтов до 5000–10 000 страниц лимит практически не ощущается — Googlebot и YandexBot обходят такие проекты целиком. Для крупных интернет-магазинов, агрегаторов, новостных порталов с десятками и сотнями тысяч страниц краулинговый бюджет становится фактором: робот не успевает обойти всё, и часть страниц подолгу остаётся вне индекса. Управление бюджетом — работа над тем, чтобы Googlebot не тратил ресурс на технические и нерелевантные страницы (фильтры, сортировки, технические URL).

Чем отличаются noindex и Disallow в robots.txt?

Disallow в robots.txt — запрет на сканирование. Робот не заходит на страницу и не читает её содержание. Noindex в мета-теге или HTTP-заголовке — запрет на индексацию. Робот заходит, читает содержание, видит noindex и не добавляет страницу в индекс. Disallow не гарантирует отсутствие в индексе: Google может добавить URL без содержания, если на него есть внешние ссылки. Для гарантированного скрытия используется именно noindex, причём страница должна быть открыта в robots.txt — иначе робот не увидит сам тег.

Как ускорить индексацию новой страницы?

Несколько способов работают параллельно: отправить URL через «Запросить индексирование» в Search Console (Google), отправить через «Переобход страниц» в Вебмастере (Яндекс), включить URL в sitemap.xml и обновить его дату, добавить внутренние ссылки на новую страницу с уже проиндексированных разделов (главная, ближайшие категории, недавние статьи), опубликовать ссылку в социальных сетях с открытым доступом. Если на сайте настроен IndexNow, Яндекс и Bing узнают об обновлениях автоматически.

Почему страница не индексируется в Google?

Самые частые причины: noindex в мета-теге или HTTP-заголовке, страница закрыта в robots.txt (что не даёт роботу её увидеть и принять решение), HTTP-код ответа отличается от 200 (404, 410, редиректы), canonical указывает на другой URL, тонкое или дублирующее содержание, проблемы со скоростью сервера, JavaScript-зависимости без серверного рендеринга. Точную причину для каждой страницы показывает инструмент «Проверка URL» в Search Console.

Как узнать, сколько страниц моего сайта в индексе?

Точные данные — в Google Search Console (раздел «Индексирование» → «Страницы») и Яндекс.Вебмастере (раздел «Индексирование» → «Страницы в поиске»). Быстрая ориентировочная оценка — через оператор site:домен в строке поиска: site:example.by. Это покажет приблизительное число страниц в индексе, но не учитывает фильтры и не отображает причины исключения для отдельных URL.

Нужно ли удалять старые страницы из индекса?

Не всегда. Старые страницы с актуальным контентом стоит оставлять — они приносят трафик и накапливают внутреннюю авторитетность. Удалять из индекса нужно: страницы с устаревшим, неточным или вводящим в заблуждение содержанием; технические страницы, попавшие в индекс случайно; страницы товаров, которые больше не продаются и не вернутся в ассортимент. Для временно отсутствующих товаров лучше отметить статус «нет в наличии», а не удалять страницу. Само удаление — через 404/410 ответ сервера или noindex с последующим запросом удаления через Search Console.

Влияет ли число страниц в индексе на ранжирование?

Прямой связи между числом проиндексированных страниц и позициями нет. Большой индекс сам по себе не делает сайт сильнее. Качество индекса влияет: если в индексе много слабых, тонких, дублирующих страниц, это размывает общую оценку сайта и ослабляет сильные страницы. Лучше иметь 100 содержательных проиндексированных страниц, чем 5000 страниц вместе с шаблонными фильтрами, пагинацией без смысла и техническими URL.

Можно ли запретить индексацию всего сайта?

Да, на этапе разработки и тестирования это стандартная практика. Запретить индексацию всего сайта можно тремя способами. Первый — мета-тег <meta name="robots" content="noindex"> на всех страницах. Второй — HTTP-заголовок X-Robots-Tag со значением noindex. Третий — Disallow: / в robots.txt, который запрещает сканирование (но не гарантирует исключение из индекса, если у страниц есть внешние ссылки). На тестовых поддоменах и dev-средах обязательно используется одновременно noindex и базовая HTTP-аутентификация, чтобы тестовая версия не попала в индекс случайно.