Дубли страниц с URL-параметрами: как найти и устранить — инструкция

Дубли URL с GET-параметрами появляются почти на каждом коммерческом сайте: сортировка каталога, UTM-метки, пагинация, сессионные идентификаторы порождают сотни одинаковых по контенту страниц. Без управления такими дублями ресурс тратит краулинговый бюджет впустую, размывает ссылочный вес и проигрывает позиции конкурентам. Корректная работа с параметрами входит в технический аудит при SEO-продвижении интернет-магазинов и порталов.

Что такое дубли страниц с URL-параметрами

Под GET-параметрами понимают пары «ключ=значение», которые передаются в URL после знака вопроса. Например, адрес example.com/catalog?sort=price&color=red содержит два параметра: sort со значением price и color со значением red. Параметры разделяются амперсандом и могут идти в любом порядке — для пользователя страница остаётся той же, для поисковой системы каждая комбинация выглядит отдельным URL.

Дубли возникают, когда один и тот же контент доступен по нескольким адресам, отличающимся только набором или порядком параметров. Карточка товара с трекинговой меткой ?utm_source=google и без неё — две разные страницы для обходчика, даже если визуально и по содержанию они идентичны. На крупном каталоге количество таких пар легко переваливает за тысячи.

Природа URL-параметров и их роль

GET-параметры применяются в трёх типичных задачах: фильтрация и сортировка контента на стороне сервера, передача аналитических меток для отслеживания источников трафика, идентификация сессии пользователя при отсутствии авторизации. Технически параметры передаются в строке URL и доступны на стороне сервера для обработки.

Управление выдачей. Сортировка по цене, фильтр по бренду, переключение валюты, выбор количества товаров на странице.
Аналитика и атрибуция. UTM-метки (UTM — Urchin Tracking Module, параметры отслеживания источников), параметры gclid от Google Ads, yclid от Яндекс Директа, _openstat.
Технические идентификаторы. Сессионные параметры sessionid или PHPSESSID, ID реферера, метки A/B-тестов, параметры пагинации page.

Не все параметры одинаково опасны для индексации. Часть из них критична для отображения уникального контента (страница 3 пагинации действительно содержит другие товары), часть — служебный шум, который не должен попадать в индекс.

Почему дубли с параметрами вредят SEO

Главная проблема — растрата краулингового бюджета. Поисковый обходчик выделяет на сайт ограниченное число запросов в сутки, и если он тратит их на обход дублей, до новых и обновлённых страниц очередь доходит позже. На крупных каталогах с десятками тысяч URL разница в скорости индексации достигает недель.

Второе следствие — размывание ссылочного веса. Внутренние и внешние ссылки могут указывать на разные версии одной страницы: одна с UTM-меткой из рекламной кампании, другая с параметром сортировки, третья — без параметров. Вес распределяется между ними, и ни одна из версий не получает полного сигнала.

Третье — конкуренция собственных страниц в выдаче. Если в индекс попало несколько вариантов одной карточки товара, поисковая система может ранжировать одну из них вместо «правильной» — например, страницу с устаревшим параметром фильтра, на которой пользователь увидит не тот раздел каталога.

Какие URL-параметры порождают дубли

Полный список параметров на коммерческих сайтах насчитывает десятки вариантов. Для понимания стратегии их полезно разделить на категории по природе и характеру влияния на контент. Часть параметров меняет содержание страницы, часть — только аналитический контекст, часть — техническое состояние сессии пользователя.

Ниже — четыре типичные группы, которые встречаются на большинстве сайтов с пользовательской навигацией. Каждая требует своего подхода к управлению.

Параметры сортировки и фильтрации в каталогах

Самая объёмная группа в интернет-магазинах. Параметры сортировки (sort=price, sort=rating, order=desc) и фильтрации (color=red, brand=samsung, price_from=100) создают экспоненциальное число вариантов URL. Каталог из 1 000 товаров с десятком параметров фильтра порождает миллионы потенциальных URL, из которых для индексации полезен лишь небольшой процент.

Стандартное решение — канонический атрибут с каждой отфильтрованной страницы на «чистую» категорию. Исключение делают для популярных комбинаций фильтров, под которые есть спрос в поиске: «красные кроссовки», «холодильники с морозильной камерой». Такие страницы превращают в самостоятельные посадочные с уникальными мета-тегами и канонической ссылкой на саму себя.

На сайтах с большим числом фильтров часто применяют гибридный подход: первый уровень фильтрации разрешён к индексации с уникальными мета-тегами, последующие комбинации (цвет плюс бренд плюс цена) закрываются от индексации.

UTM-метки и трекинговые параметры

UTM-параметры используются для маркировки источников трафика в системах аналитики. Стандартный набор: utm_source, utm_medium, utm_campaign, utm_content, utm_term. К ним добавляются автоматически проставляемые: gclid (Google Click Identifier), yclid (Яндекс Click ID), fbclid от Facebook, _openstat.

Эти параметры не влияют на содержание страницы — пользователь видит ту же карточку товара или статью независимо от значения метки. Для поисковика каждая комбинация — отдельный URL, и без управления такие страницы могут попадать в индекс наравне с основными.

Универсальное решение — канонический атрибут на «чистую» версию страницы без меток. Дополнительно для Яндекса применяется директива Clean-param в robots.txt, явно перечисляющая трекинговые параметры. Это снижает расход краулингового бюджета: обходчик Яндекса не запрашивает страницы с указанными параметрами.

Сессионные идентификаторы и пагинация

На современных сайтах сессии хранятся в cookie или local storage, и параметр в URL — устаревший подход, оставшийся в legacy-системах. Тем не менее на старых движках такие параметры до сих пор попадают в выдачу.

Сессионные идентификаторы порождают практически бесконечное количество дублей: каждый новый посетитель — новый ID. Решение принципиальное — отключить передачу сессии через URL в настройках движка.

Параметры пагинации (?page=2, ?p=3) — отдельный случай. В отличие от сессий и UTM-меток, пагинация содержит уникальный контент: на странице 2 список товаров отличается от страницы 1. Дублей здесь нет, и закрывать пагинацию от индексации обычно не нужно — достаточно проследить, чтобы каждая страница имела уникальный заголовок и канонический атрибут на саму себя.

Как обнаружить дубли с URL-параметрами

Для аудита дублей применяются четыре источника данных: интерфейсы поисковых систем (Google Search Console и Яндекс Вебмастер), парсеры сайта (Screaming Frog, Netpeak Spider), логи веб-сервера, аналитические системы. Каждый источник показывает свою сторону: GSC и Вебмастер — что уже попало в индекс, парсеры — что технически доступно обходчику, логи — какие URL реально запрашивает обходчик.

Полноценный аудит обычно требует сверки данных из нескольких источников. Парсер обнаруживает 10 000 дублей, в индексе Google остаются 3 000, а Яндекс показывает 5 000 — расхождения подсказывают, какие параметры требуют дополнительного управления.

Google Search Console

В GSC (Google Search Console — консоль вебмастера Google) дубли с параметрами видны в отчёте «Покрытие» в категориях «Исключено: дубликат, отправленный канонический URL» и «Исключено: дубликат без выбранного пользователем канонического URL». Первый вариант — Google согласился с указанной канонической ссылкой и исключил дубль. Второй — Google выбрал каноническую версию самостоятельно, и стоит проверить, совпадает ли его выбор с указанным в разметке.

Дополнительно полезен отчёт «Параметры URL» — раньше он позволял вручную задавать правила обработки параметров. Инструмент был закрыт в апреле 2022 года, и теперь Google рекомендует управлять параметрами через канонический атрибут, директивы robots.txt и серверные редиректы.

Также стоит просмотреть отчёт «Эффективность» с фильтрацией по содержанию URL: запросы вида page-with-parameter ?utm покажут, какие параметризованные URL приносят клики и впечатления.

Яндекс Вебмастер

В Яндекс Вебмастере дубли отображаются в разделе «Индексирование → Страницы в поиске» с фильтром «Исключённые → Дубли». Часть из них помечена как «Удалены из индекса: дубли», часть — как «Не индексируются: дубль» при текущем сканировании.

Дополнительный инструмент — «Индексирование → Структура сайта», где видна группировка URL по разделам. Аномалия легко заметна: если в категории /catalog/phones/ в индексе 50 000 URL при реальных 500 товарах, очевидно работают дубли с параметрами.

Полезный отчёт — «Диагностика → Безопасность и нарушения». Если Яндекс посчитает массовое наличие дублей подозрительным, сюда придёт уведомление. Регулярная проверка помогает заметить проблемы до того, как они скажутся на видимости.

Парсеры: Screaming Frog и Netpeak Spider

Парсеры обходят сайт по тем же правилам, что и поисковый обходчик, и составляют полный список URL, доступных для индексации. В Screaming Frog раздел «URL → Parameters» показывает все обнаруженные параметры с количеством URL по каждому. Netpeak Spider выводит ту же информацию в разделе «Параметры URL» с возможностью группировки и сортировки.

Параметры с разбивкой по числу URL. Видно, какие параметры встречаются чаще всего и тратят больше всего краулингового бюджета.
Канонические указания. Парсер фиксирует, какие дубли помечены каноническим атрибутом, а какие нет.
Дубли по содержимому. Отчёт показывает страницы с идентичными title, h1 и текстом — для случаев, когда параметры формально разные, но контент совпадает.

Для крупных каталогов парсер запускают с настройкой «обход всех параметров» — без неё инструмент по умолчанию игнорирует часть URL, считая их канонизированными.

Анализ логов веб-сервера

Логи сервера — самый точный источник. Они фиксируют каждый запрос обходчика к сайту с указанием URL, статуса ответа, времени запроса. По логам видно, сколько раз в сутки обходчик обращается к параметризованным URL, какие из них вызывают ошибки, какие отдают редиректы.

Базовый отчёт — топ-100 URL по числу запросов от Googlebot и YandexBot за последний месяц. Если в топе оказываются страницы с UTM-метками или сессионными идентификаторами, обходчик тратит на них значительную долю краулингового бюджета.

Screaming Frog Log File Analyser. Визуальный интерфейс для разбора логов с фильтрацией по обходчику и временному периоду.
Splunk, ELK-стек (Elasticsearch + Logstash + Kibana). Промышленные системы для крупных проектов с сотнями тысяч запросов в сутки.
Команды grep, awk. На малых проектах достаточно ручного анализа логов Nginx или Apache с фильтрацией по User-Agent обходчика.

Методы устранения дублей

В арсенале технического SEO пять основных методов работы с дублями от GET-параметров. Каждый решает свою задачу и применяется в определённой ситуации. Универсального метода нет — на крупном сайте обычно используется комбинация двух-трёх инструментов одновременно для разных типов параметров.

Ниже — разбор каждого метода с примерами синтаксиса. Google и Яндекс по-разному реагируют на одни и те же директивы, поэтому стратегия для двух поисковиков отличается от работы только с одним из них.

Канонический атрибут

Канонический атрибут (rel="canonical") указывает поисковику предпочтительную версию страницы среди группы похожих. Это самый универсальный метод управления дублями — поддерживается обеими поисковыми системами, не требует правки конфигурации сервера, реализуется одной строкой в <head>.

<link rel="canonical" href="https://example.com/catalog/phones/">

Атрибут размещается на каждой странице-дубле и указывает на канонический URL без параметров. Google трактует канонический как сильный сигнал, но не строгую директиву: при противоречивых данных (внутренняя перелинковка идёт на другой URL, контент сильно различается) обходчик может выбрать иную версию. Яндекс соблюдает указанный канонический точнее, но также не гарантированно.

Преимущества метода: универсальность, передача ссылочного веса от дубля к каноническому URL, простота реализации в большинстве CMS (Content Management System — система управления контентом). Ограничения: страницы-дубли остаются доступными для пользователя и обходчика, краулинговый бюджет на их посещение тратится по-прежнему.

Директива noindex в meta robots

Тег <meta name="robots" content="noindex"> запрещает поисковику включать страницу в индекс. В отличие от канонического атрибута, это строгая директива — соблюдается обоими поисковиками без исключений.

<meta name="robots" content="noindex, follow">

Атрибут follow в конструкции означает: страницу не индексировать, но переходить по ссылкам с неё. Это полезно, когда дубль содержит ссылки на другие важные страницы и нужно сохранить передачу веса по перелинковке. Альтернатива noindex, nofollow блокирует и переходы — применяется реже.

Запрет обхода через robots

Директива Disallow в файле robots.txt запрещает обходчику посещать URL, попадающие под паттерн. Это самый радикальный метод: обходчик даже не запрашивает страницу.

User-agent: *
Disallow: /*?sort=
Disallow: /*?utm_
Disallow: /*?sessionid=

Паттерн /*?sort= закрывает любой URL с параметром sort. Звёздочка работает как маска: /catalog?sort=price, /category/phones?sort=rating — все попадают под запрет. Метод эффективен против сессионных параметров и трекинговых меток, которые точно не должны индексироваться.

Важная оговорка: Disallow в robots.txt запрещает обход, но не индексацию. Если на закрытую страницу ведут внешние ссылки, она может появиться в выдаче без сниппета — с пометкой «Описание этого результата недоступно». Поэтому для гарантированного исключения из индекса Disallow сочетают с meta-тегом noindex (или, при невозможности доступа к meta, с заголовком X-Robots-Tag: noindex от сервера).

Очистка параметров в Яндексе

Директива Clean-param — специфический инструмент Яндекса, который указывает обходчику игнорировать определённые параметры URL. Размещается в robots.txt:

User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign /
Clean-param: sessionid /catalog/
Clean-param: sort&order /catalog/phones/

Первая строка указывает Яндексу игнорировать перечисленные UTM-параметры на всём сайте. Вторая — сессионные идентификаторы только в каталоге. Третья — параметры сортировки только в подразделе телефонов.

Преимущество Clean-param перед каноническим атрибутом — обходчик Яндекса не тратит ресурсы на обход дублей, в отличие от случая с канонической ссылкой, где страница запрашивается, читается, и только потом обходчик понимает, что это дубль. Минус — директива работает только для Яндекса. Для Google аналогичную функцию выполнял URL Parameter Tool в Search Console, закрытый в апреле 2022 года.

Постоянные редиректы (301)

301-й редирект перенаправляет пользователя и обходчика с дубля на канонический URL. Это самый сильный сигнал из всех методов: страница-источник прекращает существование, обе системы (Google и Яндекс) интерпретируют 301 одинаково строго.

# Пример для Nginx — убираем UTM-метки серверным редиректом
if ($args ~* "utm_") {
    rewrite ^(.*)$ $uri? permanent;
}

Редирект применяется, когда параметр не должен оставаться доступным ни в каком виде — например, устаревший идентификатор кампании или устаревший формат URL после миграции. Для UTM-меток редирект подходит реже: маркетологи теряют возможность отслеживания, если метки удаляются на стороне сервера до того, как Яндекс Метрика или Google Analytics успели их зафиксировать.

Стратегия выбора метода под тип параметра

Выбор метода зависит от трёх факторов: природа параметра (меняет ли он контент), важность сохранения доступа к URL (нужен ли он пользователю), необходимость работы в обеих поисковых системах одновременно. На крупном проекте стратегия описывается в техническом задании и согласуется с командой разработки до внедрения.

Тип параметра	Метод управления	Обоснование
Сортировка каталога	Канонический атрибут	Страница нужна пользователю, контент тот же — указываем основную версию
Фильтры базовые	Canonical + посадочная для популярных	Гибридный подход: дубли закрываем, целевые открываем
UTM-метки	Canonical + Clean-param (Яндекс)	Пользователь должен попасть на страницу, но индексировать не нужно
Сессионные ID	Disallow + Clean-param	Бесполезны для индексации, экономия краулингового бюджета
Устаревшие параметры	301-й редирект	Окончательное удаление дубля из выдачи и индекса
Пагинация	Canonical на саму себя	Уникальный контент, должна индексироваться

Универсальная схема: трекинговые параметры (UTM, gclid, yclid) — канонический атрибут плюс Clean-param для Яндекса. Сессионные идентификаторы — Disallow в robots.txt плюс Clean-param. Фильтры и сортировка — канонический атрибут на чистую категорию. Устаревшие URL — 301-й редирект.

На сайтах с приёмом платежей дополнительно применяется meta-тег noindex на страницы статусов транзакций (?order_id=123&status=success). Эти URL не должны попадать в индекс ни при каких обстоятельствах — иначе личные данные пользователей могут оказаться в выдаче. При продвижении крупных интернет-магазинов с тысячами URL такая комбинация методов закрывает 90–95% проблем с дублями параметров.

Типичные ошибки при работе с параметрами

Большинство проблем с параметрами на коммерческих сайтах возникает из-за выбора неподходящего инструмента под задачу. Команда видит дубли в Search Console, добавляет Disallow в robots.txt, ожидая, что страницы исчезнут из индекса — а они остаются, потому что обходчик их больше не запрашивает и не может узнать о канонической версии.

Аудит таких ситуаций показывает повторяющиеся ошибки — путаница между запретом обхода и запретом индексации, противоречивые сигналы между каноническим атрибутом и внутренней перелинковкой.

Запрет обхода вместо канонического атрибута

Самая распространённая ошибка. Команда добавляет в robots.txt строку Disallow: /*?utm_, чтобы убрать UTM-страницы из выдачи. Логика: «обходчик не зайдёт — страница исчезнет». На практике страница остаётся в индексе, если на неё ведут внешние ссылки (из рекламных рассылок, постов в соцсетях, партнёрских материалов).

Корректный подход — Disallow применяется только тогда, когда страница точно не должна попасть в индекс и нет риска внешних ссылок. Для UTM-страниц предпочтительнее канонический атрибут на чистый URL: обходчик зайдёт, прочитает разметку, склеит дубль с основной версией в индексе.

Сочетание Disallow и канонического атрибута бесполезно: обходчик не зайдёт на страницу, чтобы прочитать каноническую ссылку. Сигналы конфликтуют — нужно выбрать что-то одно. Для трекинговых меток рекомендация: канонический атрибут (для Google) плюс Clean-param (для Яндекса).

Противоречивые сигналы между canonical и перелинковкой

Карточка товара указывает канонический атрибут на «короткий» URL без параметров, а внутри сайта на неё ведут ссылки с параметрами фильтра, метками источника, идентификаторами региона. Обходчик получает противоречивые сигналы: канонический атрибут говорит одно, ссылочная масса — другое.

Корректное решение — внутренняя перелинковка ведёт на тот же URL, что указан как канонический. Если для аналитики нужны UTM-метки или параметры источника, метки добавляются только на внешних ссылках (в письмах, рекламных кампаниях, партнёрских каналах), но не во внутренней навигации сайта.

Регулярный аудит внутренних ссылок через Screaming Frog или Netpeak Spider помогает отлавливать такие противоречия. Отчёт «Inlinks» показывает все внутренние ссылки, ведущие на конкретный URL — отклонения от канонической версии становятся видны сразу.

Особенности SEO работы с параметрами для бизнеса в Беларуси

Региональная специфика затрагивает работу с GET-параметрами в трёх плоскостях: параметры платёжных сессий через ЕРИП и БЕЛКАРТ, трекинг через Яндекс Метрику с поддержкой _openstat, геозависимые параметры для проектов с филиалами в нескольких городах Беларуси. Корректная работа с параметрами — обязательный этап продвижения белорусских интернет-магазинов и каталогов услуг с региональной структурой.

Кроме общих рекомендаций для двух поисковиков, белорусским проектам приходится учитывать особенности доли поискового рынка: Google занимает 65–75% поисковой выдачи в стране, Яндекс — 25–30%. Это означает, что управление параметрами через Clean-param важно, но недостаточно — нужна параллельная работа через канонические атрибуты под Google.

Параметры ЕРИП-оплаты и сессии

На сайтах с приёмом платежей через ЕРИП (Единое расчётное и информационное пространство) и БЕЛКАРТ-карты часто появляются дубли URL с параметрами сессии, идентификаторами заказа, кодами акций. Стандартный набор: ?order_id=12345, ?payment_id=abc, ?promo=newyear.

Эти параметры технически не должны индексироваться: они либо порождают пустые страницы (после завершения сессии), либо содержат личные данные пользователя (детали заказа). Корректная схема — meta-тег noindex на страницы статусов транзакций плюс Disallow в robots.txt для параметров платежа.

ЕРИП работает как платёжный агрегатор для онлайн-оплаты услуг и товаров через белорусскую банковскую систему. БЕЛКАРТ — национальная платёжная карта. Это разные инструменты в платёжной инфраструктуре, и при оформлении заказа могут генерироваться разные параметры в URL. Универсальная стратегия — закрывать всю папку /order/ или /checkout/ от индексации целиком.

UTM-метки и трекинг в Яндекс Метрике

Яндекс Метрика поддерживает не только стандартные UTM-параметры, но и устаревший белорусско-русский трекер _openstat. На белорусских сайтах часто встречаются обе схемы одновременно: UTM от Google Ads и Яндекс Директа, _openstat от старых рекламных размещений.

User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign&utm_content&utm_term /
Clean-param: yclid&gclid&_openstat&from /

Для Google аналогичные параметры обрабатываются через канонический атрибут — это базовый минимум для каждой посадочной с потенциальным трекингом. Дополнительно полезно настроить серверный редирект, удаляющий устаревшие параметры _openstat и from с возрастом более года: их полезность для аналитики стремится к нулю, а краулинговый бюджет они продолжают тратить.

Города РБ и параметры регионов

Сайты с филиалами в городах Беларуси (Минск, Гомель, Могилёв, Витебск, Гродно, Брест) часто реализуют переключение региона через GET-параметр: ?city=minsk, ?region=gomel. Это создаёт дубли каждой страницы каталога с шестью основными значениями и дополнительными для городов второго порядка — Бобруйск (7-й город страны по населению), Барановичи, Борисов, Пинск.

Полноценные посадочные. Если филиалов несколько и контент для регионов реально различается (адрес, телефон, цены), лучше делать отдельные URL в формате /minsk/, /gomel/ вместо параметров.
Параметр как опция. Если переключение региона меняет только мелкие детали (например, валюту отображения), используется канонический атрибут на основную версию.
Региональная привязка в Вебмастере. Для каждого региона задаётся свой регион через раздел «Геобазовая привязка» в Яндекс Вебмастере.

Сочетание ЧПУ-структуры (Человекопонятные URL) и регионального параметра допустимо, но требует строгого канонического атрибута на одну из версий: либо на /minsk/ при наличии параметра ?city=minsk, либо на короткий URL без указания города как умолчание.

SEO-продвижение и контекстная реклама в Cropas

Команда Cropas разбирает работу с GET-параметрами в рамках технического аудита: проверяет канонические атрибуты, директивы Clean-param, корректность robots.txt и распределение краулингового бюджета. Корректное управление параметрами — базовая часть подготовки сайта к SEO-продвижению в Беларуси и СНГ.
Подробнее об услуге контекстной рекламы и её связке с органическим продвижением — на странице направления.

Часто задаваемые вопросы

Через какой период проиндексируются изменения после удаления параметров?

Первые признаки склейки дублей видны через 2–4 недели после внедрения канонических атрибутов или Clean-param. Полная переиндексация крупного каталога занимает 2–3 месяца. Скорость зависит от частоты обхода: на сайтах с высоким краулинговым бюджетом изменения проявляются быстрее. Для ускорения можно отправить обновлённую sitemap.xml в Google Search Console и Яндекс Вебмастер.

Что делать, если параметризованные страницы уже накопили внешние ссылки?

Ставится канонический атрибут на «чистую» версию URL. Канонический передаёт вес от дубля к основной версии — внешние ссылки продолжают работать, но в индекс попадает только указанная версия.

Можно ли оставить gclid в URL для отчётности, если он создаёт дубли?

Да, через комбинацию инструментов. Параметр gclid (Google Click Identifier) генерируется автоматически при переходе из Google Ads и нужен для атрибуции в Google Analytics. Удалять его нельзя — потеряется трекинг. Решение: канонический атрибут на чистый URL для Google, Clean-param с указанием gclid для Яндекса.

Стоит ли удалять параметры из старых URL после миграции сайта?

Зависит от объёма входящих ссылок. Если на параметризованные URL ведут активные внешние ссылки или рекламные кампании — настраивается серверный редирект 301 со старого URL на новый чистый. Если внешних ссылок нет — достаточно канонического атрибута. После миграции каталога интернет-магазина или раскрутки сайта с большой ссылочной массой такая работа входит в стандартный технический аудит.

Как настроить canonical для AJAX-фильтров каталога?

При AJAX-фильтрации URL обычно меняется через History API без полной перезагрузки страницы. Канонический атрибут нужно обновлять JavaScript-методом параллельно с изменением URL — иначе обходчик прочитает старое значение из исходного HTML. Альтернатива — серверная фильтрация с полной перезагрузкой и явным каноническим атрибутом в каждом ответе.

Что делать с дублями от внутреннего поиска по сайту?

Страницы поиска по сайту (URL вида ?q=... или ?search=...) почти всегда закрываются от индексации полностью через meta-тег noindex или Disallow в robots.txt. Эти страницы редко имеют ценность для пользователя из выдачи и часто содержат пустые результаты или нерелевантные запросы. Исключение — если поиск используется как навигационный инструмент и страницы результатов оптимизированы под конкретные запросы.

Почему Disallow в robots.txt не убирает страницу из выдачи?

Логика обработки разделена. Disallow запрещает обходчику посещать страницу, но не запрещает её индексировать. Если страница уже была в индексе или на неё ведут внешние ссылки, она остаётся в выдаче — обычно без сниппета, с пометкой «Описание этого результата недоступно». Для полного удаления нужен meta-тег noindex на самой странице, и обходчику нужно её посетить — то есть сначала временно убрать Disallow.

Как Clean-param ведёт себя при изменении значения параметра между визитами?

Директива игнорирует значения полностью: для Яндекса URL вида ?utm_source=google, ?utm_source=yandex, ?utm_source=email считаются одной страницей. При продвижении сайтов с активным маркетингом это критично — Clean-param позволяет запустить десятки рекламных кампаний с разными UTM-метками без риска засорения индекса дублями.