Морфологический поиск

Морфологический запрос — поисковый запрос, при обработке которого поисковая система учитывает все словоформы входящих слов: разные падежи, склонения, спряжения, числа, времена и роды, а не только точную форму ввода пользователя.

Что такое морфологический запрос на практике — это работа поисковика с языком: пользователь печатает «купить квартиру в Минске», а система ищет также «куплю квартиру в Минске», «купят квартиры в Минске», «купившие квартиры в Минске» и так далее. Все эти запросы рассматриваются как варианты одного смыслового кластера.

Морфологическая обработка появилась в поисковиках с самых ранних версий. У Яндекса первая лингвистическая система Mystem заработала ещё в 1997 году, у Google аналогичные модули — с 1999-го. Все современные поисковики работают только с морфологически нормализованными запросами — пользователь практически не сталкивается с проблемами «точного совпадения» формы запроса с формой документа.

Для SEO морфология означает несколько важных следствий. Не нужно дублировать страницы под разные склонения одного запроса. Не нужно вставлять во все падежи ключевое слово в текст — поисковик нормализует и поймёт. Но важно правильно собирать семантику с учётом всех словоформ, иначе общая частотность ключа будет недооценена.

Что такое морфологический запрос

Морфологический запрос — поисковый запрос, к которому применяется морфологический анализ: разбор каждого слова на основу (лемму) и грамматические признаки (падеж, число, род, время, лицо). После такой обработки поисковик ищет документы, содержащие любые формы тех же лемм — не только точную форму запроса.

Пример. Запрос «лучшие рестораны Минска» содержит три слова с морфологией:

«лучшие» — лемма «хороший», превосходная степень, мн. число, имен. падеж;
«рестораны» — лемма «ресторан», мн. число, имен. падеж;
«Минска» — лемма «Минск», ед. число, род. падеж.

Поисковик нормализует это к набору лемм («хороший», «ресторан», «Минск») и ищет документы, где встречаются эти леммы в любой форме. Документ со словами «лучший ресторан в Минске» или «лучшим ресторанам Минска» одинаково релевантен.

Принципиальная альтернатива — простой текстовый поиск (string matching) без морфологии. В таком режиме «лучшие рестораны» не найдут страницу с «лучший ресторан», потому что формальные строки отличаются. Современные поисковики не работают так — это технология 1990-х, поверженная семантическими подходами.

Как работает морфология в поисковиках

Морфологическая обработка запроса проходит несколько этапов:

Токенизация. Разбиение текста запроса на отдельные слова (токены). Учитываются знаки препинания, дефисы, пробелы. Для русского языка это относительно просто, для языков типа японского или китайского — сложная задача.

Лемматизация. Приведение каждого слова к начальной форме (лемме). «Бежал», «бегу», «бежим» → «бежать». «Книгами», «книги», «книге» → «книга». Для русского языка используется словарь основ и алгоритмы определения парадигмы склонения/спряжения. Эта нормализация — основа всего последующего анализа.

Стемминг. Альтернативный подход — не приводить к лемме, а отбрасывать окончания и оставлять основу. «Бежать», «бегу», «бежим» → общая основа «беж-». Менее точно, чем лемматизация, но быстрее. Чаще применяется для английского.

Морфологический анализ. Определение грамматических признаков каждого слова. Для русского это набор тегов: часть речи, род, число, падеж, время, лицо, переходность. Эти признаки используются для семантического анализа смысла запроса.

Синонимизация и расширение. Кроме чисто морфологии, поисковики добавляют синонимы, переводы (для брендов), исправления опечаток. «Дешёвый» = «недорогой» = «бюджетный» — на уровне обработки запроса все три воспринимаются близко.

Mystem и обработка русского языка

Русский язык — один из самых морфологически сложных для автоматической обработки. Каждое существительное склоняется в 12 формах (6 падежей × 2 числа), глагол — в десятках форм (лицо, число, время, вид, наклонение, причастие). Без специализированных алгоритмов поисковая система не может корректно работать с русским.

Основные инструменты морфологии русского:

Mystem (Яндекс). Создан в 1996–1998 годах командой Яндекса. Первая массовая русская морфологическая система. До сих пор используется внутри Яндекса. Открыта для свободного использования с 2014 года.
Pymorphy2 / Pymorphy3. Открытая Python-библиотека на основе словарей AOT.ru. Широко используется в open-source разработках.
NLTK SnowballStemmer. Универсальный стеммер с поддержкой русского. Простой и быстрый, но менее точный.
SpaCy. Современная NLP-библиотека с поддержкой русского. Использует нейросетевые модели для морфологии.
Natasha. Российская open-source библиотека для русского NLP. Состояние-арт для коммерческого использования.

Качество морфологии для русского у Яндекса исторически выше, чем у Google — Яндекс изначально оптимизировался под русскоязычный рынок, Mystem отрабатывал десятилетиями. Google со временем подтянулся, но в отдельных случаях обработка форм русских слов у Google всё ещё уступает Яндексу.

Морфология и SEO — что это значит для оптимизатора

Практические выводы для SEO-практики:

Принцип	Что это значит на практике
Не дублировать страницы под разные падежи	Не нужны отдельные страницы «купить квартиру» и «куплю квартиру»
Естественный язык в тексте	Писать так, как говорят люди, со всеми склонениями. Не нужно «втыкать» ключ в одной форме
Точные ключевые формы в H1, title	В заголовках всё же лучше использовать точные формулировки из ВЧ-запросов
Многочисленные синонимы	Использовать разнообразную лексику — поисковик понимает близкие слова
Учитывать ВЧ + НЧ при сборе семантики	«Купить квартиру» (ВЧ) и «купить трёхкомнатную квартиру в Серебрянке» (НЧ) — разные намерения
Не переспамить ключевыми словами	Морфология делает текст естественным, переспам легко обнаруживается

Главное на практике: писать тексты на русском языке нужно так, как пишет начитанный человек — со всеми склонениями и временами, с синонимами, с живым языком. Раньше «правильным» считалось вставить ключ в форме точного запроса 5–10 раз. Сегодня такая страница выглядит спамом, и поисковик её понизит.

Сбор семантики с учётом морфологии

При сборе семантического ядра нужно учитывать, что разные формы одного слова — это, по сути, один запрос для поисковика, но разные строки для статистики Wordstat. Например:

«купить квартиру» — 50 000 показов/мес;
«куплю квартиру» — 8 000 показов/мес;
«покупка квартиры» — 12 000 показов/мес;
«покупаю квартиру» — 800 показов/мес.

Все четыре формы относятся к одной семантической группе, общая частотность — 70 000+. Если оптимизировать только под точную форму «купить квартиру», теряется 40% потенциального трафика. Поэтому в SEO собирают все формы ключа и группируют их в один кластер для одной посадочной страницы.

Инструменты для сбора с учётом морфологии: Key Collector (генерирует все формы автоматически), Wordstat (для каждой формы — своя частотность в Яндексе), Google Keyword Planner (англ. морфология). После сбора — кластеризация (Key Collector, Just-Magic, Топвизор) объединяет формы и синонимы в одну группу.

Часто задаваемые вопросы

Чем морфология отличается от стемминга?

Морфология (лемматизация) приводит слово к начальной форме через словарь и анализ грамматики: «бежал» → «бежать». Стемминг отбрасывает окончания эвристически: «бежал» → «беж-». Морфология точнее, но требует больших словарей и языковых ресурсов. Стемминг проще и быстрее, но менее точен. Современные поисковики используют морфологию, а не стемминг.

Все ли поисковики учитывают морфологию русского?

Все крупные — да: Яндекс, Google, Bing, Mail.ru. Качество обработки выше у Яндекса (специализация на русском с 1990-х). Google заметно подтянулся за последние 10 лет, но иногда уступает на сложных формах. Маленькие поисковики (Rambler, DuckDuckGo) — обрабатывают базово.

Почему Wordstat показывает разную частотность для падежей одного слова?

Wordstat показывает статистику по точному совпадению строки запроса. «Купить квартиру» и «куплю квартиру» — это разные строки для статистики, хотя для поисковика они одинаковы. Поэтому при сборе семантики нужно собирать все формы и суммировать частотность, чтобы понять реальный объём спроса.

Влияет ли использование разных склонений в тексте на SEO?

Естественное использование склонений и форм — норма для живого текста, поисковики это учитывают как сигнал натуральности языка. Намеренное «прокручивание» ключа во всех падежах ради «охвата всех форм» — устаревший подход, который ухудшает читаемость и может сигнализировать о переспаме.

Что такое «морфологический поиск» в техническом смысле?

Это поиск, при котором поисковая система нормализует и запрос, и индексируемые документы к леммам, а затем сопоставляет. Такая нормализация — стандарт всех современных систем. Альтернатива — «точный поиск» (exact match), который ищет только дословное совпадение строк. Морфологический поиск — стандарт для всех современных поисковиков.

Можно ли отключить морфологию в Яндексе или Google?

В Яндексе — да, поставив восклицательный знак перед словом: «!купить квартиру» означает «искать только „купить“ в этой форме, без других форм». В Google — взять слово в кавычки или использовать оператор intitle:. Это технические возможности, для обычного пользователя они не нужны.

Как учитывать морфологию при работе с CMS?

На уровне CMS (WordPress, Bitrix, OpenCart) специально ничего делать не нужно — морфологию обрабатывает поисковик при индексации. Важно только писать тексты на естественном языке со всеми склонениями и не пытаться вставлять «голый» ключ в одной форме 10 раз. CMS обычно генерирует URL в транслите — там морфология не играет роли, но стоит делать ЧПУ из основной формы запроса.