Стемминг | Что такое stemming

stemmingСтемминг (англ. stemming – брать начало) — процесс поиска основы слова (стема), отсеченной от префиксов, суффиксов, окончания.

Применение

Вводя в поисковик ключевое слово в различных грамматических формах, он учитывает всё словоформы и выводит их как результат. Так, например, при запросе “шапка” в поисковой выдаче будут слова “шапки”, “шапку”, “шапок” и т.д.

Стемминг применим только для языков, в которых словоизменение происходит через аффиксы (таких как русский, английский).

Дополнительное удобство пользования

В случаях, если слово не имеет одного корня во всех грамматических формах, возникают трудности поиска, если применять только один стемминг. Так, например, слово “кошки” в родительном падеже имеет форму “кошек”, поэтому выделить корень “кошк” или “кош” будет неправильно. Ведь в первом случае поисковик не найдет слова в родительном падеже, а во втором — будет найдено много лишних слов. Для того чтобы минимизировать количество ошибок, применяются дополнительные анализаторы:

  • лемматизатор (склонение);
  • флоксер (спряжение).
Обратный звонок
×
Оформить заявку
×
Отправить сообщение
×