Что такое стемминг
Стемминг (англ. stemming – брать начало) — процесс поиска основы слова (стема), отсеченной от префиксов, суффиксов, окончания.
Применение
Вводя в поисковик ключевое слово в различных грамматических формах, он учитывает всё словоформы и выводит их как результат. Так, например, при запросе “шапка” в поисковой выдаче будут слова “шапки”, “шапку”, “шапок” и т.д.
Стемминг применим только для языков, в которых словоизменение происходит через аффиксы (таких как русский, английский).
Дополнительное удобство пользования
В случаях, если слово не имеет одного корня во всех грамматических формах, возникают трудности поиска, если применять только один стемминг. Так, например, слово “кошки” в родительном падеже имеет форму “кошек”, поэтому выделить корень “кошк” или “кош” будет неправильно. Ведь в первом случае поисковик не найдет слова в родительном падеже, а во втором — будет найдено много лишних слов. Для того чтобы минимизировать количество ошибок, применяются дополнительные анализаторы:
- лемматизатор (склонение);
- флоксер (спряжение).