Что такое лемматизация?
Лемматизация (англ. lemmatization) – означает процесс приведения словоформы к лемме, то есть основному, базовому слову, путем отсечения или преобразования флективных окончаний.
Леммы в русском языке
В русском языке леммами принято считать:
- имена существительные – в именительном падеже единственного числа;
- имена прилагательные – в именительном падеже единственного числа и мужского рода;
- глаголы, а так же причастия и деепричастия – глаголы в исходной форме (в инфинитиве).
К примеру:
- игрушек – игрушка;
- позитивные – позитивный;
- прыгали – прыгать.
Встречаются и неоднозначные слова, которые одновременно выступают несколькими частями речи. К примеру, слово «стих». Если это имя существительное, то лемма так и будет – стих, а если глагол, то лемма – стихнуть. Такие слова есть в любом языке.
Применение
Процесс лемматизации широко используется в алгоритмах поисковых систем. Такой механизм анализа словоформ нужен для улучшения результатов поиска и повышения скорости индексации. Если бы поисковые программы не использовали лемматизацию, то в результате поиска выдавались бы только те слова, которые имеют ту же форму, что и слова запроса.
Словоформы
От существительного лемматизация происходят такие словоформы как:
- леммитизатор ( англ. Lemmatizer) – приложение, которое осуществляет лемматизацию и выдает леммы введенных слов;
- леммитизировать – глагол, который обозначает действие, совершение процесса лемматизации.