Что такое лемматизацияЛемматизация (англ. lemmatization) – означает процесс приведения словоформы к лемме, тоесть основному, базовому слову, путем отсечения или преобразования флективных окончаний.

Леммы в русском языке

В русском языке леммами принято считать:

  • имена существительные – в именительном падеже единственного числа;
  • имена прилагательные — в именительном падеже единственного числа и мужского рода;
  • глаголы, а так же причастия и деепричастия – глаголы в исходной форме (в инфинитиве).

К примеру:

  • игрушек – игрушка;
  • позитивные – позитивный;
  • прыгали – прыгать.

Встречаются и неоднозначные слова, которые одновременно выступают несколькими частями речи. К примеру, слово «стих». Если это имя существительное, то лемма так и будет — стих, а если глагол, то лемма – стихнуть. Такие слова есть в любом языке.

Применение

Процесс лемматизации широко используется в алгоритмах поисковых систем. Такой механизм анализа словоформ нужен для улучшения результатов поиска и повышения скорости индексации. Если бы поисковые программы не использовали лемматизацию, то в результате поиска выдавались бы только те слова, которые имеют ту же форму, что и слова запроса.

Словоформы

От существительного лемматизация происходят такие словоформы как:

  • леммитизатор ( англ. Lemmatizer) – приложение, которое осуществляет лемматизацию и выдает леммы введенных слов;
  • леммитизировать – глагол, который обозначает действие, совершение процесса лемматизации.
Обратный звонок
×
Оформить заявку
×
Отправить сообщение
×