АПДЕЙТЫ
Yandex SERP
02.03.2013
Yandex CY
27.12.2012
Google PageRank
06.02.2013

Лемматизация

Лемматизация – механизм поисковика, который позволяет ему приводить формы слов к лемме. Лемма -  это первоначальная форма слова. Лемма существительного в русском – его форма в именительном падеже и единственном числе. Лемма глагола – инфинитив.

Только лемматизация позволяет проводить эффективное индексированея страниц, причем под эффективностью в этом случае подразумевают скорость индексирования, которая зависит от количества анализируемых слов и их форм. Известно, что, чем больше слов приходится обрабатывать, тем медленнее идет процесс индексирования. Чтобы снизить число анализируемых слов, поисковики пользуются лемматизаторами – программы, которые проводят лемматизацию. Лемматизаторы не являются чем-то особо секретным, их можно легко найти в Интернете.

Конечно, те лемматизаторы, которые доступны обычным пользователям, представляют собой более простые программы, чем те, что находятся в распоряжении поисковиков.

Поисковики также используют лемматизаторы для проверки уникальности текстов. Поисковик для этого приводит к леммам все формы слов перед тем, как сравнить шинглы, на которые разбит текст.

Однако главная задача лемматизации – улучшение релевантности поиска. Лемматизатор приводит все формы слов к леммам, а алгоритм поисковика отбрасывает все нерелевантные документы.




05.10.2012, 5109 просмотров.

Copyright © 2011 - 2022 Разработка, поддержка и продвижение сайта от Seo.Ua
Copyright © 2011 Host CMS