Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Словарь стоп-слов и стемминг в автореферировании

Автор:   •  Март 27, 2021  •  Лабораторная работа  •  276 Слов (2 Страниц)  •  321 Просмотры

Страница 1 из 2

Лабораторная работа №2

по дисциплине: «Информационно-аналитическая деятельность по обеспечению ИБ»

тема: «Словарь стоп-слов и стемминг в автореферировании»

Задание. Усовершенствовать программу, написанную в лабораторной работе №1, в двух направлениях:

1. Предлоги, союзы, частицы и междометия должны всегда иметь нулевой вес и, следовательно, не влиять на вес предложений.

2. У слов, имеющих ненулевой вес, должны находиться их основы, и одним словом должны считаться все слова с одинаковой основой.

Первое усовершенствование реализуется следующим образом:

1. В программе создаётся одномерный массив, содержащий все распространённые предлоги, союзы, частицы и междометия русского языка (их нужно поискать в Интернете) – словарь стоп-слов.

2. При занесении всех уникальных слов текста в массив выполняется проверка. Если слово содержится в словаре стоп-слов, оно не заносится в массив уникальных слов, иначе – заносится. Таким образом, предлоги, союзы, частицы и междометия не появляются в массиве уникальных слов введённого текста, как будто их в этом тексте и нет.

Второе усовершенствование реализуется с помощью стемминга. В программе должен быть реализован алгоритм стемминга Портера [1] для русского языка [2], или другой алгоритм стемминга, не уступающий по качеству стеммингу Портера. Допускается подключить и использовать готовый класс для стемминга, взятый из Интернета. Стемминг изменяет программу следующим образом:

1. При занесении всех уникальных слов текста (кроме слов из стоп-словаря) в массив каждое слово подвергается стеммингу, т.е. выделяется его основа.

...

Скачать:   txt (3.8 Kb)   pdf (65.8 Kb)   docx (8.3 Kb)  
Продолжить читать еще 1 страницу »
Доступно только на Essays.club