Словарь стоп-слов и стемминг в автореферировании
Автор: Георгий Георгиев • Март 27, 2021 • Лабораторная работа • 276 Слов (2 Страниц) • 320 Просмотры
Лабораторная работа №2
по дисциплине: «Информационно-аналитическая деятельность по обеспечению ИБ»
тема: «Словарь стоп-слов и стемминг в автореферировании»
Задание. Усовершенствовать программу, написанную в лабораторной работе №1, в двух направлениях:
1. Предлоги, союзы, частицы и междометия должны всегда иметь нулевой вес и, следовательно, не влиять на вес предложений.
2. У слов, имеющих ненулевой вес, должны находиться их основы, и одним словом должны считаться все слова с одинаковой основой.
Первое усовершенствование реализуется следующим образом:
1. В программе создаётся одномерный массив, содержащий все распространённые предлоги, союзы, частицы и междометия русского языка (их нужно поискать в Интернете) – словарь стоп-слов.
2. При занесении всех уникальных слов текста в массив выполняется проверка. Если слово содержится в словаре стоп-слов, оно не заносится в массив уникальных слов, иначе – заносится. Таким образом, предлоги, союзы, частицы и междометия не появляются в массиве уникальных слов введённого текста, как будто их в этом тексте и нет.
Второе усовершенствование реализуется с помощью стемминга. В программе должен быть реализован алгоритм стемминга Портера [1] для русского языка [2], или другой алгоритм стемминга, не уступающий по качеству стеммингу Портера. Допускается подключить и использовать готовый класс для стемминга, взятый из Интернета. Стемминг изменяет программу следующим образом:
1. При занесении всех уникальных слов текста (кроме слов из стоп-словаря) в массив каждое слово подвергается стеммингу, т.е. выделяется его основа.
...