Реализация определения тематики текстов в Java
Автор: Tank93 • Апрель 27, 2018 • Курсовая работа • 16,979 Слов (68 Страниц) • 492 Просмотры
Реализация определения тематики текстов в Java
Оглавление
Введение 3
Глава 1. DATA MINING И TEXT MINING. ЗАДАЧА КЛАССИФИКАЦИИ 6
1. Что такое Data Mining 6
2. Анализ текстовой информации — Text Mining 8
2.1. Этапы анализа текстов 8
2.2. Задачи Text Mining 11
2.2.1 Классификация текстовых документов 13
2.2.1.1 Описание задачи классификации текстов 13
2.2.1.2 Основные подходы к представлению текстов для компьютерной обработки 15
Использование морфологии 16
TF*IDF 17
Борьба с высокой размерностью: сокращение числа используемых атрибутов путем выделения наиболее значимых. 18
2.2.2 Задача аннотирования текстов 19
2.3 Методы классификации текстовых документов 24
2.3.1 Обзор методов машинного обучения 26
2.3.1.1 Метод Байеса 26
2.3.1.2 Метод k-ближайших соседей 28
2.3.1.3 Rocchio classifier 28
2.3.1.4 Нейронные сети. 29
2.3.1.5 Деревья решений. 30
2.3.1.6 Построение булевых функций 32
2.3.1.7 Support Vector Machines 34
2.3.1.8 Иммунокомпьютинг 35
2.3.2 Обзор методов, основанных на знаниях 39
2.3.2.1 Технология классификации LexisNexis 40
2.3.2.2 Технология классификации Reuters 40
2.3.2.3 Технология классификации документов на основе тезауруса УИС РОССИЯ 41
2.4 Метрики качества рубрицирования 43
2.4.1 Оценки метода машинного обучения на коллекции документов 45
ГЛАВА 2. ПОСТРОЕНИЕ МАТЕМАТИЧЕСКОЙ МОДЕЛИ КЛАССИФИКАЦИИ ТЕКСТОВ 48
2.1 Постановка задачи 48
2.2 Формализация задачи 50
2.3 Модель определения тематики текста 51
ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ 64
3.1 Обоснование выбора языка программирования 64
3.2 Интерфейс программного продукта в Java 64
3.3 Работа с программными модулями 67
3.4 Описание основных составляющих программного продукта 71
Заключение 80
Список литературы 81
Приложение 86
ВВЕДЕНИЕ
В настоящий момент времени запросы науки и практики требуют решения таких задач, где необходим быстрый анализ больших объемов разнородной информации, поступающей в режиме реального времени (потоковый анализ информации). От содержательного специалиста требуется умение быстро принимать правильные конкретные управленческие решения по результатам проведенных социологических исследований, в частности, в условиях неопределенности, дефицита времени, осуществлять точное прогнозирование и т.д.
Для решения таких задач могут быть использованы технологии и подходы математической теории распознавания и классификации.
Данные подходы в качестве исходной информации используют лишь наборы описаний-наблюдений объектов, предметов, ситуаций или процессов (выборки прецедентов), при этом каждое отдельное наблюдение-прецедент записывается в виде вектора значений отдельных его свойств-признаков. Выборки признаковых описаний являются простейшими стандартизованными представлениями первичных исходных данных, которые возникают в различных предметных областях в процессе сбора однотипной информации.
...