Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Реализация определения тематики текстов в Java

Автор:   •  Апрель 27, 2018  •  Курсовая работа  •  16,979 Слов (68 Страниц)  •  492 Просмотры

Страница 1 из 68

Реализация определения тематики текстов в Java

Оглавление

Введение        3

Глава 1. DATA MINING И TEXT MINING. ЗАДАЧА КЛАССИФИКАЦИИ        6

1. Что такое Data Mining        6

2. Анализ текстовой информации — Text Mining        8

2.1. Этапы анализа текстов        8

2.2. Задачи Text Mining        11

2.2.1 Классификация текстовых документов        13

2.2.1.1 Описание задачи классификации текстов        13

2.2.1.2 Основные подходы к представлению текстов для компьютерной обработки        15

Использование морфологии        16

TF*IDF        17

Борьба с высокой размерностью: сокращение числа используемых атрибутов путем выделения наиболее значимых.        18

2.2.2 Задача аннотирования текстов        19

2.3 Методы классификации текстовых документов        24

2.3.1 Обзор методов машинного обучения        26

2.3.1.1 Метод Байеса        26

2.3.1.2 Метод k-ближайших соседей        28

2.3.1.3 Rocchio classifier        28

2.3.1.4  Нейронные сети.        29

2.3.1.5 Деревья решений.        30

2.3.1.6 Построение булевых функций        32

2.3.1.7 Support Vector Machines        34

2.3.1.8 Иммунокомпьютинг        35

2.3.2 Обзор методов, основанных на знаниях        39

2.3.2.1 Технология классификации LexisNexis        40

2.3.2.2 Технология классификации Reuters        40

2.3.2.3 Технология классификации документов на основе тезауруса УИС РОССИЯ        41

2.4 Метрики качества рубрицирования        43

2.4.1 Оценки метода машинного обучения на коллекции документов        45

ГЛАВА 2. ПОСТРОЕНИЕ МАТЕМАТИЧЕСКОЙ МОДЕЛИ КЛАССИФИКАЦИИ ТЕКСТОВ        48

2.1 Постановка задачи        48

2.2 Формализация задачи        50

2.3 Модель определения тематики текста        51

ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ        64

3.1 Обоснование выбора языка программирования        64

3.2 Интерфейс программного продукта в Java        64

3.3 Работа с программными модулями        67

3.4 Описание основных составляющих программного продукта        71

Заключение        80

Список литературы        81

Приложение        86


ВВЕДЕНИЕ

В настоящий момент времени запросы науки и практики требуют решения таких задач, где необходим быстрый анализ больших объемов разнородной информации, поступающей в режиме реального времени (потоковый анализ информации). От содержательного специалиста требуется умение быстро принимать правильные конкретные управленческие решения по результатам проведенных социологических исследований, в частности, в условиях неопределенности, дефицита времени, осуществлять точное прогнозирование и т.д.

Для решения таких задач могут быть использованы технологии и подходы математической теории распознавания и классификации.

Данные подходы в качестве исходной информации используют лишь наборы описаний-наблюдений объектов, предметов, ситуаций или процессов (выборки прецедентов), при этом каждое отдельное наблюдение-прецедент записывается в виде вектора значений отдельных его свойств-признаков. Выборки признаковых описаний являются простейшими стандартизованными представлениями первичных исходных данных, которые возникают в различных предметных областях в процессе сбора однотипной информации.

...

Скачать:   txt (175.3 Kb)   pdf (4.2 Mb)   docx (2.3 Mb)  
Продолжить читать еще 67 страниц(ы) »
Доступно только на Essays.club