Сравнение методов и алгоритмов кластеризации данных из различных предметных областей

Автор: Глеб Чернышов • Апрель 14, 2022 • Курсовая работа • 2,919 Слов (12 Страниц) • 373 Просмотры

Страница 1 из 12

Федеральное государственное образовательное бюджетное учреждение высшего образования

«Финансовый университет

при Правительстве Российской Федерации» (Финансовый университет)

«Департамент анализа данных и информационных технологий»

Курсовая работа

на тему:

«Сравнение методов и алгоритмов кластеризации данных из различных предметных областей»

Выполнил: студент группы ПМ 17-4 Платонов Матвей Владимирович[pic 1]

Научный руководитель:

Корчагин.С.А[pic 2]

Москва 2020

Оглавление

Введение 3

1. Обзор алгоритмов кластеризации данных 4

• K-means 4

• Mini Batch K-Means 4

• Affinity Propagation 5

• Mean Shift 6

• Spectral clustering 7

• Agglomerative Clustering 7

• DBSCAN 8

• OPTICS 9

• Birch 10

2. Практическая часть 12

Заключение 21

Список литературы 22

Приложение 23

Введение

Кластеризация — это метод поиска закономерностей, предназначенный для разбиения совокупности объектов на однородные группы (кластеры) или поиска существующих структур в данных. Для чего это нужно компаниям? Чтобы найти индивидуальный подход к каждому клиенту, а не работать со всеми одинаково. Это обуславливает актуальность темы исследования.

Целью этой работы является рассмотрение алгоритмов кластеризации для различных предметных областей.

Были поставлены следующие задачи:

изучение существующих алгоритмов кластеризации
программная реализация этих алгоритмов
применение и поиск лучших алгоритмов в различных областях

Предметом исследования являются несколько наборов данных, которые будут разделяться на кластеры с помощью различных алгоритмов.

Объект изучения данной работы – несколько датасетов из различных предметных областей.

Обзор алгоритмов кластеризации данных

K-means

Алгоритм группирует данные, пытаясь разделить выборки в n групп равной дисперсии, минимизируя критерий, известный как инерция или сумма квадратов внутри кластера. Этот алгоритм требует указания количества кластеров. Он хорошо масштабируется до большого количества образцов и используется в большом диапазоне областей применения в различных областях.

Алгоритм k-means делит набор из N выборок X на K непересекающихся кластеров C, каждый из которых описывается средним нюj выборок в кластере. Средние нюj обычно называют центроидами кластера.

Алгоритм K-средних предназначен для выбора центроидов, которые минимизируют критерий суммы квадратов внутри кластера.

Алгоритм поддерживает веса выборок, которые могут задаваться параметром sample_weight. Это позволяет присваивать больший вес некоторым образцам при вычислении центров кластера и значений инерции. Например, назначение веса 2 образцу эквивалентно добавлению дубликата этого образца в набор данных X.

Mini Batch K-Means

MiniBatchKMeans - это вариант алгоритма K-Means, который использует мини-пакеты для сокращения времени вычислений, одновременно пытаясь оптимизировать ту же целевую функцию. Мини-пакеты - это подмножества входных данных, произвольно дискретизируемые в каждой итерации обучения. Эти мини-пакеты значительно уменьшают объем вычислений, необходимых для конвергенции в локальное решение. MiniBatchKMeans сходится быстрее KMeans, но качество результатов снижается. На практике это различие в качестве может быть довольно небольшим.

...

Скачать: txt (41.9 Kb) pdf (922.2 Kb) docx (1.2 Mb)

Продолжить читать еще 11 страниц(ы) »

Читать полный текст Сохранить

Доступно только на Essays.club