Сравнение методов и алгоритмов кластеризации данных из различных предметных областей
Автор: Глеб Чернышов • Апрель 14, 2022 • Курсовая работа • 2,919 Слов (12 Страниц) • 254 Просмотры
Федеральное государственное образовательное бюджетное учреждение высшего образования
«Финансовый университет
при Правительстве Российской Федерации» (Финансовый университет)
«Департамент анализа данных и информационных технологий»
Курсовая работа
на тему:
«Сравнение методов и алгоритмов кластеризации данных из различных предметных областей»
Выполнил: студент группы ПМ 17-4 Платонов Матвей Владимирович[pic 1]
Научный руководитель:
Корчагин.С.А[pic 2]
Москва 2020
Оглавление
Введение 3
1. Обзор алгоритмов кластеризации данных 4
• K-means 4
• Mini Batch K-Means 4
• Affinity Propagation 5
• Mean Shift 6
• Spectral clustering 7
• Agglomerative Clustering 7
• DBSCAN 8
• OPTICS 9
• Birch 10
2. Практическая часть 12
Заключение 21
Список литературы 22
Приложение 23
Введение
Кластеризация — это метод поиска закономерностей, предназначенный для разбиения совокупности объектов на однородные группы (кластеры) или поиска существующих структур в данных. Для чего это нужно компаниям? Чтобы найти индивидуальный подход к каждому клиенту, а не работать со всеми одинаково. Это обуславливает актуальность темы исследования.
Целью этой работы является рассмотрение алгоритмов кластеризации для различных предметных областей.
Были поставлены следующие задачи:
- изучение существующих алгоритмов кластеризации
- программная реализация этих алгоритмов
- применение и поиск лучших алгоритмов в различных областях
Предметом исследования являются несколько наборов данных, которые будут разделяться на кластеры с помощью различных алгоритмов.
Объект изучения данной работы – несколько датасетов из различных предметных областей.
Обзор алгоритмов кластеризации данных
K-means
Алгоритм группирует данные, пытаясь разделить выборки в n групп равной дисперсии, минимизируя критерий, известный как инерция или сумма квадратов внутри кластера. Этот алгоритм требует указания количества кластеров. Он хорошо масштабируется до большого количества образцов и используется в большом диапазоне областей применения в различных областях.
Алгоритм k-means делит набор из N выборок X на K непересекающихся кластеров C, каждый из которых описывается средним нюj выборок в кластере. Средние нюj обычно называют центроидами кластера.
Алгоритм K-средних предназначен для выбора центроидов, которые минимизируют критерий суммы квадратов внутри кластера.
Алгоритм поддерживает веса выборок, которые могут задаваться параметром sample_weight. Это позволяет присваивать больший вес некоторым образцам при вычислении центров кластера и значений инерции. Например, назначение веса 2 образцу эквивалентно добавлению дубликата этого образца в набор данных X.
Mini Batch K-Means
MiniBatchKMeans - это вариант алгоритма K-Means, который использует мини-пакеты для сокращения времени вычислений, одновременно пытаясь оптимизировать ту же целевую функцию. Мини-пакеты - это подмножества входных данных, произвольно дискретизируемые в каждой итерации обучения. Эти мини-пакеты значительно уменьшают объем вычислений, необходимых для конвергенции в локальное решение. MiniBatchKMeans сходится быстрее KMeans, но качество результатов снижается. На практике это различие в качестве может быть довольно небольшим.
...