Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Сравнение методов и алгоритмов кластеризации данных из различных предметных областей

Автор:   •  Апрель 14, 2022  •  Курсовая работа  •  2,919 Слов (12 Страниц)  •  269 Просмотры

Страница 1 из 12

Федеральное государственное образовательное бюджетное учреждение высшего образования

«Финансовый университет

при Правительстве Российской Федерации» (Финансовый университет)

«Департамент анализа данных и информационных технологий»

Курсовая работа

на тему:

«Сравнение методов и алгоритмов кластеризации данных из различных предметных областей»

Выполнил: студент группы ПМ 17-4 Платонов Матвей Владимирович[pic 1]

Научный руководитель:

Корчагин.С.А[pic 2]

Москва 2020

Оглавление

Введение        3

1.    Обзор алгоритмов кластеризации данных        4

•    K-means        4

•    Mini Batch K-Means        4

•    Affinity Propagation        5

•    Mean Shift        6

•    Spectral clustering        7

•    Agglomerative Clustering        7

•    DBSCAN        8

•    OPTICS        9

•    Birch        10

2.    Практическая часть        12

Заключение        21

Список литературы        22

Приложение        23

Введение

Кластеризация — это метод поиска закономерностей, предназначенный для разбиения совокупности объектов на однородные группы (кластеры) или поиска существующих структур в данных. Для чего это нужно компаниям? Чтобы найти индивидуальный подход к каждому клиенту, а не работать со всеми одинаково. Это обуславливает актуальность темы исследования.

Целью этой работы является рассмотрение алгоритмов кластеризации для различных предметных областей.

Были поставлены следующие задачи:

  1. изучение существующих алгоритмов кластеризации
  2. программная реализация этих алгоритмов
  3. применение и поиск лучших алгоритмов в различных областях

Предметом исследования являются несколько наборов данных, которые будут разделяться на кластеры с помощью различных алгоритмов.

Объект изучения данной работы – несколько датасетов из различных предметных областей.

  1. Обзор алгоритмов кластеризации данных

  • K-means

Алгоритм группирует данные, пытаясь разделить выборки в n групп равной дисперсии, минимизируя критерий, известный как инерция или сумма квадратов внутри кластера. Этот алгоритм требует указания количества кластеров. Он хорошо масштабируется до большого количества образцов и используется в большом диапазоне областей применения в различных областях.

Алгоритм k-means делит набор из N выборок X на K непересекающихся кластеров C, каждый из которых описывается средним нюj выборок в кластере. Средние нюj обычно называют центроидами кластера.

Алгоритм K-средних предназначен для выбора центроидов, которые минимизируют критерий суммы квадратов внутри кластера.

Алгоритм поддерживает веса выборок, которые могут задаваться параметром sample_weight. Это позволяет присваивать больший вес некоторым образцам при вычислении центров кластера и значений инерции. Например, назначение веса 2 образцу эквивалентно добавлению дубликата этого образца в набор данных X.

  • Mini Batch K-Means

MiniBatchKMeans - это вариант алгоритма K-Means, который использует мини-пакеты для сокращения времени вычислений, одновременно пытаясь оптимизировать ту же целевую функцию. Мини-пакеты - это подмножества входных данных, произвольно дискретизируемые в каждой итерации обучения. Эти мини-пакеты значительно уменьшают объем вычислений, необходимых для конвергенции в локальное решение. MiniBatchKMeans сходится быстрее KMeans, но качество результатов снижается. На практике это различие в качестве может быть довольно небольшим.

...

Скачать:   txt (41.9 Kb)   pdf (922.2 Kb)   docx (1.2 Mb)  
Продолжить читать еще 11 страниц(ы) »
Доступно только на Essays.club