Области применения процедур кластеризации
Автор: Дмитрий Стопичев • Декабрь 17, 2023 • Реферат • 2,308 Слов (10 Страниц) • 109 Просмотры
[pic 1]
МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение
высшего образования
«Новосибирский государственный университет экономики и управления «НИНХ»
(ФГБОУ ВО «НГУЭУ», НГУЭУ)
Кафедра статистики
РЕФЕРАТ
Области применения процедур кластеризации
Дисциплина: Многомерные статистические методы анализа
Ф.И.О студента: Стопичев Дмитрий Андреевич
Направление: 38.04.01 Экономика
Направленность (профиль): Бизнес-аналитика и экономическое прогнозирование
Номер группы: БА101
Номер зачетной книжки: 212170
Проверил: Найверт Иван Владимирович, ассистент кафедры статистики
Новосибирск 2023
Содержание
Введение 3
1. Процедуры кластеризации в анализе данных 5
1.1 Сущность кластеризации 5
1.2 Роль кластеризации в анализе данных 6
2. Методы кластеризации 9
2.1 Кластеризация методом k-средних 9
2.2 Иерархический кластерный анализ 11
3. Области применения процедур кластеризации 13
Заключение 15
Список использованных источников 16
Введение
В процессе становления эры цифровизации и взрывным ростом объемов данных, перед нашим обществом встала острая необходимость в разработке эффективных методов их обработки. В этом контексте процедуры кластеризации выделяются как мощный инструмент, способный систематизировать и структурировать множество информации. Кластеризация, использующаяся как метод машинного обучения, претендует на роль ключевого элемента в анализе данных, способного раскрывать скрытые закономерности и открывать новые грани понимания информации.
Наиболее важной задачей процедур кластеризации является группировка данных по их схожести. Суть этого метода заключается в выделении наборов данных, которые обладают общими характеристиками, образуя тем самым кластеры.
Особого внимания требует рассмотрение различных областей применения процедур кластеризации и их влияние на различные сферы жизнедеятельности. Процедуры кластеризации демонстрируют свою универсальность и эффективность в обработке разнообразных данных.
Объектом исследования являются процедуры кластеризации, предметом – области их применения.
Целью работы выступает рассмотрение разнообразных областей применения процедур кластеризации, выявить их влияние на эффективность анализа данных в различных сферах.
Для достижения цели поставлены следующие задачи:
1. Изучить сущность процедур кластеризации и роль кластеризации в анализе данных
2. Ознакомиться с иерархическими и неиерархическими алгоритмами кластеризации
3. Рассмотреть области применения процедур кластеризации
Процедуры кластеризации в анализе данных
Сущность кластеризации
Как и во многих концепциях научного характера, термин "кластеризация" подвергается разнообразным толкованиям и определениям. Множество специалистов предоставляют следующую дефиницию: "Кластерный анализ (Data clustering) – это задача разделения установленного множества объектов (ситуаций) на взаимно исключающие подмножества, называемые кластерами, таким образом, чтобы каждый кластер включал в себя схожие объекты, в то время как объекты из различных кластеров имели существенные различия". [5]
Процесс применения кластерного анализа, в обобщенной форме, подразумевает выполнение следующих этапов:
- Выборка объектов для кластеризации - определение подмножества объектов, которые будут подвергнуты процедуре кластеризации.
- Определение переменных - установление набора переменных, по которым будут оцениваться объекты в выборке. При необходимости, проведение нормализации значений переменных.
- Вычисление меры сходства - оценка степени схожести между объектами через вычисление значений меры сходства.
- Применение метода кластерного анализа - применение конкретного метода кластерного анализа для формирования групп схожих объектов, т.е., создание кластеров.
- Представление результатов анализа - предоставление интерпретируемых результатов, что включает в себя как графическое, так и количественное представление образованных кластеров.
Такой процесс кластеризации предоставляет эффективный механизм для организации и выделения внутренних закономерностей в данных, что делает его ценным инструментом анализа в различных научных дисциплинах и областях практического применения. [2]
Сущность кластеризации заключается в разделении множества данных на группы, или кластеры, внутри которых элементы обладают схожими характеристиками. Это позволяет выделить внутренние структуры и закономерности, которые могли бы остаться незамеченными при более традиционных методах анализа. Кластеризация основывается на таких принципах, как схожесть элементов, неопределенность и итеративный процесс, зависимость от контекста.
...