Кластерный анализ данных
Автор: baraelena • Март 18, 2019 • Реферат • 812 Слов (4 Страниц) • 522 Просмотры
КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ
В последнее время, производя анализ и прогнозирование таких явлений как социально-экономические, зачастую сталкиваешься со свойством многомерности их описания. Данные свойство присуще при сегментировании рынка или при прогнозировании конъюнктуры рынка различных товаров, или при выстраивании типология стран по довольно большому числу критериев, а так же при детальном изучении экономической депрессии.
Говоря о кластерном анализе, принято подразумевать как один из методов многомерной статистики, который очень вырожден в отражении черт многомерности процедуры классификации каких-либо объектов.
Основным предназначением кластерного анализа является то, как он разбивает множества исследуемых объектов, которые безукоризненно характеризуются определенной совокупностью признаков. Выделив компактные, удаленные друг от друга группы объектов или совокупность области их скопления, происходит разбиение на однородные кластеры.
Данный (кластерный) анализ непосредственно связан со статистическими исследованиями социально-экономических процессов, которые в свою очередь определяют ход изучения массовых явлений. Достоинством его является, как уже говорилось – способ разбиения объектов по целому набору признаков. Из-за этого, кластерный анализ, отличается от многих других математико-статистических способов разбиения. Он не накладывает ограничения на изучаемые объекты, а позволяется рассматривать большое количество исходных данных различного природного происхождения. Например, это играет значительную роль в прогнозировании конъюнктуры рынка, где традиционные экономические подходы являются неэффективными из-за разнообразных показателей прогнозирования.
Немаловажную роль кластерный анализ представляет для временных рядов, которые характеризуют экономическое развитие в целом. Так же часто выделяют периоды, когда значения показателей были достаточно близки друг к другу или когда возможно определить группы показателей со схожей динамикой во времени. Эти явления исключительно благоприятные.
Недостатком кластерного анализа, который накладывает определенные ограничения на разбиение является то, что состав и количество кластеров определенно зависит от выбранного критерия разбиения. Когда происходит сведение исходного массива данных к более компактному виду, то возникают некие искажения, а так же происходит потеря индивидуальных черт отдельных объектов из-за замены их характеристик на обобщенные значения параметров кластера.
Производя разбиении, кластеры обладают следующими свойствами:
Первое свойство – это плотность распределения наблюдений внутри кластера. Данное свойство обычно позволяет определить «наполнённость» кластера. Он может так же быть и разряженным. Как бы неочевидным не казалось это свойство, простого способа вычисления плотности не имеется. Одним из удачных показателей плотности «упаковки» и компактности многомерных наблюдений является дисперсия расстояния от центра кластера до отдельных точек. Иными словами, чем меньше дисперсия расстояния, тем больше плотность кластера и его расстояние наблюдения становится ближе к центру самого кластера.
Второе свойство – это размер кластера, где «радиус» является основным показателем этого размера. Если кластер обладает шарообразной формой или является гиперсферой в многомерном пространстве, то это говорит о полном отражении фактического размера кластера.
Третье свойство – это локальность или отделимость кластеров, характеризующая степень перекрытия и взаимной удаленности кластеров друг от друга в много мерном пространстве, то есть здесь целесообразно объединять наиболее близкие кластеры друг к другу или их перекрывающие части.
...