Кластеризация данных
Автор: Даша • Декабрь 16, 2021 • Лабораторная работа • 347 Слов (2 Страниц) • 245 Просмотры
Для выполнения работы предоставляется файл DATA24Claster№.txt. В первой строке 2 числа: количество столбцов и количество строк. Разделения переменных на входные и выходные нет. Все столбцы - входные переменные хn,n=1,10. Для выполнения лабораторной работы запускается программа CLASTER.exe.
После открытия файла «open» отмечать тип переменных не нужно. При инициализации «Init» активизируются кнопки «Start» и «Sammon». Для применения методов кластеризации K-means и C-means требуется задать количество кластеров (по умолчанию 2) . Для предварительного просмотра возможности разбиения данных на группы с похожими свойствами запустить двумерное представление «Sammon»(рис. 1).
[pic 1]
Рис. 1. Двумерное представление «Sammon» при просмотре
После стабилизации картинки нажимаем «Stop». По умолчанию, первоначальное количество кластеров равно 2.
Устанавливаем для рассматриваемого варианта 4 кластера.
[pic 2], выбираем метод[pic 3], [pic 4]. После окончания расчета снова проводим визуализацию[pic 5](рис. 2).
[pic 6]
Рис. 2. Визуализация «Sammon» для 4 кластеров
Большие кружки показывают центры кластеров, теперь они расположены в своих группах. В окошке [pic 7] появилось значение ошибки кластеризации. Эту величину следует зафиксировать. В правой части заполнилась таблица с координатами центров[pic 8].Каждый столбец соответствует кластеру, строки соответствуют координате (размерность данных -10). В последнем столбце приведены координаты точки Х, по которым требуется определить, к какому кластеру принадлежит эта точка и какое расстояние от этой точки до ближайшего кластера. Для облегчения расчета таблицу записываем в текстовый файл C[i,k].txt через кнопку меню [pic 9]. Этот файл можно открыть в Excel, ввести формулу для определения расстояния [pic 10], найти наименьшее расстояние и отнести точку к этому кластеру (рис. 3).
...