Кластерний аналіз
Автор: cikiwu • Апрель 9, 2018 • Лабораторная работа • 777 Слов (4 Страниц) • 468 Просмотры
Лабораторна робота № 4 "Кластерний аналіз"
Хід роботи:
- Відкрити модуль "Кластерний аналіз"(Cluster Analysis) ППП "Statistica".
- Натисніть "Open Data" і у вікні "Clustering Method", що відкрилось виберіть файл "cars.sta". У файлі знаходяться данні про 22 автомобіля. Данні про окремий автомобіль(марка автомобіля і його характеристика) ˗ це cases. Всі значення змінних вже стандартизовані. Так наприклад із значень змінної "price" було вирахувано середню ціну і результат поділено на корінь квадратний із дисперсії.
Необхідно розбити автомобілі на групи, у яких автомобілі відрізняються істотніше менше ніж в цілому по сукупності за сукупністю параметрів.
- Вибрати у вікні "Clustering Method", яке відкрилось метод k-means clustering (k-середніх).
Цей метод працює з об’єктами, а не з матрицею похідності. У методі об’єкт відноситься до того класу, відстань до якого мінімальна. Відстань ˗ евклідова відстань, тобто об’єкти розглядаються як точки Евклідова простору.
- Натисніть "ОК".
- У діалоговому вікні "Clustering Method: k-means clustering" (Кластерний аналіз k-середніх):
5.1 Натисніть на кнопку " Variables" . У вікні, що відкрилось виберіть змінні для аналізу та натисніть "ОК".
5.2 У полі "Cluster" виберіть Cases.
Альтернативним вибором був би вибір Variables, якщо потрібно кластеризувати змінні.
5.3 У полі " Number of clusters " виберіть кількість груп, на які ми бажаємо розбити автомобілі.
5.4 У полі " Number of iterations " виберіть максимальну кількість ітерацій при побудові класів.
5.5 У полі "Missing data" задайте спосіб обробки пропущених даних, якщо вони є.
5.6 Група опцій "Initial cluster centers" дозволяє задати початкові значення для центрів кластерів.
5.7 Натисніть на кнопку "ОК".
6 У діалоговому вікні " У діалоговому вікні " k-means Сlustering
Analysis Result" (Результати кластерного аналізу) проаналізуйте результати виконання аналізу:
6.1 "Analysis of variance" дозволяє продивитись таблицю результатів.
6.2 "Cluster means & Euclidean distances " дозволяє отримати таблиці зі значеннями середніх для кожного кластеру, евклідової відстані і квадрати евклідової відстані.
Для кожного з параметрів всередині кластеру розраховується середнє, отримується 3 точки у п’ятимірному просторі і між ними знаходять відстань.
В таблиці значення квадратів евклідової відстані знаходяться над діагональю.
6.3 "Descriptive Statistics for each clusters" дозволяє переглянути таблицю з описовими статистиками.
6.4 "Save classifications and distances " дозволяє зберегти результати класифікації у файл.
6.5 "Member of each clusters & distances " переглянути сформовані кластери.
Вхідні дані до самостійної роботи:
Вхідні дані студент збирає самостійно.
Завдання на виконання
1 Здійснить кластерізацію автомобілів (данні знаходяться у файлі cars.sta) і проаналізуйте отримані результати.
...