Алгоритмы кластеризации
Автор: Kate Hecate • Март 17, 2021 • Лабораторная работа • 756 Слов (4 Страниц) • 242 Просмотры
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение
высшего образования «УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»
Кафедра вычислительной математики и кибернетики
Отчет по лабораторной работе работе №1
по курсу «Инженерия знаний и интеллектуальные системы»
Выполнил: студент гр. БИБ-407
Архипова Е.Ю
Проверила: Агадуллина А. И
Уфа – 2021.
Цель работы:
Изучение вопросов обработки данных как последовательности действий для
получения результата. Алгоритмы кластеризации.
Шаги RFM (недавность, частота, денежный перевод):
- Рассчитать давность, частоту, денежное выражение для каждого покупателя.
- Добавить значения интервалов сегмента в таблицу RFM, используя квартиль.
- Отсортировать оценки RFM клиентов в порядке возрастания.
Шаги кластерного анализа (k-mean, Single Linkage, Average Linkage, Complete Linkage ):
- Провести кластерный анализ выбранными методами
- Сравнить методы и качество анализа
- Описать результаты анализа и получившиеся кластеры
На входе :
- id заказа, id клиента, сумма заказа, время заказа
- Данные за промежуток времени: 2020-05-21 по 2021-02-21
На выходе :
- Таблица с id клиента, id кластера, оценка клиента
Ход работы:
Шаг 1 : Импорт библиотек и загрузка данных
[pic 1]
Рис.1
[pic 2]
Рис.2
[pic 3]
Рис.3
Шаг 2 : Очистка данных
Расчет недостающих значений в процентном соотношении в DF
[pic 4]
Рис.4
Шаг 3: Подготовка данных
Мы собираемся анализировать клиентов на основе следующих трех факторов:
- R (Recency) количество дней с момента последней покупки клиента.
- F (Frequency): количество заказов клиента.
- M (Monetary): общая сумма транзакций клиента.
[pic 5]
Рис.4
[pic 6]
Рис.5
[pic 7]
Рис.6
[pic 8]
Рис.7
[pic 9]
Рис.8
[pic 10]
Рис.9
Интерпретация результатов RFM
Объединим все три квартиля (r_quartile, f_quartile, m_quartile) в одном столбце, этот рейтинг поможет нам хорошо сегментировать группу клиентов.
- Низкая ценность: клиенты, которые менее активны, чем другие, не очень частые покупатели / посетители и приносят очень низкий нулевой - возможно, отрицательный доход.
- Средняя ценность: часто используют нашу платформу (но не так часто, как покупатели высокой ценности), приносят умеренный доход.
- Высокая ценность: группа, которую мы не хотим терять. Высокий доход, Частота и низкий уровень бездействия.
[pic 11]
Рис.10
Есть 2 типа выбросов, которые мы будем обрабатывать:
- Статистический
- Зависящий от домена
[pic 12]
Рис.11
[pic 13]
Рис.12
Изменение масштаба атрибутов
важно изменить масштаб переменных, чтобы они имели сопоставимый масштаб. Есть два распространенных способа изменения масштаба:
- Минимакс масштабирование
- Стандартизация (среднее-0, сигма-1) Будем использовать стандартизацию. Цель — преобразовать исходный набор в новый со средним значением равным 0 и стандартным отклонением равным 1.
[pic 14]
Рис.13
...