Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Алгоритмы кластеризации

Автор:   •  Март 17, 2021  •  Лабораторная работа  •  756 Слов (4 Страниц)  •  235 Просмотры

Страница 1 из 4

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ  РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное бюджетное образовательное учреждение
высшего образования  «УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Кафедра вычислительной математики и кибернетики

Отчет по лабораторной работе работе №1

по курсу «Инженерия знаний и интеллектуальные системы»

Выполнил: студент гр. БИБ-407

Архипова Е.Ю

                                                                                                                 Проверила: Агадуллина А. И

Уфа – 2021.

Цель работы:

Изучение вопросов обработки данных как последовательности действий для

получения результата. Алгоритмы кластеризации.

Шаги RFM (недавность, частота, денежный перевод):

  1. Рассчитать давность, частоту, денежное выражение для каждого покупателя.
  2. Добавить значения интервалов сегмента в таблицу RFM, используя квартиль.
  3. Отсортировать оценки RFM клиентов в порядке возрастания.

Шаги кластерного анализа (k-mean, Single Linkage, Average Linkage, Complete Linkage ):

  1. Провести кластерный анализ выбранными методами
  2. Сравнить методы и качество анализа
  3. Описать результаты анализа и получившиеся кластеры

На входе :

  • id заказа, id клиента, сумма заказа, время заказа
  • Данные за промежуток времени: 2020-05-21 по 2021-02-21

На выходе :

  • Таблица с id клиента, id кластера, оценка клиента

Ход работы:

Шаг 1 : Импорт библиотек и загрузка данных

[pic 1]

Рис.1

[pic 2]

Рис.2

[pic 3]

Рис.3

Шаг 2 : Очистка данных

Расчет недостающих значений в процентном соотношении в DF

[pic 4]

Рис.4

Шаг 3: Подготовка данных

Мы собираемся анализировать клиентов на основе следующих трех факторов:

  • R (Recency) количество дней с момента последней покупки клиента.
  • F (Frequency): количество заказов клиента.
  • M (Monetary): общая сумма транзакций клиента.

[pic 5]

Рис.4

[pic 6]

Рис.5

[pic 7]

Рис.6

[pic 8]

Рис.7

[pic 9]

Рис.8

[pic 10]

Рис.9

Интерпретация результатов RFM

Объединим все три квартиля (r_quartile, f_quartile, m_quartile) в одном столбце, этот рейтинг поможет нам хорошо сегментировать группу клиентов.

  • Низкая ценность: клиенты, которые менее активны, чем другие, не очень частые покупатели / посетители и приносят очень низкий нулевой - возможно, отрицательный доход.
  • Средняя ценность: часто используют нашу платформу (но не так часто, как покупатели высокой ценности), приносят умеренный доход.
  • Высокая ценность: группа, которую мы не хотим терять. Высокий доход, Частота и низкий уровень бездействия.

[pic 11]

Рис.10

Есть 2 типа выбросов, которые мы будем обрабатывать:

  • Статистический
  • Зависящий от домена

[pic 12]

Рис.11

[pic 13]

Рис.12

Изменение масштаба атрибутов

важно изменить масштаб переменных, чтобы они имели сопоставимый масштаб. Есть два распространенных способа изменения масштаба:

  • Минимакс масштабирование
  • Стандартизация (среднее-0, сигма-1) Будем использовать стандартизацию. Цель — преобразовать исходный набор в новый со средним значением равным 0 и стандартным отклонением равным 1.

[pic 14]

Рис.13

...

Скачать:   txt (8.9 Kb)   pdf (1.9 Mb)   docx (1.3 Mb)  
Продолжить читать еще 3 страниц(ы) »
Доступно только на Essays.club