Применение алгоритмов таксономии для smart-анализа результатов автоматизированного анкетирования
Автор: pacmanfriend • Март 27, 2023 • Статья • 1,163 Слов (5 Страниц) • 207 Просмотры
УДК 004.75
Применение алгоритмов таксономии для smart-анализа результатов автоматизированного анкетирования
Антонов Владислав Игоревич
Студент кафедры информатики и вычислительной техники
ФГБОУ ВО «СКГМИ (ГТУ)»
E-mail: vantonov95@yandex.ru
Моураов Алан Георгиевич
Научный руководитель, канд. техн. наук., доцент, зав. каф. ИТС ФГБОУ ВО «СКГМИ (ГТУ)»
АННОТАЦИЯ
Проект посвящен применению алгоритмов таксономии для обработки и кластеризации больших объемов данных и приведении их в удобный для анализа вид. В работе представлены подходы по использованию методов таксономии для минимизации объемов обрабатываемых данных для последующего принятия решения.
Ключевые слова: метод эталонов, алгоритмы семейства FOREL, таксономия, анализ данных, принятие решений на основе данных, язык программирования C#, информационные технологии.
В настоящее время практически во всех современных информационных системах проводится обработка больших массивов данных. Во многих из них широко используются алгоритмы минимизации объемов данных. В качестве примера можно привести модель MapReduce, используемую при обработке Big-Data.
Таким образом возникает необходимость в поиске альтернативных решений, которые позволят минимизировать объемы данных путем их кластеризации, чтобы в дальнейшем рассматривать центры таксонов как объекты, обобщающие их группы.
В качестве решения этой проблемы предлагается разработать модуль, отвечающий за получение массива таксонов. В модуле реализованы следующие алгоритмы:
- FOREL1 [1].
- FOREL2 [1].
- Метод эталонов в сочетании с алгоритмом Прима.
Для того, чтобы гарантировать оптимальность решения задачи по Парето был реализован метод эталонов в сочетании с алгоритмом Прима [2-6].
Пусть заданы следующие условия задачи:
- Критерии, характеризующие некоторый объект.
- Массив объектов.
Оптимальными считаются такие сочетания значений переменных, для которых вектор критериев определяет точку в пространстве критериев, которая находится на минимальном расстоянии от идеального сочетания значений критериев.
Задачу можно записать формально. Введем следующие обозначения:
n – количество объектов,
m – количество обязательных критериев,
[pic 1] – заданные объекты [pic 2],
[pic 3] – j-ый критерий i-го объекта [pic 4],
[pic 5] – матрица критериев объектов,
[pic 6] – расстояние между i-м объектом и центром таксона,
[pic 7]
,
Данные, представленные в матрице А задачи (1) – есть результат преобразования и нормирования исходных данных.
Правила преобразования данных:
1. Если критерий выражен численно, то оставляем его без изменений.
2. Если критерий выражен текстом, то определяем количество слов, совпадающих с соответствующим критерием эталонного объекта.
3. Если критерий выражен логическим (булевым) значением, то при соответствии с тем же критерием эталонного объекта, ему (критерию объекта) присваивается значение 1; иначе – 0.
Нормирование данных производится с использованием формулы:
[pic 8](2),
где:
[pic 9], n – количество объектов,
[pic 10], m – количество критериев,
[pic 11] – минимальное значение j-го критерия, ([pic 12]),
[pic 13] – максимальное значение j-го критерия, ([pic 14]),
[pic 15] – j-ый критерий i-го объекта после преобразования.
([pic 16]), ([pic 17])
В качестве решения поставленной задачи (1) была разработана библиотека классов, реализующая методы таксономии для минимизации объемов обрабатываемых данных. Модуль позволяет получить список объектов, разбитых на таксоны. Для разработки модуля использовались платформа .NET Core и язык программирования C#.
Достоинства:
- универсальный подход для решения задач кластеризации данных;
- простое и интуитивно понятное решение;
- уменьшает объем данных для последующего анализа.
Недостатки:
- время необходимое для получения результата зависит, как и от количества объектов, так и от количества критериев, по которым производится вычисление.
Перспективы развития:
- разработка модификации модуля, увеличивающей скорость кластеризации данных путем внедрения параллельных вычислений;
- разработка модификации модуля, учитывающей современные тренды и спрос.
Рассмотрим пример работы алгоритмов при группировке результатов анкеты. Пусть требуется группировать результаты анкетирования для получения обобщенной оценки качества образовательных услуг, предоставляемых вузом. Изначальные данные представлены в виде ответов на вопросы одиночного выбора. Количество вопросов – 17. Итого: одно поле с идентификаторами (ИД) и 17 ответов для каждого респондента. Для первичного этапа группировки возьмем часть полей, чтобы сократить объем обрабатываемой информации:
...