Операции подготовки данных к анализу. Слияние, нормализация и настройка наборов данных
Автор: Даниил Сафонов • Май 21, 2023 • Практическая работа • 2,076 Слов (9 Страниц) • 187 Просмотры
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ
РОССИЙСКОЙ ФЕДЕРАЦИИ
Государственное автономное образовательное учреждение высшего образования
Южный федеральный университет
Инженерно-технологическая академия
Институт компьютерных технологий и информационной безопасности
Кафедра систем автоматизированного проектирования
ОТЧЁТ
по практической работе №3
Дисциплина: Технологи анализа и визуализации данных
Тема: Операции подготовки данных к анализу.
Слияние, нормализация и настройка наборов данных
Выполнил:
Принял:
1 Цель работы
Изучение операций обработки слияния, нормализации и настройки наборов данных.
Задание:
1. Ознакомиться с теоретическим материалом, описывающим базовые методы и алгоритмы слияния, нормализации и настройки наборов данных.
2. Для каждой из перечисленных операций обработки данных оценить их трудоемкость.
3. Задавшись входными наборами данных указанной структуры, реализовать самостоятельно выбранные алгоритмы слияния, нормализации и настройки наборов данных (выбор языка программирования осуществляется самостоятельно).
4. Проанализировать полученные результаты.
5. Сделать выводы по эффективности применения исследуемых операций обработки данных.
2 Перечень программных средств
В качестве основного инструмента реализации алгоритмов, мною был выбран C#. Он обладает широким набором коллекций, которые удобно использовать для работы с данными. Набор данных был реализован в виде класса содержащего двумерную матрицу и реализующего весь необходимый функционал.
В качестве основных алгоритмов нормализации мною были выбраны десятичная и минимаксная нормализации.
[pic 1]
Рисунок 1 – Блок схема Десятичной нормализации
[pic 2]
Рисунок 2 – Минимаксная нормализация
3 Часть 1
В качестве структуры данных и формы представления я выбрал список словарей, подготовил данные сотрудников с атрибутами Имя – Возраст – Пол – Годовой доход с количеством записей равным 40, распределение по атрибутам Пол и Возраст примерно одинаковое.
[pic 3]
Рисунок 3 – Данные
Данные можно настроить добавив, удалив, или изменив запись. Для добавления используется функция AddNote.
[pic 4]
Рисунок 4 – Функция добавления
Сгруппируем данные по атрибутам пол и возраст.
[pic 5]
Рисунок 5 – Сгруппированные данные
Дополним данные в этой группе новой записью с помощью AddNote.
[pic 6]
Рисунок 6 – Добавление записи в данные
[pic 7]
Рисунок 7 – Дополненные сгруппированные данные
4 Часть 2
Нормализацию данных можно провести по столбцу доходы. Мною были реализованы 2 типа нормализации: Десятичное масштабирование и Минимаксная нормализация.
[pic 8]
Рисунок 8 – Нормализации
[pic 9]
Рисунок 9 – Результат Минимаксной нормализации
[pic 10]
Рисунок 10 – Результат Десятичная нормализации
[pic 11]
Рисунок 11 – Графики
5 Выводы по работе
В ходе выполнения работы мной были изучены методы обработки слияния, нормализации и настройки наборов данных.
Помимо этого, было проведено сравнение алгоритмов нормализации, в ходе которого было выяснено, что алгоритм минимаксной нормализации масштабирует данные лучше, чем десятичное масштабирование.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Методические указания к выполнению практических работ по дисциплине «Технологии анализа и визуализации данных» / [текст] / Южный федеральный университет, ЮФУ, САПР – Таганрог, 2022.
...