Исследование методов и способов очистки данных
Автор: Sfedu VR • Май 10, 2019 • Лабораторная работа • 3,800 Слов (16 Страниц) • 556 Просмотры
Южный Федеральный Университет
Институт компьютерных технологий и информационной безопасности
Кафедра САПР
ЛАБОРАТОРНАЯ РАБОТА №1
«Исследование методов и способов очистки данных»
по дисциплине
«Технологии обработки информации»
Методические указания
Таганрог 2019
Цель работы: исследование эффективности методов очистки (профайлинга) данных.
Задания к работе:
- Ознакомиться с теоретическим материалом, описывающим причины возникновения ошибок в «сырых» данных и способы их корректировки.
- Для каждого типа ошибок в данных построить алгоритм их выявления и выбранного способа корректировки.
- Задавшись несколькими (2-3) входными наборами данных разной длины с искусственно введенными ошибками, реализовать построенные в п.2 алгоритмы (выбор языка программирования осуществляется самостоятельно).
- Проанализировать результаты, полученные при использовании разных способов очистки, сравнивая их по выбранному критерию.
- Сделать выводы по эффективности применения использованных способов и алгоритмов очистки данных.
Теоретические сведения[1]*
Информация, обработка которой планируется с помощью ТОИ, как правило, не обладает априори свойствами необходимости и достаточности, поскольку реальные данные редко бывают хорошего качества. Поэтому для эффективного применения методов обработки и анализа данных следует обратить серьезное внимание на вопросы оценки качества и предобработки данных.
Основные типы ошибок, которые присутствуют в «грязных» данных: пропуски, дубликаты, аномальные значения (иыбросы), шумы. Рассмотрим более подробно причины возникновения указанных ошибок и способы их корректировки.
Часть 1. Пропуски данных
Для того чтобы понять, как правильно обработать пропуски, необходимо определить механизмы их формирования. Рассуждения будут построены в предположении, что исходные «грязные» данные имеют табличную структуру.
Различают следующие 3 механизма формирования пропусков: MCAR, MAR, MNAR.
MCAR (Missing Completely At Random) — механизм формирования пропусков , при котором вероятность пропуска для каждой записи набора одинакова. Например, если проводился социологический опрос, в котором каждому десятому респонденту один случайно выбранный вопрос не задавался, причем на все остальные заданные вопросы респонденты отвечали, то имеет место механизм MCAR. В таком случае игнорирование/исключение записей содержащих пропущенные данные не ведет к искажению результатов.
MAR (Missing At Random) — на практике данные обычно пропущены не случайно, а ввиду некоторых закономерностей. Пропуски относят к MAR, если вероятность пропуска может быть определена на основе другой имеющейся в наборе данных информации, не содержащей пропуски. В таком случае удаление или замена пропусков на значение «Пропуск», как и в случае MCAR, не приведет к существенному искажению результатов.
MNAR (Missing Not At Random) — механизм формирования пропусков, при котором данные отсутствуют в зависимости от неизвестных факторов. MNAR предполагает, что вероятность пропуска могла бы быть описана на основе других атрибутов, но информация по этим атрибутам в наборе данных отсутствует. Как следствие, вероятность пропуска невозможно выразить на основе информации, содержащейся в наборе данных.
Рассмотрим различия между механизмами MAR и MNAR на примере. Люди, занимающие руководящие должности и/или получившие образование в престижном вузе чаще, чем другие респонденты, не отвечают на вопрос о своих доходах. Поскольку занимаемая должность и образование сильно коррелируют с доходами, то в таком случае пропуски в поле доходы уже нельзя считать совершенно случайными, то есть говорить о случае MCAR не представляется возможным. Если в наборе данных есть информация об образовании и должности респондентов, то зависимость между повышенной вероятностью пропуска в графе доходов и этой информацией может быть выражена математически, следовательно, выполняется гипотеза MAR. В случае MAR исключение пропусков вполне приемлемо. Однако если информация о занимаемой должности и образовании у нас отсутствует, то тогда имеет место случай MNAR. При MNAR просто игнорировать или исключить пропуски уже нельзя, так как это приведет к значительному искажению распределения статистических свойств выборки.
...