Исследование методов и способов очистки данных

Автор: Sfedu VR • Май 10, 2019 • Лабораторная работа • 3,800 Слов (16 Страниц) • 789 Просмотры

Страница 1 из 16

Южный Федеральный Университет

Институт компьютерных технологий и информационной безопасности

Кафедра САПР

ЛАБОРАТОРНАЯ РАБОТА №1

«Исследование методов и способов очистки данных»

по дисциплине

«Технологии обработки информации»

Методические указания

Таганрог 2019

Цель работы: исследование эффективности методов очистки (профайлинга) данных.

Задания к работе:

Ознакомиться с теоретическим материалом, описывающим причины возникновения ошибок в «сырых» данных и способы их корректировки.
Для каждого типа ошибок в данных построить алгоритм их выявления и выбранного способа корректировки.
Задавшись несколькими (2-3) входными наборами данных разной длины с искусственно введенными ошибками, реализовать построенные в п.2 алгоритмы (выбор языка программирования осуществляется самостоятельно).
Проанализировать результаты, полученные при использовании разных способов очистки, сравнивая их по выбранному критерию.
Сделать выводы по эффективности применения использованных способов и алгоритмов очистки данных.

Теоретические сведения^[1]*

Информация, обработка которой планируется с помощью ТОИ, как правило, не обладает априори свойствами необходимости и достаточности, поскольку реальные данные редко бывают хорошего качества. Поэтому для эффективного применения методов обработки и анализа данных следует обратить серьезное внимание на вопросы оценки качества и предобработки данных.

Основные типы ошибок, которые присутствуют в «грязных» данных: пропуски, дубликаты, аномальные значения (иыбросы), шумы. Рассмотрим более подробно причины возникновения указанных ошибок и способы их корректировки.

Часть 1. Пропуски данных

Для того чтобы понять, как правильно обработать пропуски, необходимо определить механизмы их формирования. Рассуждения будут построены в предположении, что исходные «грязные» данные имеют табличную структуру.

Различают следующие 3 механизма формирования пропусков: MCAR, MAR, MNAR.

MCAR (Missing Completely At Random) — механизм формирования пропусков , при котором вероятность пропуска для каждой записи набора одинакова. Например, если проводился социологический опрос, в котором каждому десятому респонденту один случайно выбранный вопрос не задавался, причем на все остальные заданные вопросы респонденты отвечали, то имеет место механизм MCAR. В таком случае игнорирование/исключение записей содержащих пропущенные данные не ведет к искажению результатов.

MAR (Missing At Random) — на практике данные обычно пропущены не случайно, а ввиду некоторых закономерностей. Пропуски относят к MAR, если вероятность пропуска может быть определена на основе другой имеющейся в наборе данных информации, не содержащей пропуски. В таком случае удаление или замена пропусков на значение «Пропуск», как и в случае MCAR, не приведет к существенному искажению результатов.

MNAR (Missing Not At Random) — механизм формирования пропусков, при котором данные отсутствуют в зависимости от неизвестных факторов. MNAR предполагает, что вероятность пропуска могла бы быть описана на основе других атрибутов, но информация по этим атрибутам в наборе данных отсутствует. Как следствие, вероятность пропуска невозможно выразить на основе информации, содержащейся в наборе данных.

Рассмотрим различия между механизмами MAR и MNAR на примере. Люди, занимающие руководящие должности и/или получившие образование в престижном вузе чаще, чем другие респонденты, не отвечают на вопрос о своих доходах. Поскольку занимаемая должность и образование сильно коррелируют с доходами, то в таком случае пропуски в поле доходы уже нельзя считать совершенно случайными, то есть говорить о случае MCAR не представляется возможным. Если в наборе данных есть информация об образовании и должности респондентов, то зависимость между повышенной вероятностью пропуска в графе доходов и этой информацией может быть выражена математически, следовательно, выполняется гипотеза MAR. В случае MAR исключение пропусков вполне приемлемо. Однако если информация о занимаемой должности и образовании у нас отсутствует, то тогда имеет место случай MNAR. При MNAR просто игнорировать или исключить пропуски уже нельзя, так как это приведет к значительному искажению распределения статистических свойств выборки.

...

Скачать: txt (53.3 Kb) pdf (457.1 Kb) docx (84.3 Kb)

Продолжить читать еще 15 страниц(ы) »

Читать полный текст Сохранить

Доступно только на Essays.club