Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Исследование методов и способов очистки данных

Автор:   •  Май 10, 2019  •  Лабораторная работа  •  3,800 Слов (16 Страниц)  •  466 Просмотры

Страница 1 из 16

Южный Федеральный Университет

Институт компьютерных технологий и информационной безопасности

Кафедра САПР

ЛАБОРАТОРНАЯ РАБОТА №1

«Исследование методов и способов очистки данных»

по дисциплине

«Технологии обработки информации»

Методические указания

Таганрог 2019

Цель работы: исследование эффективности методов очистки (профайлинга) данных.

Задания к работе:

  1. Ознакомиться с теоретическим материалом, описывающим причины возникновения ошибок в «сырых» данных и способы их корректировки.
  2. Для каждого типа ошибок в данных построить алгоритм их выявления и выбранного способа корректировки.
  3. Задавшись несколькими (2-3) входными наборами данных разной длины с искусственно введенными ошибками, реализовать построенные в п.2 алгоритмы (выбор языка программирования осуществляется самостоятельно).
  4. Проанализировать результаты, полученные при использовании разных способов очистки, сравнивая их по выбранному критерию.
  5. Сделать выводы по эффективности применения использованных способов и алгоритмов очистки данных.  

Теоретические сведения[1]*

   Информация, обработка которой планируется с помощью ТОИ, как правило, не обладает априори свойствами необходимости и достаточности, поскольку  реальные данные редко бывают хорошего качества. Поэтому для эффективного применения методов обработки и анализа данных следует обратить серьезное внимание на вопросы оценки качества и предобработки данных.

   Основные типы ошибок, которые присутствуют в «грязных» данных: пропуски, дубликаты, аномальные значения (иыбросы), шумы. Рассмотрим более подробно причины возникновения указанных ошибок и способы их корректировки.

Часть 1. Пропуски данных

   Для того чтобы понять, как правильно обработать пропуски, необходимо определить механизмы их формирования. Рассуждения будут построены в предположении, что исходные «грязные» данные имеют табличную структуру.

    Различают следующие 3 механизма формирования пропусков: MCAR, MAR, MNAR.

   MCAR (Missing Completely At Random) — механизм формирования пропусков , при котором вероятность пропуска для каждой записи набора одинакова. Например, если проводился социологический опрос, в котором каждому десятому респонденту один случайно выбранный вопрос не задавался, причем на все остальные заданные вопросы респонденты отвечали, то имеет место механизм MCAR. В таком случае игнорирование/исключение записей содержащих пропущенные данные не ведет к искажению результатов.

   MAR (Missing At Random) — на практике данные обычно пропущены не случайно, а ввиду некоторых закономерностей. Пропуски относят к MAR, если вероятность пропуска может быть определена на основе другой имеющейся в наборе данных информации, не содержащей пропуски. В таком случае удаление или замена пропусков на значение «Пропуск», как и в случае MCAR, не приведет к существенному искажению результатов.

   MNAR (Missing Not At Random) — механизм формирования пропусков, при котором данные отсутствуют в зависимости от неизвестных факторов. MNAR предполагает, что вероятность пропуска могла бы быть описана на основе других атрибутов, но информация по этим атрибутам в наборе данных отсутствует. Как следствие, вероятность пропуска невозможно выразить на основе информации, содержащейся в наборе данных.

   Рассмотрим различия между механизмами MAR и MNAR на примере. Люди, занимающие руководящие должности и/или получившие образование в престижном вузе чаще, чем другие респонденты, не отвечают на вопрос о своих доходах. Поскольку занимаемая должность и образование сильно коррелируют с доходами, то в таком случае пропуски в поле доходы уже нельзя считать совершенно случайными, то есть говорить о случае MCAR не представляется возможным. Если в наборе данных есть информация об образовании и должности респондентов, то зависимость между повышенной вероятностью пропуска в графе доходов и этой информацией может быть выражена математически, следовательно, выполняется гипотеза MAR. В случае MAR исключение пропусков вполне приемлемо. Однако если информация о занимаемой должности и образовании у нас отсутствует, то тогда имеет место случай MNAR. При MNAR просто игнорировать или исключить пропуски уже нельзя, так как это приведет к значительному искажению распределения статистических свойств выборки.

...

Скачать:   txt (53.3 Kb)   pdf (457.1 Kb)   docx (84.3 Kb)  
Продолжить читать еще 15 страниц(ы) »
Доступно только на Essays.club