Выборка, заполнение и корректировка данных в программе Loginom
Автор: skvil80 • Октябрь 27, 2023 • Лабораторная работа • 392 Слов (2 Страниц) • 129 Просмотры
ФГБОУ ВО СамГМУ Минздрава России
Передовая медицинская инженерная школа
Отчет о выполнении лабораторной работы №2
по курсу «Системы поддержки принятия решений»
Выполнил: студент группы 12-ИИ
Степанов Игорь Владимирович
Самара 2023
Цель работы
Научиться: Проводить анализ полученной выборки, оценивать качество выборки. Оценивать вид распределения данных. Определять наличие пропусков в данных и заполнить их. Проводить анализ выбросов в данных. Проводить сэмплинг.
Ход выполнения работы
[pic 1]
Были загружены данные по прогнозированию диабета у пациентов
[pic 2]
Анализируя и оценивая качество выборки, мы видим, что в показателях: исход, беременность, диабет у родственников, возраст. Имеют экстремальные значения, выбросы и нули. В то время как показатели: глюкоза, артериальное давление, толщина кожи, инсулин и имт, не имеют погрешностей.
Тип данных преимущественно целый и лишь у двух показателей, таких как диабет у родственников и имт являются вещественными. Не смотря на пропуски/выбросы/нули, данные могут быть вполне корректными. После расчета статистики, мы можем заполнить пропуски и удалить шумы функционалом Сглаживание, для получения более точных значений.
[pic 3]
Оценивая вид распределения данных, мы понимаем, что необходимо заполнить пропуски в значениях.
Так же по графику мы видим, что беременность и возраст, самые переменчивые показатели, в отличии от исхода и диабета у родственников.
[pic 4]
В выбросе данных участвовали преимущественно такие показатели как беременность и исход. Ведь для больных диабетом рождение ребенка является не простым процессом. Из графика мы видим, что соотношение возраста к беременности самое прямое.
[pic 5]
Была проведена последовательная выборка с помощью узла семплинг, методом случайным, равномерным. Из общего числа 768, сделана выборка 50%, а именно 384 строки с показателями: исход, беременность, диабет у родственников, возраст, глюкоза, артериальное давление, толщина кожи, инсулин и имт. Где так же есть отсутствующие значения в колонках толщина кожи и инсулин. Но на общую выборку это не повлияло, потому как данные были проверены, заполнены на сколько это было возможно.
...