Обработка пропущенных значений в медицинских данных детей и подростков Алтайского края
Автор: ppp_kz1 • Февраль 28, 2019 • Доклад • 1,033 Слов (5 Страниц) • 462 Просмотры
СЛАЙД 1. Тема доклада: Обработка пропущенных значений в медицинских данных детей и подростков Алтайского края.
СЛАЙД 2. Целью исследования является статистический анализ, обработка и визуализация медицинских данных детей и подростков Алтайского края, страдающих сахарным диабетом. Объект и предмет исследования представлены на слайде 2.
Актуальность и практическая значимость исследования базируются на актуальности применения математических методов и технологий искусственного интеллекта в медицине, необходимости осуществления качественного и количественного мониторинга динамики заболеваемости сахарным диабетом детей и подростков Алтайского края.
СЛАЙД 3. Сахарный диабет – заболевание эндокринной системы, характеризующееся хронической гипергликемией – высоким уровнем содержания глюкозы в крови, которая возникает вследствие нарушения секреции гормона поджелудочной железы – инсулина. Течение диабета в детском и подростковом возрасте отличается неустойчивостью обменных процессов и высоким риском развития осложнений.
На слайде 3 приведена статистика по заболеваемости сахарным диабетом детей и подростков в Алтайском крае и России.
СЛАЙД 4. Студенткой группы 477М Сидун Дарьей разработана база данных "Медицинская карта пациента", которая содержит различную «обезличенную» информацию о детях Алтайского края, страдающих сахарным диабетом.
Модель базы данных представлена на слайде 4.
Данные, содержащиеся в базе, используются для обучения моделей прогнозирования стадий компенсации и декомпенсации сахарного диабета у детей и подростков.
СЛАЙД 5. В обучающую выборку входят следующие показатели: рост, вес, температура, артериальное давление, частота сердечных сокращений, частота дыхания, общий и биохимический анализ крови. Полный перечень показателей представлен на слайде 5.
Данные содержат много пропусков, что ведет к большой потере информации и искажению результатов прогнозирования. Поэтому, одной из задач исследования является восстановление пропущенных значений в медицинских данных.
СЛАЙД 6. Для обработки пропущенных значений выбран язык статистических вычислений и графики – R, в котором реализованы все необходимые функции для работы с пропущенными данными. Основные возможности языка R перечислены на слайде 6.
СЛАЙД 7. На слайде 7 изображены графики, которые позволяют проанализировать структуру пропущенных значений. Таким образом, полные данные по всем признакам имеют только 97 пациентов из 153 представленных в базе (рисунок 2). Меньше всего пропущенных значений имеется среди клинических показателей (переменные № 1-7 на рисунке 1), максимальное количество пропущенных значений в переменной № 18 – СОЭ.
СЛАЙД 8.Существует множество способов заполнения пропущенных значений. На слайде 8 представлена классификация методов восстановления пропущенных значений, предложенная известным американским статистом Р. Литтлом. В настоящее время, при классификации методов восстановления пропущенных значений, нередко выделяют еще одну группу, в которую входят методы, основанные на методах машинного обучения.
СЛАЙД 9. Одним из методов прогнозирования пропущенных значений является метод множественного восстановления пропущенных данных. Этот метод разработал американский статист Дональд Рубин в 70-х годах 20-го века. Суть метода заключается в том, чтобы одновременно генерировать несколько значений пропущенной величины вместо того, чтобы заменять пропущенную информацию одним значением.
Не ограничиваясь однократным вычислением ожидаемого значения для пропущенной информации, можно случайным образом подставить значения, вычисленные на основе предсказанного распределения переменной. Для практического использования всех восстановленных таким образом данных генерируются наборы данных с различными вариантами подстановок пропущенных значений.
Классический алгоритм метода множественного восстановления пропущенных данных приведен на слайде 9.В R рассматриваемый метод содержится в пакете mice(multivariateimputationbychainedequations –многомерное восстановление данных при помощи связанных уравнений).
...