Класифікація систем Data Mining і аналіз сучасного програмного забезпечення
Автор: RealAisTech • Декабрь 18, 2021 • Курсовая работа • 5,161 Слов (21 Страниц) • 292 Просмотры
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
НАЦІОНАЛЬНИЙ ТРАНСПОРТНІЙ УНІВЕРСИТЕТ
КАФЕДРА ІНФОРМАЦІЙНИХ СИСТЕМ І ТЕХНОЛОГІЙ
КУРСОВА РОБОТА
з дисципліни «Інтелектуальний аналіз даних»
на тему: «Класифікація систем Data Mining і аналіз сучасного програмного забезпечення»
Виконав студент (ка) гр. ПР 4-2 _____________ Омельянченко О. К
(підпис) (ініціали та прізвище)
Керівник _________ Зубрецька Н. А.
(підпис) (ініціали та прізвище)
______________ «___» ____________20___ р.
(оцінка)
Київ 2021
Зміст
ВСТУП 3
Розділ 1. Основні поняття Data Mining 5
1.1. Поняття даних 5
1.2. Особливості обробки даних 8
Розділ 2. Класифікація систем Data Mining 13
2. Задачі Data Mining 13
2.1. Етапи Data Mining 15
2.2. Методи Data Mining 19
2.3. Програмне забезпечення для Data Mining 22
Висновки 26
Використані джерела 27
ВСТУП
Термін Data Mining (укр. видобуток даних, інтелектуальний аналіз даних) запроваджено Григорієм П'ятецьким-Шапіро в 1989 році. З його визначенням, Data Mining - це процес виявлення у сирих даних раніше невідомих, нетривіальних, практично корисних та доступних для інтерпретації знань, необхідних для прийняття рішень у різних сферах людської діяльності.
Обробка даних - це процес аналізу даних, виявлення шаблонів та перетворення неструктурованих даних у структуровані дані (дані, організовані в рядки та стовпці), щоб використовувати їх для прийняття бізнес-рішень. Це процес вилучення великих неструктурованих даних з різних баз даних. Обмін даними - це міждисциплінарна наука, яка має алгоритми математики та інформатики, які використовуються машиною. Програмне забезпечення для майнінгу даних допомагає користувачеві аналізувати дані з різних баз даних та виявляти шаблон. Основна мета інструментів пошуку даних - це пошук, витяг та вдосконалення даних, а потім їх розповсюдження.
Формально Data Mining – це побудова моделі даних.
На сьогоднішній день існує кілька підходів до побудови моделей даних, а саме:
• статистичний (англ. Statistical Modelling): базується на теорії та зосереджується на перевірці гіпотез;
• на основі машинного навчання (англ. Machine Learning): евристичний, що концентрується на покращенні роботи агентів;
• обчислювальний (по суті – інтелектуальний аналіз даних): інтеграція теорії та евристик, сконцентрований на єдиному процесі аналізу даних, включає евристику
даних, навчання, інтеграцію та візуалізацію результатів.
Традиційні методи аналізу даних (статистичні методи) та аналітична обробка в реальному часі (Online Analytical Processing, далі - OLAP) в основному орієнтовані на перевірку заздалегідь сформульованих гіпотез (verificationdriven data mining) і на «грубий» розвідувальний аналіз, що становить основу тоді як одна з основних положень Data Mining – пошук неочевидних закономірностей. Інструменти Data Mining можуть знаходити такі закономірності та будувати гіпотези про взаємозв'язки самостійно. Оскільки формулювання гіпотези щодо залежностей є найскладнішим завданням, перевага Data Mining у порівнянні з іншими методами аналізу є очевидною.
...