Деректерді талдау
Автор: Nuhti • Ноябрь 22, 2023 • Контрольная работа • 783 Слов (4 Страниц) • 224 Просмотры
ДӘРІС 6. ДЕРЕКТЕРДІ ТАЛДАУ. ДЕРЕКТЕРДІ БАСҚАРУ
Дәрістің мақсаты – деректерді талдау негіздерін үйрену.
Дәріс мазмұны: жинау, жіктеу және болжау әдістері. Шешiм ағаштары. Деректердің үлкен көлемін өңдеу. Деректерді өндіру әдістері мен кезеңдері. Деректерді өндіру тапсырмалары. Деректерді визуализациялау.
6.1 Деректерді талдау.
Деректерді талдау - пайдалы ақпаратты алу және шешімдер қабылдау мақсатында деректерді зерттеу, сүзу, түрлендіру, модельдеу процесі. Деректерді талдау ғылым мен қызметтің әр түрлі салаларында әр түрлі әдістерді қамтитын көптеген аспектілер мен тәсілдерге ие. Деректерді жинау жоспарын жасау үшін:
1) Проблемаларды анықтау және зерттеу мақсаттарын тұжырымдау.
2) Қызығушылық тудыратын тақырыпты алдын ала зерделеуді жүзеге асырады.
3) Ғылыми-зерттеу тұжырымдамаларын әзірлеу.
4) Зерттеуді егжей-тегжейлі жоспарлау.
5) Ақпарат көздерін таңдау және қайталама деректерді жинау.
6) Алынған деректерді бағалау және алғашқы деректердің қаншалықты қажет екенін шешу.
7) Алғашқы деректерді жинау әдісін анықтау: зерттеу, бақылау, эксперимент.
8) Алғашқы ақпаратты жинау.
9) Жүргізілген зерттеулердің (таныстырылымның) нәтижелерін ұсыну.
Деректерді болжау әдістері: сарапшылардың пайымдаулары мен бағаларымен айналысатын интуитивті болып бөлінеді; әдебиетте сипатталған және солардың негізінде қазірдің өзінде болжау модельдері жасалып жатқан формальдандырылғандары. Шешім ағаштары деректерді талдау саласында кеңінен қолданылады.
Шешiм ағаштары - әрбiр объектi шешiмдi қамтамасыз ететiн бiрыңғай торапқа сәйкес келетiн иерархиялық, реттiк құрылымдағы ережелердi ұсыну тәсiлi. Ағаш әдісімен шешілетін барлық проблемаларды келесі үш класқа топтауға болады:
Деректер сипаттамасы: Шешім ағаштары деректер туралы ақпаратты жинақы түрде сақтауға мүмкіндік береді, оның орнына объектілердің дәл сипаттамасын қамтитын шешім ағашын сақтауға болады.
Жіктеу: Шешім ағаштары жіктеуде, яғни объектілерді белгілі кластардың біріне тағайындауда үлкен. Мақсатты айнымалының дискретті мәндері болуы тиіс.
Регрессия: Егер мақсатты айнымалының үздіксіз мәндері болса, шешім ағаштары мақсатты айнымалының тәуелсіз (енгізу) айнымалыларға тәуелділігін белгілеуге мүмкіндік береді. Мысалы, сандық болжау проблемалары (мақсатты айнымалының мәндерін болжау) осы класқа жатады.
CART, C4.5, NewId, ITrule, CHAID, CN2 және т.б. сияқты шешім ағаштарын іске асыратын көптеген алгоритмдер бар.Бірақ көп таралғандары келесілер:
САRТ (Классификация и Регрессивті ағаш) — екілік шешім ағашын, дихотомды жіктеу моделін салу алгоритмі. Мұндай ағаштың әрбір торабының бөлінген кезде екі баласы ғана болады. Алгоритм жіктеу және регрессия мәселелерін шешеді.
С4.5–түйіні бар ұрпа саны шексіз болатын шешім ағашын салу алгоритмі.
6.2 Data Mining негіздері
Data Mining терминін қолдану арқылы деректерді өңдеу туралы айтатын болсақ, ол деректердің орасан зор көлемі бар дегенді білдіреді.
Data Mining - деректерде жасырын заңдылықтарды (ақпарат заңдылықтарын) іздеуге негізделген шешім қабылдауды қолдау процесі. Бұл деректердің көп мөлшерде анық емес, объективті және пайдалы заңдылықтарын іздеуге арналған технология.
Data Mining міндеттерін кейде тұрақтылық немесе тәсілдер деп те атайды. Data Mining негізгі міндеттеріне мыналар жатады: жіктеу, кластерлеу, болжау, бірлестік, көрнекілендіру, ауытқуларды талдау және анықтау, байланыстарды бағалау, талдау, қорытындылау.
Data Mining әдістері мен алгоритмдері:
...