Решении задач регрессии и классификации
Автор: LAB_53 • Март 28, 2023 • Лабораторная работа • 3,334 Слов (14 Страниц) • 285 Просмотры
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение высшего
образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
ИНСТИТУТ ФУНДАМЕНТАЛЬНОЙ ПОДГОТОВКИ И ТЕХНОЛОГИЧЕСКИХ ИННОВАЦИЙ
КАФЕДРА 6
ОЦЕНКА
ПРЕПОДАВАТЕЛЬ
Кандидат технических наук,
доцент А.С.Степашкина
должность, уч. степень, звание подпись, дата инициалы, фамилия
Контрольная работа
На тему: решении задач регрессии и классификации
по дисциплине:
Основы искусственного интеллекта в профессиональной деятельности
РАБОТУ ВЫПОЛНИЛ[pic 1][pic 2][pic 3][pic 4][pic 5][pic 6][pic 7]
Студенческий билет №[pic 8]
Санкт-Петербург 2023
Ответы на вопросы.
- Что такое тестовая и обучающая выборка? Для чего выполняют разбиение?
Сформированные датасеты для дальнейшего применения алгоритма машинного обучения могут иметь очень большую размерность и неинформативные признаки, которые слабо связаны с целью задачи. Большая размерность негативно сказывается на скорости обучения алгоритма, а также приводить к переобучению.
Заканчивается процесс анализа данных разбиение на обучающую и тестовую выборку. Это делается для того, чтобы можно было быстро осуществить проверку корректности работы алгоритма. Обычно тестовая выборка не превышает 20% от объема датасета.
Тестовая выборка (testing set) - полностью независимая от обучающей выборка, предназначенная для оценки качества работы модели. Без ее применения нельзя гарантировать несмещенность оценок модели (также называемую переобучением)
Обучающая выборка — это набор, который подается на вход модели в процессе обучения вместе с ответами, с целью научить модель видеть связь между этими признаками и правильным ответом. обучающая выборка делится на две подвыборки: обучающую и контрольную. Разбиений делается несколько, для каждого выводится результат оценки.
Обучающая выборка используется, собственно, для "обучения" той или иной модели, т.е. для построения математических отношений между некоторой переменной-откликом и предикторами, тогда как контрольная ("проверочная", "экзаменационная") выборка служит для получения оценки прогнозных свойств модели на новых данных, т.е. данных, которые не были использованы для обучения модели. Как правило, обучающая выборка составляет 75-80% от объема исходных данных, хотя каких-то строгих правил в этом отношении не существует.
- Что такое таргет и фичи?
Таргет - это Целевая (зависимая) переменная - признак Датасета (Dataset), который предстоит предсказывать Модели (Model) Машинного обучения (ML). Зависимой ее называют, поскольку в ходе Разведочного анализа данных (EDA) выявляется Корреляция (Correlation) между одной или несколькими переменными-предикторами (Predictor Variable) и рассматриваемым целевым признаком.
Фичи (признаки) — это любые измеримые входные данные, которые можно использовать в модели прогнозирования — это не только символьные значения; в качестве фичи может выступать цвет объекта или звук голоса. Проще говоря, Feature Engineering — это преобразование необработанных данных в требуемый вид для дальнейшего использования подходов статистического или машинного обучения.
- Приведите по три примера для задачи регрессии, задачи классификации, задачи кластеризации.
Примеры регрессии:
- предсказание цены объекта недвижимости - классическая регрессионная задача. В таких проблемах атрибутами выступают разные характеристики квартир или домов - площадь, этажность, расположение, расстояние до центра города, количество комнат, год постройки
- предсказание цены акций или других финансовых активов
- предсказание суммы чаевых официанту по сумме в чеке и по качеству обслуживания.
Примеры классификации:
- распознавание объектов на изображении. Мы все пользуемся умными камерами в смартфонах, которые умеют автоматически определять, есть ли лицо на изображении в объективе. Вот там как раз работает алгоритм классификации, который разделяет все изображения на два класса - имеющих лицо и не имеющих
- определение, является электронное письмо спамом или нет
- машинный перевод текста. При всей своей специфике, его тоже можно представить как задачу классификации - подбор следующего слова в тексте, соответствующего контексту и тексту на другом языке. Так как мы выбираем какое-то оптимальное значение из пусть большого, но не бесконечного количества значений - всех возможных слов языка.
Примеры кластеризации:
- анализ геоданных. В мобильных приложениях, собирающих геоданные пользователей, часто требуется понять, где именно пользователь находился. GPS-координаты известны с некоторой погрешностью, пользователь тоже обычно двигается, поэтому вместо точного положения часто приходится иметь дело с роем точек. Положение усугубляется, когда мы пытаемся анализировать поведение сразу тысяч людей в какой-то локации — например, определить, в каких точках люди чаще всего садятся в такси у аэропорта. Подобная задача решалась в Яндекс.Такси при разработке пикап-пойнтов (наиболее удобных точек вызова такси, подсвечиваемых в приложении). Координаты точек заказа кластеризовались таким образом, чтобы кластер соответствовал какому-то одному, удобному для пользователя месту, и центры кластеров использовались как кандидаты в пикап-пойнты. Те кандидаты, которые удовлетворяли простым фильтрам (например, не попадали в здание или в воду), использовались в приложении. При этом не обходилось и без вручную проставленных пикап-пойнтов: например, такое решение использовалось в окрестностях аэропортов.
- интерфейсы для просмотра фотографий в вашем смартфоне. Почти наверняка вы можете просмотреть их в привязке к местам, где они были сделаны, и по мере масштабирования карты вы будете видеть разное количество кластеров фотографий.
- Сегментирование клиентов на основе их сходства с предыдущими клиентами.
Решение задач регрессии и классификации в аналитической платформе KNIME
Загрузим данные для анализа предсказания типа отказа электроагрегата и скорости вращения ротора. Данные хранятся в текстовом формате с расширением .csv. Все необходимые элементы, узлы (Node), которые выполняют процедуры анализа данных, находятся слева, в меню Node Repository. Используем узел CSV Reader (рис. 2), расположенный в разделе Node Repository - IO-Read. Для добавления элемента в рабочий процесс его надо просто перетащить мышкой в желаемое место рабочего пространства. Стоит обратить внимание на светофор внизу узлов «Статус узла», при первоначальном обращении к узлу он горит красным цветом. Затем после двойного нажатия на иконку CSV Reader попадаем в окно, в котором справа необходимо выбрать файл с данными для анализа. В разделе Column Deliter необходимо ввести значение «запятая», в противном случае алгоритм платформы не сможет разделить данные на столбцы. Здесь именно запятой разделены различные признаки. В других задачах может использоваться другой разделитель, например точка с запятой. Далее нажимаем кнопку OK. После настройки CSV Reader светофор загорается желтым. При нажатии правой кнопки мыши на узел появляется меню, в нем выбираем Execute. Светофор внизу загорелся зеленым, данные готовы к работе.
...