Линейная регрессия
Автор: Kate Hecate • Октябрь 10, 2019 • Лабораторная работа • 1,403 Слов (6 Страниц) • 428 Просмотры
Федеральное государственное бюджетное образовательное учреждение высшего образования
УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Кафедра вычислительной математики и кибернетики
Лабораторная работа №1
«Анализ данных»
Выполнил: Архипова Е.Ю.
Проверил: Агадуллина А.И.
Уфа 2018
Целью лабораторной работы является изучение линейных регрессионных моделей, построение однофакторной линейной регрессионной модели, проверка адекватности построенной регрессионной модели в R Studio.
Определение: Регрессионное уравнение (регрессионная модель) отражает зависимость между переменными: между одной зависимой (эндогенной, объясняемой) и одной или же несколькими независимыми (экзогенными, объясняющими) переменными (факторами, регрессорами). Зависимая переменная обозначается как y, а независимые объясняющие переменные как x1, x2, … , xn.
[pic 1]
Регрессионное уравнение есть некая регулярная часть зависимости между 𝑦 и х, фактически наблюдаемое значение, состоит из этой регулярной части и случайной компоненты 𝑖[pic 2]
[pic 3]
Определение: Однофакторным линейным регрессионным уравнением называется статистическая связь между зависимой переменной y и независимым фактором (регрессором) х, представленная в виде линейной зависимости:
[pic 4]
Где a и b неизвестные подлежащие оценке параметры регрессии. коэффициент b показывает прирост y, приходящийся на единицу прироста x.
Последовательность анализа адекватности регрессионного уравнения:
1. Оценка качества подгонки.
2. Проверка различных гипотез относительно параметров уравнения.
3. Проверка условий для получения состоятельных, несмещенных, эффективных оценок.
4. Содержательный анализ модели и корректировка модели.
5. Прогнозирование данных по модели.
- Подготовим данные к анализу.
dataset<-read.csv(file = "playstore.csv", header = TRUE)
dataset <- dataset %>%
filter(Installs != "0")
options(scipen = 999)
dataset <- na.omit(dataset)
#1
dataset$Installs <- gsub(",", "", gsub("\\.", "", dataset$Installs))
#2
dataset$Installs <- as.character(dataset$Installs)
dataset$Installs = substr(dataset$Installs,1,nchar(dataset$Installs)-1)
#3
dataset$Installs <- as.numeric(dataset$Installs)
#4
dataset$Reviews <- gsub(",", "", gsub("\\.", "", dataset$Reviews))
#5
dataset$Reviews <- as.character(dataset$Reviews)
dataset$Reviews = substr(dataset$Reviews,1,nchar(dataset$Reviews)-1)
#6
dataset$Reviews <- as.numeric(dataset$Reviews)
- Разделим выборку на тестовую и обучающую.
set.seed(56)
split <- sample.split(dataset$Reviews, SplitRatio = 0.75)
- Построим модель линейной регрессии. Проверим различные гипотезы относительно параметров уравнения.
В качестве зависимой переменной выступает – количество отзывов(Review), независимой – количество скачиваний(Installs).
train <- subset(dataset, split == TRUE)
test <- subset(dataset, split == FALSE)
model_1<-lm ( data = train, Reviews ~ Installs)
summary(model_1)
...