Линейная регрессия

Автор: Kate Hecate • Октябрь 10, 2019 • Лабораторная работа • 1,403 Слов (6 Страниц) • 598 Просмотры

Страница 1 из 6

Федеральное государственное бюджетное образовательное учреждение высшего образования

УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Кафедра вычислительной математики и кибернетики

Лабораторная работа №1

«Анализ данных»

Выполнил: Архипова Е.Ю.

Проверил: Агадуллина А.И.

Уфа 2018

Целью лабораторной работы является изучение линейных регрессионных моделей, построение однофакторной линейной регрессионной модели, проверка адекватности построенной регрессионной модели в R Studio.

Определение: Регрессионное уравнение (регрессионная модель) отражает зависимость между переменными: между одной зависимой (эндогенной, объясняемой) и одной или же несколькими независимыми (экзогенными, объясняющими) переменными (факторами, регрессорами). Зависимая переменная обозначается как y, а независимые объясняющие переменные как x1, x2, … , xn.

[pic 1]

Регрессионное уравнение есть некая регулярная часть зависимости между 𝑦 и х, фактически наблюдаемое значение, состоит из этой регулярной части и случайной компоненты 𝑖[pic 2]

[pic 3]

Определение: Однофакторным линейным регрессионным уравнением называется статистическая связь между зависимой переменной y и независимым фактором (регрессором) х, представленная в виде линейной зависимости:

[pic 4]

Где a и b неизвестные подлежащие оценке параметры регрессии. коэффициент b показывает прирост y, приходящийся на единицу прироста x.

Последовательность анализа адекватности регрессионного уравнения:

1. Оценка качества подгонки.

2. Проверка различных гипотез относительно параметров уравнения.

3. Проверка условий для получения состоятельных, несмещенных, эффективных оценок.

4. Содержательный анализ модели и корректировка модели.

5. Прогнозирование данных по модели.

Подготовим данные к анализу.

dataset<-read.csv(file = "playstore.csv", header = TRUE)

dataset <- dataset %>%
filter(Installs != "0")

options(scipen = 999)

dataset <- na.omit(dataset)

#1
dataset$Installs <- gsub(",", "", gsub("\\.", "", dataset$Installs))

#2
dataset$Installs <- as.character(dataset$Installs)
dataset$Installs = substr(dataset$Installs,1,nchar(dataset$Installs)-1)

#3
dataset$Installs <- as.numeric(dataset$Installs)

#4
dataset$Reviews <- gsub(",", "", gsub("\\.", "", dataset$Reviews))

#5
dataset$Reviews <- as.character(dataset$Reviews)
dataset$Reviews = substr(dataset$Reviews,1,nchar(dataset$Reviews)-1)

#6
dataset$Reviews <- as.numeric(dataset$Reviews)

Разделим выборку на тестовую и обучающую.

set.seed(56)
split <- sample.split(dataset$Reviews, SplitRatio = 0.75)

Построим модель линейной регрессии. Проверим различные гипотезы относительно параметров уравнения.

В качестве зависимой переменной выступает – количество отзывов(Review), независимой – количество скачиваний(Installs).

train <- subset(dataset, split == TRUE)
test <- subset(dataset, split == FALSE)

model_1<-lm ( data = train, Reviews ~ Installs)
summary(model_1)

...

Скачать: txt (14.2 Kb) pdf (427.7 Kb) docx (585 Kb)

Продолжить читать еще 5 страниц(ы) »

Читать полный текст Сохранить

Доступно только на Essays.club