Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Линейная регрессия

Автор:   •  Октябрь 10, 2019  •  Лабораторная работа  •  1,403 Слов (6 Страниц)  •  428 Просмотры

Страница 1 из 6

Федеральное государственное бюджетное образовательное учреждение высшего образования

УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

     Кафедра вычислительной математики и кибернетики

Лабораторная работа №1

«Анализ данных»

                                                                    Выполнил: Архипова Е.Ю.

                                                                    Проверил: Агадуллина А.И.

Уфа 2018

Целью лабораторной работы является изучение линейных регрессионных моделей, построение однофакторной линейной регрессионной модели, проверка адекватности построенной регрессионной модели в R Studio.

Определение: Регрессионное уравнение (регрессионная модель) отражает зависимость между переменными: между одной зависимой (эндогенной, объясняемой) и одной или же несколькими независимыми (экзогенными, объясняющими) переменными (факторами, регрессорами). Зависимая переменная обозначается как y, а независимые объясняющие переменные как x1, x2, … , xn.

[pic 1]

Регрессионное уравнение есть некая регулярная часть зависимости между 𝑦 и х, фактически наблюдаемое значение, состоит из этой регулярной части и случайной компоненты 𝑖[pic 2]

[pic 3]

Определение: Однофакторным линейным регрессионным уравнением называется статистическая связь между зависимой переменной y и независимым фактором (регрессором) х, представленная в виде линейной зависимости:

[pic 4]

Где a и b неизвестные подлежащие оценке параметры регрессии. коэффициент b показывает прирост y, приходящийся на единицу прироста x.

Последовательность анализа адекватности регрессионного уравнения:

1. Оценка качества подгонки.

2. Проверка различных гипотез относительно параметров уравнения.

3. Проверка условий для получения состоятельных, несмещенных, эффективных оценок.

4. Содержательный анализ модели и корректировка модели.

5. Прогнозирование данных по модели.

  1. Подготовим данные к анализу.

dataset<-read.csv(file = "playstore.csv", header = TRUE)

dataset <- dataset %>%
  filter(Installs != "0")

options(scipen = 999)

dataset <- na.omit(dataset)

#1
dataset$Installs <- gsub(",", "", gsub("\\.", "", dataset$Installs))

#2
dataset$Installs <- as.character(dataset$Installs)
dataset$Installs = substr(dataset$Installs,1,nchar(dataset$Installs)-1)

#3
dataset$Installs <- as.numeric(dataset$Installs)

#4
dataset$Reviews <- gsub(",", "", gsub("\\.", "", dataset$Reviews))

#5
dataset$Reviews <- as.character(dataset$Reviews)
dataset$Reviews = substr(dataset$Reviews,1,nchar(dataset$Reviews)-1)

#6
dataset$Reviews <- as.numeric(dataset$Reviews)

  1. Разделим выборку на тестовую и обучающую.

set.seed(56)
split <- sample.split(dataset$Reviews, SplitRatio = 0.75)

  1. Построим модель линейной регрессии. Проверим различные гипотезы относительно параметров уравнения.  

В качестве зависимой переменной выступает – количество отзывов(Review), независимой – количество скачиваний(Installs).

train <- subset(dataset, split == TRUE)
test <- subset(dataset, split == FALSE)

model_1<-lm ( data = train, Reviews ~ Installs)
summary(model_1)

...

Скачать:   txt (14.2 Kb)   pdf (427.7 Kb)   docx (585 Kb)  
Продолжить читать еще 5 страниц(ы) »
Доступно только на Essays.club