본문 바로가기
ISLR

Chap03 회귀분석(1)

by 지식광부키우기 2019. 9. 18.

● The Linear Regression Model 

 

$Y_{i} = \beta_{0} + \beta_{1} X_{1} + \beta_{2} X_{2} +... + \beta_{p} X_{p} + \varepsilon$

 

선형 회귀 모델은 모수를 해석하기가 매우 쉽습니다.

 

$\beta_{0}$는 절편(모든 X의 값들이 0일 때 Y의 평균 값)이고

 

$\beta _{j}$는 j번 째 변수 $X_{j}$의 기울기입니다. 

 

$\beta _{j}$는 다른 모든 X들이 일정하게 고정되고 $X_{j}$가 한 단위 증가할 때 평균적으로 증가하는 Y를 나타냅니다.  

 

 

● Least Squares Fit (최소 제곱 법)

 

Least squares를 이용하여 모수를 추정합니다.

 

$MSE = \frac {1}{n}\sum_{i=1}^{n}(Y_{i}-\hat {Y_{i}})^{2}
= \frac {1}{n}\sum_{i=1}^{n}(Y_{i}-\hat {\beta_{0}}-\hat {\beta_{1}}X_{1}-... -\hat {\beta_{p}}X_{p})^{2}$

<그림1>

 

 

● Relationship between population and least squares lines 

 

Population line $Y_{i} = \beta_{0} + \beta_{1} X_{1} + \beta_{2} X_{2} +... + \beta_{p} X_{p} + \varepsilon$

 

Least Squares line:  $\hat {Y_{i}} = \hat {\beta_{0}} + \hat {\beta_{1}}X_{1} + \hat {\beta_{2}}X_{2} +... + \hat {\beta_{p}}X_{p}$

 

population line에서 궁금한 것은 $\beta_{0}$부터 $\beta_{p}$입니다. 

 

하지만 이 값을 알 수는 없으므로(모집단 전체 데이터가 있지 않는 한)

 

대신에 least squares line에서 $\hat {\beta_{0}}$부터 $\hat{\beta_{p}}$ 값을 알 수 있습니다.

 

$\hat{\beta_{0}}$부터 $\hat {\beta_{p}}$의 값을 가지고 $\beta_{0}$~$\beta_{p}$를 추측합니다.

 

$\hat {Y_{i}}$로 $Y_{i}$를 추측할 수 있게 됩니다. 

 

물론 이 추측은 $\bar {X}$이 완벽하게 $\mu$를 추측하지 못하듯이 완벽하지 않습니다.

 

 

● Measures of Fit: $R^{2}$

 

Y의 변화의 일부는 X의 변화들로 설명될 수 있지만 그렇지 않을 수도 있습니다.

 

$R^{2}$는 X로 설명 가능한 분산의 비율을 나타냅니다.

 

$R^{2} = 1-\frac {RSS}{\sum(Y_{i}-\bar {Y})^{2}}\approx 1 - \frac {Ending~Variance}{Starting ~Variance}$

 

$R^{2}$는 항상 0에서 1 사이입니다.

 

0은 설명 가능한 분산이 없다로 1은 전부 설명된다(데이터에 완전히 적합한다.)는 의미입니다.

 

 

● Inference in Regression

 

샘플로부터 얻어진 회귀 직선은 실제 모집단의 회귀 직선이 아닙니다.

 

다만 우리가 이를 통해 원하는 것은 

 

선이 얼마나 데이터를 잘 묘사하는지 평가하는 것 

 

Population line의 기울기를 추측하는 것

 

주어진 X값에서 Y의 값을 추측하는 것입니다.

<그림2>

 

● Some Relevant Questions 

 

1. $\beta_{j}=0$인가요? 아닌가요? 가설 검정을 통해 대답할 수 있습니다.

 

만약 $\beta_{j}\neq0$이라고 확신할 수 없다면 $X_{j}$를 예측 변수의 하나로 사용할 필요가 없습니다.

 

2. 우리가 적어도 하나 이상의 변수 X가 예측 변수로 유용하다고 확신할 수 있다면?

 

$\beta_{1} = \beta_{2} =... = \beta_{p} = 0?$을 검정합니다.

 

 

● 1. Is $\beta_{j}=0$ i.e. is $X_{j}$ an important variable?

 

이 물음에 답하기 위해 가설 검정을 진행합니다.

 

계산은 t검정을 실시합니다.

 

$t = \hat {\beta_{j}}/SE(\hat {\beta_{j}})$ <- 0에서 벗어난 표준 편자의 Number 

 

만일 t가 크다면(동시에 p-value가 작다면) $\beta_{j}\neq0$을 확신할 수 있습니다. 

<그림3>

 

● Testing Individual Variables

 

모든 다른 변수들을 고려한 후에 Newspapers와 Sales 사이에 선형 관계가 있습니까?

<그림4>

 

Simple regression에서는 Newspapers에 의해 설명되지만 Multiple regression에서는 TV와 Radio로 설명된다. 

 

 

● Is the whole regreesion explaining anything at all?

 

$H_{0}$: all slopes = 0 ($\beta_{1} = \beta_{2} =... = \beta_{p} = 0$)

 

$H_{a}:$ at least one slope $\neq$ 0

 

<그림5>

 

이 물음은 ANOVA table, F 검정을 통해 답할 수 있습니다.

 

ANOVA table은 많은 정보를 내포하고 있습니다. 우리가 눈여겨봐야 할 것은 F Ratio와 대응하는 p-value입니다. 

 

 

여기까지가 선형 회귀 모델의 설명이었습니다.

 

다음 시간에는 회귀 모델의 다른 고려사항에 대해 설명드리겠습니다. 감사합니다.

'ISLR' 카테고리의 다른 글

Chap3 회귀분석(3)  (0) 2019.09.20
Chap3 회귀분석(2)  (0) 2019.09.19
Chap02 모델정확도 평가하기(2)  (0) 2019.09.17
Chap02 모델정확도 평가하기(1)  (0) 2019.09.16
Chap02 통계 학습(3)  (0) 2019.09.11

댓글