● The Linear Regression Model
$Y_{i} = \beta_{0} + \beta_{1} X_{1} + \beta_{2} X_{2} +... + \beta_{p} X_{p} + \varepsilon$
선형 회귀 모델은 모수를 해석하기가 매우 쉽습니다.
$\beta_{0}$는 절편(모든 X의 값들이 0일 때 Y의 평균 값)이고
$\beta _{j}$는 j번 째 변수 $X_{j}$의 기울기입니다.
$\beta _{j}$는 다른 모든 X들이 일정하게 고정되고 $X_{j}$가 한 단위 증가할 때 평균적으로 증가하는 Y를 나타냅니다.
● Least Squares Fit (최소 제곱 법)
Least squares를 이용하여 모수를 추정합니다.
$MSE = \frac {1}{n}\sum_{i=1}^{n}(Y_{i}-\hat {Y_{i}})^{2}
= \frac {1}{n}\sum_{i=1}^{n}(Y_{i}-\hat {\beta_{0}}-\hat {\beta_{1}}X_{1}-... -\hat {\beta_{p}}X_{p})^{2}$
● Relationship between population and least squares lines
Population line $Y_{i} = \beta_{0} + \beta_{1} X_{1} + \beta_{2} X_{2} +... + \beta_{p} X_{p} + \varepsilon$
Least Squares line: $\hat {Y_{i}} = \hat {\beta_{0}} + \hat {\beta_{1}}X_{1} + \hat {\beta_{2}}X_{2} +... + \hat {\beta_{p}}X_{p}$
population line에서 궁금한 것은 $\beta_{0}$부터 $\beta_{p}$입니다.
하지만 이 값을 알 수는 없으므로(모집단 전체 데이터가 있지 않는 한)
대신에 least squares line에서 $\hat {\beta_{0}}$부터 $\hat{\beta_{p}}$ 값을 알 수 있습니다.
$\hat{\beta_{0}}$부터 $\hat {\beta_{p}}$의 값을 가지고 $\beta_{0}$~$\beta_{p}$를 추측합니다.
$\hat {Y_{i}}$로 $Y_{i}$를 추측할 수 있게 됩니다.
물론 이 추측은 $\bar {X}$이 완벽하게 $\mu$를 추측하지 못하듯이 완벽하지 않습니다.
● Measures of Fit: $R^{2}$
Y의 변화의 일부는 X의 변화들로 설명될 수 있지만 그렇지 않을 수도 있습니다.
$R^{2}$는 X로 설명 가능한 분산의 비율을 나타냅니다.
$R^{2} = 1-\frac {RSS}{\sum(Y_{i}-\bar {Y})^{2}}\approx 1 - \frac {Ending~Variance}{Starting ~Variance}$
$R^{2}$는 항상 0에서 1 사이입니다.
0은 설명 가능한 분산이 없다로 1은 전부 설명된다(데이터에 완전히 적합한다.)는 의미입니다.
● Inference in Regression
샘플로부터 얻어진 회귀 직선은 실제 모집단의 회귀 직선이 아닙니다.
다만 우리가 이를 통해 원하는 것은
선이 얼마나 데이터를 잘 묘사하는지 평가하는 것
Population line의 기울기를 추측하는 것
주어진 X값에서 Y의 값을 추측하는 것입니다.
● Some Relevant Questions
1. $\beta_{j}=0$인가요? 아닌가요? 가설 검정을 통해 대답할 수 있습니다.
만약 $\beta_{j}\neq0$이라고 확신할 수 없다면 $X_{j}$를 예측 변수의 하나로 사용할 필요가 없습니다.
2. 우리가 적어도 하나 이상의 변수 X가 예측 변수로 유용하다고 확신할 수 있다면?
$\beta_{1} = \beta_{2} =... = \beta_{p} = 0?$을 검정합니다.
● 1. Is $\beta_{j}=0$ i.e. is $X_{j}$ an important variable?
이 물음에 답하기 위해 가설 검정을 진행합니다.
계산은 t검정을 실시합니다.
$t = \hat {\beta_{j}}/SE(\hat {\beta_{j}})$ <- 0에서 벗어난 표준 편자의 Number
만일 t가 크다면(동시에 p-value가 작다면) $\beta_{j}\neq0$을 확신할 수 있습니다.
● Testing Individual Variables
모든 다른 변수들을 고려한 후에 Newspapers와 Sales 사이에 선형 관계가 있습니까?
Simple regression에서는 Newspapers에 의해 설명되지만 Multiple regression에서는 TV와 Radio로 설명된다.
● Is the whole regreesion explaining anything at all?
$H_{0}$: all slopes = 0 ($\beta_{1} = \beta_{2} =... = \beta_{p} = 0$)
$H_{a}:$ at least one slope $\neq$ 0
이 물음은 ANOVA table, F 검정을 통해 답할 수 있습니다.
ANOVA table은 많은 정보를 내포하고 있습니다. 우리가 눈여겨봐야 할 것은 F Ratio와 대응하는 p-value입니다.
여기까지가 선형 회귀 모델의 설명이었습니다.
다음 시간에는 회귀 모델의 다른 고려사항에 대해 설명드리겠습니다. 감사합니다.
'ISLR' 카테고리의 다른 글
Chap3 회귀분석(3) (0) | 2019.09.20 |
---|---|
Chap3 회귀분석(2) (0) | 2019.09.19 |
Chap02 모델정확도 평가하기(2) (0) | 2019.09.17 |
Chap02 모델정확도 평가하기(1) (0) | 2019.09.16 |
Chap02 통계 학습(3) (0) | 2019.09.11 |
댓글