Improving on the Least Squares Regression Estimates?
전에 선형 회귀 모델을 최소 제곱 법을 사용해서 구현했습니다.
최소 제곱법이 아닌 다른 적합 방식으로 선형 회귀 모델을 개선시킬 수는 없을까요?
목표는 MSE를 최소화하는 것입니다.
최소 제곱 추정 사용을 선호하지 않는 두 가지 이유가 있습니다.
1. 예측 정확도 (Prediction Accuracy)
2. 모델 해석력 (Model Interpretability)
Prediction Accuracy
최소 제곱 추정은 상대적으로 낮은 편향과 낮은 변동성을 갖습니다. 특히 Y와 X의 관계가 선형이고
관측치 n의 숫자가 예측치 p의 숫자보다 클 때 그러합니다. P(n >> p)
그러나, $n\approx p$일 때, 최소 제곱 법은 분산이 높습니다. 결과는 오버 피팅되고 관찰되지 않은 관측치에 대해
형편없는 추정을 하게 됩니다.
n < p일 때, 최소 제곱법의 변동성은 급격하게 증가합니다. 이 추정의 분산은 무한으로 커지게 됩니다.
Model Interpretability
모델에서 많은 수의 variables X를 가질 때, 일반적으로 대다수가 Y에 매우 작거나 아예 영향을 미치지 못할 것입니다.
모델에서 이러한 variables를 남겨두는 것은 큰 그림을 보는 것을 어렵게 만듭니다. 즉, important variables의 영향을
못 보고 지나칠 수 있습니다.
모델을 더 쉽게 해석하기 위해서는 중요하지 않은 변수를 제거해야 합니다. (계수를 0에 가깝게 세팅합니다)
Solution
Subset Selection
반응 Y와 관련되어 있다고 믿는 all p predictors X의 부분집합을 식별한 다음 이 부분집합을 사용하여 모델을 적합시킵니다.
예를 들면, best subset selection and stepwise selecton이 있습니다.
Shrinkage
추정 계수를 0으로 축소하는 것을 의미합니다.
축소는 분산을 감소시킵니다.
몇몇 coefficients가 정확하게 0으로 축소하면, shrinkage methods는 변수 선택을 또한 수행한 것입니다.
예를 들어, Ridge regression and the Lasso가 있습니다.
Dimension Reduction
모든 p predictors를 M 차원의 공간으로 투영(projectiong)시킨 다음 (M < p 인) 선형 회귀 모델에 적합시킵니다.
예를 들어, 주성분 회귀(Principle Components Regression)가 있습니다.
'ISLR' 카테고리의 다른 글
Chap 06 선형 모델 선택 및 정규화 - Shrinkage Methods : Ridge, LASSO (9) | 2019.10.04 |
---|---|
Chap 06 선형 모델 선택 및 정규화 - Subset Selection (0) | 2019.10.02 |
Ch05 Resampling Methods - k-fold Cross Validation (0) | 2019.09.30 |
Ch05 Resampling Methods - Leave-One-Out Cross Validation(LOOCV) (0) | 2019.09.27 |
Ch05 Resampling Methods - The Validation Set (0) | 2019.09.26 |
댓글