Best Subset Selection
X predictors의 각 가능한 조합들로 선형 회귀를 실행합니다.
어떤 subset이 best라고 판단할 수 있을까요?
하나의 간단한 접근은 가장 작은 RSS 또는 가장 큰 R2를 취하는 subset을 채택하는 것입니다.
안타깝게도, 모든 변수를 포함한 모델이 항상 가장 좋은 R2과 가장 작은 RSS를 보입니다
Credit Data: R2 vs Subset Size
RSS/R2은 변수가 증가함에 따라 항상 감소/증가합니다. 따라서 유용하지 못합니다.
RSS와 R2에 따르면 빨간 선은 예측 변수의 수에 따른 가장 적합한 모델을 나타냅니다.

Other Measures of Comparison
다른 모델들을 비교할 때, 다른 접근법을 사용할 수 있습니다.
Adjusted R2
AIC (Akaike information criterion)
BIC (Bayesian information criterion)
Cp (equivalent to AIC for linear regression)
위의 방법들은 모델에서 변수의 수에 좌우되는 RSS에 페널티를 가합니다.
물론 완벽한 방법은 없습니다.
Credit Data : Cp, BIC, Adjusted R2
Cp와 BIC으 작은 값은 낮은 에러를 나타냅니다. 따라서 더 좋은 모델입니다.
큰 값의 Adjusted R2는 더 좋은 모델임을 나타냅니다.

Stepwise Selection
Best Subset Selection은 계산이 많고 복잡합니다. 특히 많은 수의 예측 변수를 가지고 있을 때 그렇습니다. (large p)
더 매력적인 방법은
Forward Stepwise Selection
모델이 아무 예측변수도 가지지 않은 채로 시작합니다. 하나씩 예측 변수를 추가하면서 모델을 개선시킵니다. 더 이상 개선의 여지가 보이지 않을 때까지 진행합니다.
Backward Stepwise Selection
모델이 모든 예측변수를 가진 채로 시작합니다. 하나씩 예측 변수를 제거하면서 모델을 개선시킵니다. 더 이상 개선의 여지가 보이지 않을 때까지 진행합니다.
'ISLR' 카테고리의 다른 글
Chap 08 트리 기반 모델 - Decision Trees : Regression Trees (0) | 2019.10.08 |
---|---|
Chap 06 선형 모델 선택 및 정규화 - Shrinkage Methods : Ridge, LASSO (9) | 2019.10.04 |
Chap 06 선형 모델 선택 및 정규화 - 최소 제곱법 보완 (0) | 2019.10.01 |
Ch05 Resampling Methods - k-fold Cross Validation (0) | 2019.09.30 |
Ch05 Resampling Methods - Leave-One-Out Cross Validation(LOOCV) (0) | 2019.09.27 |
댓글