Chap 06 선형 모델 선택 및 정규화

Best Subset Selection

X predictors의 각 가능한 조합들로 선형 회귀를 실행합니다.

어떤 subset이 best라고 판단할 수 있을까요?

하나의 간단한 접근은 가장 작은 RSS 또는 가장 큰 $R^{2}$ 를 취하는 subset을 채택하는 것입니다.

안타깝게도, 모든 변수를 포함한 모델이 항상 가장 좋은 $R^{2}$ 과 가장 작은 RSS를 보입니다

Credit Data: $R^{2}$ vs Subset Size

RSS/ $R^{2}$ 은 변수가 증가함에 따라 항상 감소/증가합니다. 따라서 유용하지 못합니다.

RSS와 $R^{2}$ 에 따르면 빨간 선은 예측 변수의 수에 따른 가장 적합한 모델을 나타냅니다.

Other Measures of Comparison

다른 모델들을 비교할 때, 다른 접근법을 사용할 수 있습니다.

Adjusted $R^{2}$

AIC (Akaike information criterion)

BIC (Bayesian information criterion)

$C_{p}$ (equivalent to AIC for linear regression)

위의 방법들은 모델에서 변수의 수에 좌우되는 RSS에 페널티를 가합니다.

물론 완벽한 방법은 없습니다.

Credit Data : $C_{p}$ , BIC, Adjusted $R^{2}$

$C_{p}$ 와 BIC으 작은 값은 낮은 에러를 나타냅니다. 따라서 더 좋은 모델입니다.

큰 값의 Adjusted $R^{2}$ 는 더 좋은 모델임을 나타냅니다.

Stepwise Selection

Best Subset Selection은 계산이 많고 복잡합니다. 특히 많은 수의 예측 변수를 가지고 있을 때 그렇습니다. (large p)

더 매력적인 방법은

Forward Stepwise Selection

모델이 아무 예측변수도 가지지 않은 채로 시작합니다. 하나씩 예측 변수를 추가하면서 모델을 개선시킵니다. 더 이상 개선의 여지가 보이지 않을 때까지 진행합니다.

Backward Stepwise Selection

모델이 모든 예측변수를 가진 채로 시작합니다. 하나씩 예측 변수를 제거하면서 모델을 개선시킵니다. 더 이상 개선의 여지가 보이지 않을 때까지 진행합니다.

저작자표시

'ISLR' 카테고리의 다른 글

Chap 08 트리 기반 모델 - Decision Trees : Regression Trees (0)	2019.10.08
Chap 06 선형 모델 선택 및 정규화 - Shrinkage Methods : Ridge, LASSO (9)	2019.10.04
Chap 06 선형 모델 선택 및 정규화 - 최소 제곱법 보완 (0)	2019.10.01
Ch05 Resampling Methods - k-fold Cross Validation (0)	2019.09.30
Ch05 Resampling Methods - Leave-One-Out Cross Validation(LOOCV) (0)	2019.09.27

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인문계공돌이

Chap 06 선형 모델 선택 및 정규화 - Subset Selection

'ISLR' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Chap 06 선형 모델 선택 및 정규화 - Subset Selection

'ISLR' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역