Ch05 Resampling Methods - The Validation Set

Resampling methods란 무엇인가요?

Resampling methods란 training data에서 반복적으로 sample들을 뽑고 적합한 모델에 대한 더 많은 정보를 얻기 위하여

각각의 샘플들을 모델에 재 적합시키는 방법입니다.

모델 평가 측면에서 test error rates를 추정한다든지

모델 선택 측면에서 모델 유연성의 적절 수준을 선택하는 경우에 사용됩니다.

계산 비용이 많이 들지만 현재는 powerful한 컴퓨터들이 많아서 수월하게 할 수 있습니다.

resampling 두 가지 방법

교차 검증 (Cross Validation)

부트스트래핑 (Bootstrapping)

가장 낮은 test (not training) error rate를 보이는 a set of variables를 찾고 싶다고 가정합니다.

만일 많은 data set을 가지고 있으면, 랜덤 하게 데이터를 training과 validation(testing) parts로 나눔으로써

달성할 수 있습니다.

training part는 각각의 가능한 모델을 형성합니다. 즉, 변수들의 다른 조합들입니다.

그리고 가장 낮은 error rate를 보이는 모델을 선택합니다. (validation data에 적용된)

mpg ~ horsepower를 예측하고 싶다고 가정합니다.

두 개의 모델이 있습니다.

mpg ~ horsepower

mpg ~ horsepower + $horspower^{2}$

어떤 모델이 가장 적합한가요?

랜덤하게 분리한 Auto data set

training data (196 obs.), validation data (196. obs)

training data set을 이용하여 두 모델에 적합시킵니다.

validation data set을 이용하여 두 모델을 평가합니다.

가장 낮은 validation(testing) MSE를 가진 모델을 택합니다.

왼쪽: Validation error rate for a single split

오른쪽: Validation method repeated 10 times, each time the split is done randomly

MSE 사이에 많은 변동들이 있습니다. 별로 좋지 않아 더 많은 안정된 모델이 필요합니다.

장점 :

간단하고 수행하기 쉽습니다.

단점 :

The validation MSE는 매우 가변적일 수 있습니다.

관측치의 부분집합만이 모델 적합에 사용됩니다. (training data) 적은 수의 관측치로 train 시 통계 방법의 성능이

떨어지는 경향이 있습니다.

Ch05 Resampling Methods - k-fold Cross Validation (0)	2019.09.30
Ch05 Resampling Methods - Leave-One-Out Cross Validation(LOOCV) (0)	2019.09.27
Ch04 분류분석(3) - LDA & QDA (0)	2019.09.25
Ch04 분류분석(2) (0)	2019.09.24
Ch04 분류분석(1) (0)	2019.09.23

인문계공돌이