본문 바로가기
ISLR

Ch05 Resampling Methods - The Validation Set

by 지식광부키우기 2019. 9. 26.

 

Resampling methods란 무엇인가요?

 

Resampling methods란 training data에서 반복적으로 sample들을 뽑고 적합한 모델에 대한 더 많은 정보를 얻기 위하여

 

각각의 샘플들을 모델에 재 적합시키는 방법입니다.  

 

모델 평가 측면에서 test error rates를 추정한다든지

 

모델 선택 측면에서 모델 유연성의 적절 수준을 선택하는 경우에 사용됩니다.

 

계산 비용이 많이 들지만 현재는 powerful한 컴퓨터들이 많아서 수월하게 할 수 있습니다.

 

resampling 두 가지 방법

 

교차 검증 (Cross Validation)

 

부트스트래핑 (Bootstrapping)

 

 

일반적인 접근: The Validation Set

 

가장 낮은 test (not training) error rate를 보이는 a set of variables를 찾고 싶다고 가정합니다.

 

만일 많은 data set을 가지고 있으면, 랜덤 하게 데이터를 training과 validation(testing) parts로 나눔으로써 

 

달성할 수 있습니다.

 

training part는 각각의 가능한 모델을 형성합니다. 즉, 변수들의 다른 조합들입니다.

 

그리고 가장 낮은 error rate를 보이는 모델을 선택합니다.  (validation data에 적용된)

 

그림1

 

예시: Auto Data

 

mpg ~ horsepower를 예측하고 싶다고 가정합니다.

 

두 개의 모델이 있습니다.

 

mpg ~ horsepower

 

mpg ~ horsepower + $horspower^{2}$

 

어떤 모델이 가장 적합한가요?

 

랜덤하게 분리한 Auto data set

 

training data (196 obs.), validation data (196. obs)

 

training data set을 이용하여 두 모델에 적합시킵니다.

 

validation data set을 이용하여 두 모델을 평가합니다.

 

가장 낮은 validation(testing) MSE를 가진 모델을 택합니다.

 

 

결과: Auto Data

 

왼쪽: Validation error rate for a single split

 

오른쪽: Validation method repeated 10 times, each time the split is done randomly

 

MSE 사이에 많은 변동들이 있습니다. 별로 좋지 않아 더 많은 안정된 모델이 필요합니다.

 

그림2

 

The Validation Set Approach

 

장점 :

 

간단하고 수행하기 쉽습니다.

 

단점 :

 

The validation MSE는 매우 가변적일 수 있습니다.

 

관측치의 부분집합만이 모델 적합에 사용됩니다. (training data) 적은 수의 관측치로 train 시 통계 방법의 성능이

 

떨어지는 경향이 있습니다.

 

'ISLR' 카테고리의 다른 글

Ch05 Resampling Methods - k-fold Cross Validation  (0) 2019.09.30
Ch05 Resampling Methods - Leave-One-Out Cross Validation(LOOCV)  (0) 2019.09.27
Ch04 분류분석(3) - LDA & QDA  (0) 2019.09.25
Ch04 분류분석(2)  (0) 2019.09.24
Ch04 분류분석(1)  (0) 2019.09.23

댓글