본문 바로가기

resampling method3

Ch05 Resampling Methods - k-fold Cross Validation k-fold Cross Validation LOOCV는 계산이 오래 걸립니다. 따라서 k-fold Cross Validation을 대신 사용합니다. k-fold Cross Validation은 데이터 셋을 k개의 다른 파트로 나눕니다 (K = 5 또는 K = 10 같은) 제일 처음의 part를 제거하고 남아있는 K-1 개의 파트에 모델을 적합시킵니다. 그러고 나서 남은 파트의 예측이 얼마나 좋은지 평가합니다(맨 처음 part의 MSE를 계산합니다.) 위의 과정을 K 번 반복합니다. 다른 part들을 각각 실행해 주면 됩니다. K개의 다른 MSE들의 평균을 구함으로써 추정 validation (test) error rate를 구합니다. $CV_{(k)} = \frac{1}{k}\sum_{i = 1}^{k}.. 2019. 9. 30.
Ch05 Resampling Methods - Leave-One-Out Cross Validation(LOOCV) LOOCV 이 방법은 Validation Set 접근법과 유사하지만 단점들을 해결하려고 시도합니다. 제시된 각 모델들에 대해 : 사이즈가 n인 data set으로 나눕니다. training data set (blue) 사이즈는 n-1이고 validation data set (beige) 사이즈는 1입니다. Training data을 사용하여 모델에 적용합니다. Validate data를 사용한 Validate model을 만든 뒤 대응하는 MSE를 계산합니다. 이 과정을 n번 반복합니다. 이 모델델의 MSE는 다음과 같이 계산됩니다. $CV_{(n)} = \frac{1}{n}\sum^{n}_{i=1}MSE_{i}$ LOOCV vs the Validation Set Approach LOOCV는 덜 편향적입.. 2019. 9. 27.
Ch05 Resampling Methods - The Validation Set Resampling methods란 무엇인가요? Resampling methods란 training data에서 반복적으로 sample들을 뽑고 적합한 모델에 대한 더 많은 정보를 얻기 위하여 각각의 샘플들을 모델에 재 적합시키는 방법입니다. 모델 평가 측면에서 test error rates를 추정한다든지 모델 선택 측면에서 모델 유연성의 적절 수준을 선택하는 경우에 사용됩니다. 계산 비용이 많이 들지만 현재는 powerful한 컴퓨터들이 많아서 수월하게 할 수 있습니다. resampling 두 가지 방법 교차 검증 (Cross Validation) 부트스트래핑 (Bootstrapping) 일반적인 접근: The Validation Set 가장 낮은 test (not training) error rate.. 2019. 9. 26.