본문 바로가기

LOOCV3

Model Evaluation and Improvement & Cross-Validation Model Evaluation and Improvement for Supervised Learning 머신러닝 모델의 성능을 평가하고 올바른 하이퍼파라미터를 선택하는 방법을 다루도록 하겠습니다. 비지도 학습 모델을 평가하고 선택하는 일은 매우 정성적인 작업이므로 지도 학습인 회귀와 분류에 집중합니다. 지금까지 본 적 없는 새로운 데이터에 모델이 얼마나 잘 일반화되는지 측정하는 것이 주된 관심사입니다. 모델이 훈련 세트에 잘 맞는 것보다, 학습 과정에 없던 데이터에 대해 예측을 얼마나 잘 하느냐가 중요합니다. 지도 학습 모델을 평가하기 위해 데이터셋을 훈련 세트와 테스트 세트로 나눴습니다. 모델을 만들기 위해 훈련 세트에 fit 메서드를 적용했습니다. 모델을 평가하기 위해 테스트 세트에 predict 메서.. 2019. 12. 12.
Ch05 Resampling Methods - k-fold Cross Validation k-fold Cross Validation LOOCV는 계산이 오래 걸립니다. 따라서 k-fold Cross Validation을 대신 사용합니다. k-fold Cross Validation은 데이터 셋을 k개의 다른 파트로 나눕니다 (K = 5 또는 K = 10 같은) 제일 처음의 part를 제거하고 남아있는 K-1 개의 파트에 모델을 적합시킵니다. 그러고 나서 남은 파트의 예측이 얼마나 좋은지 평가합니다(맨 처음 part의 MSE를 계산합니다.) 위의 과정을 K 번 반복합니다. 다른 part들을 각각 실행해 주면 됩니다. K개의 다른 MSE들의 평균을 구함으로써 추정 validation (test) error rate를 구합니다. $CV_{(k)} = \frac{1}{k}\sum_{i = 1}^{k}.. 2019. 9. 30.
Ch05 Resampling Methods - Leave-One-Out Cross Validation(LOOCV) LOOCV 이 방법은 Validation Set 접근법과 유사하지만 단점들을 해결하려고 시도합니다. 제시된 각 모델들에 대해 : 사이즈가 n인 data set으로 나눕니다. training data set (blue) 사이즈는 n-1이고 validation data set (beige) 사이즈는 1입니다. Training data을 사용하여 모델에 적용합니다. Validate data를 사용한 Validate model을 만든 뒤 대응하는 MSE를 계산합니다. 이 과정을 n번 반복합니다. 이 모델델의 MSE는 다음과 같이 계산됩니다. $CV_{(n)} = \frac{1}{n}\sum^{n}_{i=1}MSE_{i}$ LOOCV vs the Validation Set Approach LOOCV는 덜 편향적입.. 2019. 9. 27.