MSE4 Ch05 Resampling Methods - k-fold Cross Validation k-fold Cross Validation LOOCV는 계산이 오래 걸립니다. 따라서 k-fold Cross Validation을 대신 사용합니다. k-fold Cross Validation은 데이터 셋을 k개의 다른 파트로 나눕니다 (K = 5 또는 K = 10 같은) 제일 처음의 part를 제거하고 남아있는 K-1 개의 파트에 모델을 적합시킵니다. 그러고 나서 남은 파트의 예측이 얼마나 좋은지 평가합니다(맨 처음 part의 MSE를 계산합니다.) 위의 과정을 K 번 반복합니다. 다른 part들을 각각 실행해 주면 됩니다. K개의 다른 MSE들의 평균을 구함으로써 추정 validation (test) error rate를 구합니다. $CV_{(k)} = \frac{1}{k}\sum_{i = 1}^{k}.. 2019. 9. 30. Ch05 Resampling Methods - The Validation Set Resampling methods란 무엇인가요? Resampling methods란 training data에서 반복적으로 sample들을 뽑고 적합한 모델에 대한 더 많은 정보를 얻기 위하여 각각의 샘플들을 모델에 재 적합시키는 방법입니다. 모델 평가 측면에서 test error rates를 추정한다든지 모델 선택 측면에서 모델 유연성의 적절 수준을 선택하는 경우에 사용됩니다. 계산 비용이 많이 들지만 현재는 powerful한 컴퓨터들이 많아서 수월하게 할 수 있습니다. resampling 두 가지 방법 교차 검증 (Cross Validation) 부트스트래핑 (Bootstrapping) 일반적인 접근: The Validation Set 가장 낮은 test (not training) error rate.. 2019. 9. 26. Chap3 회귀분석(3) ● Potential Fit Problems 선형 회귀 모델을 적합할 때 다음과 같은 문제점을 마주할 수 있습니다. 1. Non-linearity of the data 2. Dependence of the error terms 3. Non-constant variance of error terms 4. Outliers 5. High leverage points 6. Collinearity 각각에 대한 자세한 설명은 따로 포스팅하도록 하겠습니다. ● KNN Regression KNN Regression은 KNN classifier랑 비슷합니다. 주어진 X 값에서 Y를 예측할 때 training data에서 X와 가장 가까운 지점의 k를 고려한 후 평적인 반응을 취합니다. $f(x) = \frac {1}{K.. 2019. 9. 20. Chap02 모델정확도 평가하기(1) ● 적합도(fit) 측정 회귀 문제를 가정해봅니다. 정확도를 평가하는 일반적인 방법은 mean squared error(MSE)입니다. $MSE = \frac {1}{n}\sum_{i=1}^{n}(y_{i}-\hat {y_{i}})^{2}$ $\hat {y_{i}}$은 훈련 데이터에서 뽑아낸 예측 값입니다. ● 문제점 1. 트레이닝 데이터를 기반으로 MSE를 최소화하는 모델을 디자인합니다. 예를 들어 선형 회귀를 사용하면 MSE가 최소화되는 선을 선택합니다. 2. 우리가 진정으로 봐야 할 것은 새로운 데이터에 잘 맞아떨어지는가입니다. 새로운 데이터는 "Test Data"라고 부릅니다. 3. Training MSE를 가장 작게 만드는 방법이라도 TEST MSE까지 가장 작다는 보장은 없습니다. ● Trai.. 2019. 9. 16. 이전 1 다음