ISLR27 Chap 06 선형 모델 선택 및 정규화 - 최소 제곱법 보완 Improving on the Least Squares Regression Estimates? 전에 선형 회귀 모델을 최소 제곱 법을 사용해서 구현했습니다. 최소 제곱법이 아닌 다른 적합 방식으로 선형 회귀 모델을 개선시킬 수는 없을까요? 목표는 MSE를 최소화하는 것입니다. 최소 제곱 추정 사용을 선호하지 않는 두 가지 이유가 있습니다. 1. 예측 정확도 (Prediction Accuracy) 2. 모델 해석력 (Model Interpretability) Prediction Accuracy 최소 제곱 추정은 상대적으로 낮은 편향과 낮은 변동성을 갖습니다. 특히 Y와 X의 관계가 선형이고 관측치 n의 숫자가 예측치 p의 숫자보다 클 때 그러합니다. P(n >> p) 그러나, $n\approx p$일 때,.. 2019. 10. 1. Ch05 Resampling Methods - k-fold Cross Validation k-fold Cross Validation LOOCV는 계산이 오래 걸립니다. 따라서 k-fold Cross Validation을 대신 사용합니다. k-fold Cross Validation은 데이터 셋을 k개의 다른 파트로 나눕니다 (K = 5 또는 K = 10 같은) 제일 처음의 part를 제거하고 남아있는 K-1 개의 파트에 모델을 적합시킵니다. 그러고 나서 남은 파트의 예측이 얼마나 좋은지 평가합니다(맨 처음 part의 MSE를 계산합니다.) 위의 과정을 K 번 반복합니다. 다른 part들을 각각 실행해 주면 됩니다. K개의 다른 MSE들의 평균을 구함으로써 추정 validation (test) error rate를 구합니다. $CV_{(k)} = \frac{1}{k}\sum_{i = 1}^{k}.. 2019. 9. 30. Ch05 Resampling Methods - Leave-One-Out Cross Validation(LOOCV) LOOCV 이 방법은 Validation Set 접근법과 유사하지만 단점들을 해결하려고 시도합니다. 제시된 각 모델들에 대해 : 사이즈가 n인 data set으로 나눕니다. training data set (blue) 사이즈는 n-1이고 validation data set (beige) 사이즈는 1입니다. Training data을 사용하여 모델에 적용합니다. Validate data를 사용한 Validate model을 만든 뒤 대응하는 MSE를 계산합니다. 이 과정을 n번 반복합니다. 이 모델델의 MSE는 다음과 같이 계산됩니다. $CV_{(n)} = \frac{1}{n}\sum^{n}_{i=1}MSE_{i}$ LOOCV vs the Validation Set Approach LOOCV는 덜 편향적입.. 2019. 9. 27. Ch05 Resampling Methods - The Validation Set Resampling methods란 무엇인가요? Resampling methods란 training data에서 반복적으로 sample들을 뽑고 적합한 모델에 대한 더 많은 정보를 얻기 위하여 각각의 샘플들을 모델에 재 적합시키는 방법입니다. 모델 평가 측면에서 test error rates를 추정한다든지 모델 선택 측면에서 모델 유연성의 적절 수준을 선택하는 경우에 사용됩니다. 계산 비용이 많이 들지만 현재는 powerful한 컴퓨터들이 많아서 수월하게 할 수 있습니다. resampling 두 가지 방법 교차 검증 (Cross Validation) 부트스트래핑 (Bootstrapping) 일반적인 접근: The Validation Set 가장 낮은 test (not training) error rate.. 2019. 9. 26. 이전 1 2 3 4 5 6 7 다음