k-fold CV2 Chap 08 트리 기반 모델 - Decision Trees : Tree pruning Pruning a Tree The training set에는 좋은 예측력을 자랑하지만 data에 overfit 되어있습니다. data에 overfit되면 test set 예측 성능면에서 좋지 못합니다. 적은 분리의 작은 트리는 bias를 높이는 대신 분산을 낮춰 좋은 해석이 가능하도록 합니다. 이를 만들기 위한 방안은 각 분리마다 RSS 감소가 임계점을 초과할 때만 트리를 성장시키는 것입니다. 이 전략은 더 작은 나무를 만들지 몰라도 너무 short-sighted 합니다. 처음 보기엔 쓸모없는 분할일지 몰라도 나중엔 좋은 분할로 이어질 수 있습니다(후에 RSS를 크게 줄이는). 더 나은 전략은 매우 큰 트리 $T_{0}$를 만든 후 subtree로 가지치기를 하는 것입니다. 직관적으로 가장 작은 test.. 2019. 10. 24. Ch05 Resampling Methods - k-fold Cross Validation k-fold Cross Validation LOOCV는 계산이 오래 걸립니다. 따라서 k-fold Cross Validation을 대신 사용합니다. k-fold Cross Validation은 데이터 셋을 k개의 다른 파트로 나눕니다 (K = 5 또는 K = 10 같은) 제일 처음의 part를 제거하고 남아있는 K-1 개의 파트에 모델을 적합시킵니다. 그러고 나서 남은 파트의 예측이 얼마나 좋은지 평가합니다(맨 처음 part의 MSE를 계산합니다.) 위의 과정을 K 번 반복합니다. 다른 part들을 각각 실행해 주면 됩니다. K개의 다른 MSE들의 평균을 구함으로써 추정 validation (test) error rate를 구합니다. $CV_{(k)} = \frac{1}{k}\sum_{i = 1}^{k}.. 2019. 9. 30. 이전 1 다음