cv2 Algorithm Chains and Pipelines - Automatic Model Selection 모델 선택을 위한 그리드 서치 파이프라인을 사용하는 주된 목적은 그리드 서치 때문입니다. GridsearcCV와 Pipeline을 연결하는 것에서 더 나아가, 파이프라인을 구성하는 단계도 탐색 대상으로 삼을 수 있습니다. 탐색 범위가 넒어집니다. 모든 알고리즘을 시도해보는 것이 필수적인 머신러닝 전략은 아닙니다. SVC, MLPClassifier, RandomForest Classifier를 비교해보겠습니다. SVC는 데이터 스케일을 조정해야 하므로 StandardScaler를 사용할지 또는 전처리를 하지 않을지 판단해야합니다. MLPClassifier도 전처리가 필요한지 판단해야합니다. RandomForestClassifier에는 전처리가 필요 없습니다. Cancer 데이터셋 예시 from sklear.. 2019. 12. 23. Chap 08 트리 기반 모델 - Decision Trees : Tree pruning Pruning a Tree The training set에는 좋은 예측력을 자랑하지만 data에 overfit 되어있습니다. data에 overfit되면 test set 예측 성능면에서 좋지 못합니다. 적은 분리의 작은 트리는 bias를 높이는 대신 분산을 낮춰 좋은 해석이 가능하도록 합니다. 이를 만들기 위한 방안은 각 분리마다 RSS 감소가 임계점을 초과할 때만 트리를 성장시키는 것입니다. 이 전략은 더 작은 나무를 만들지 몰라도 너무 short-sighted 합니다. 처음 보기엔 쓸모없는 분할일지 몰라도 나중엔 좋은 분할로 이어질 수 있습니다(후에 RSS를 크게 줄이는). 더 나은 전략은 매우 큰 트리 $T_{0}$를 만든 후 subtree로 가지치기를 하는 것입니다. 직관적으로 가장 작은 test.. 2019. 10. 24. 이전 1 다음