Random Forests
랜덤 포레스트는 매우 효율적인 통계 학습 방법입니다.
Bagging의 아이디어를 토대로 하지만 더 좋은 방안입니다.
The trees를 de-correlate 하기 때문입니다.
작동하는 방식은 다음과 같습니다.
Bootstrapped training sample의 결정 트리들을 만드는데 이때, 트리에서 분할을 고려하여
전체 p predictors의 집합으로부터 임의적 샘플의 m predictors가 split candidates로 선택됩니다.
보통 $m \approx \sqrt{p}$
왜 분할 시 모든 predictors 대신에 랜덤 샘플의 m predictors를 고려해야 할까요?
데이터셋에서 다른 적당히 강력한 predictor 사이에 매우 강력한 predictor가 있다고 가정합니다.
Bagged trees의 collection에서 이들의 대부분 아니면 모든 것들이 첫 번째 split으로 매우 강력한 predictor를 사용합니다.
모든 bagged trees는 보기에 비슷하고, 따라서 bagged trees의 모든 predictions는 매우 높은 상관성을 지닙니다.
높게 상관있는 quantities를 평균화하는 것은 분산의 감소를 크게 하지 못합니다. 따라서 random forests는 bagged trees를 de-correlates 함으로써 분산의 감소를 더 이끕니다.
Random Forest with different values of "m"
Random forests가 m = p를 사용하면 이것은 단순 bagging과 다를 바 없습니다.

'ISLR' 카테고리의 다른 글
| Chap 09 Support Vector Machines - The Support Vector Machine Classifier (0) | 2019.10.16 |
|---|---|
| Chap 09 Support Vector Machines - The Support Vector Classifier (0) | 2019.10.15 |
| Chap 08 Bagging and Random Forests : Bagging (0) | 2019.10.11 |
| Chap 08 트리 기반 모델 - Decision Trees : Regression Trees (0) | 2019.10.08 |
| Chap 06 선형 모델 선택 및 정규화 - Shrinkage Methods : Ridge, LASSO (9) | 2019.10.04 |
댓글