본문 바로가기

bagging2

Chap 08 Bagging and Random Forests : Random Forests Random Forests 랜덤 포레스트는 매우 효율적인 통계 학습 방법입니다. Bagging의 아이디어를 토대로 하지만 더 좋은 방안입니다. The trees를 de-correlate 하기 때문입니다. 작동하는 방식은 다음과 같습니다. Bootstrapped training sample의 결정 트리들을 만드는데 이때, 트리에서 분할을 고려하여 전체 p predictors의 집합으로부터 임의적 샘플의 m predictors가 split candidates로 선택됩니다. 보통 $m \approx \sqrt{p}$ 왜 분할 시 모든 predictors 대신에 랜덤 샘플의 m predictors를 고려해야 할까요? 데이터셋에서 다른 적당히 강력한 predictor 사이에 매우 강력한 predictor가 있다고.. 2019. 10. 14.
Chap 08 Bagging and Random Forests : Bagging 문제점 결정 트리는 높은 분산을 갖습니다. 즉, training data를 두 파트로 랜덤 하게 나누고 각각 결정 트리를 적합시키면 둘의 결과는 꽤 다르게 나옵니다. 낮은 분산을 갖는 모델을 만드는 것이 목표입니다. 이 문제를 해결하기 위해 bagging을 사용합니다. (bagging은 bootstrap aggregating에서 추린 말입니다.) Bootstrapping? 같은 사이즈의 관측된 데이터셋을 Resampling합니다. Resampling 된 데이터셋은 원래의 데이터셋에서 중복 가능한 random sampling을 통해 만들어졌습니다. Bagging? Bagging은 아래의 두 개의 방법을 기반으로 한 매우 강력한 아이디어입니다. Averaging : 분산을 줄입니다. Bootstrapping.. 2019. 10. 11.