ISLR27 Chap 10 Clustering - K-Means Clustering Supervised vs Unsupervised Learning Supervised Learning : X와 Y를 모두 알고 있는 경우 Unsupervised Learning : X만 알고 있는 경우 Clustering Clustering은 데이터 셋에서 하위 그룹이나 군집을 찾는 기술들을 의미합니다. 좋은 clustering은 그룹 내에서의 관측치는 비슷하지만 그룹들끼리는 매우 다른 것을 의미합니다. 예를 들어, n명의 유방암 환자들에게서 p 측정값을 수집한다고 하면, 데이터를 clustering 하여 다른 모르는 유형의 암을 발견할 수 있습니다. Different Clustering Methods 많고 다른 유형의 Clustering 방법들이 있습니다. 가장 많이 사용되는 두 개를 살펴보겠습니다. K.. 2019. 10. 17. Chap 09 Support Vector Machines - The Support Vector Machine Classifier Non-Linear Classifier The support vector classifier는 꽤나 생각하기 쉬운 모델입니다. 그러나 linear decision boundary기 때문에 강력하지는 않습니다. 선형 회귀를 비선형 회귀로 확장해봅니다. $Y_{i} = \beta_{0} + \beta_{1} b_{1}(X_{i}) + \beta_{2} b_{2}(X_{i}) +... + \beta_{p} b_{p}(X_{i}) + \varepsilon_{i}$ A Basis Approach Support vecotr classifier와 비슷한 접근을 취할 수 있습니다. Ths support vecotr classifier가 $X_{1}, X_{2}, ..., X_{p}$에 의해 확장된 공간 안에서 the .. 2019. 10. 16. Chap 09 Support Vector Machines - The Support Vector Classifier Separable Hyperplanes 두 개의 predictors $X_{1}$과 $X_{2}$를 가진 two class classification problem이 있습니다. 두 classes는 "linearly separable"이라고 가정해봅니다. 즉, 직선을 긋고 한쪽의 모든 포인트는 첫 번째 class에 그리고 나머지 사이드의 포인트는 두 번째 class에 속합니다. 자연스럽게 접근하는 방법은 가장 classes를 잘 나눌 수 있는 직선을 찾는 것입니다. 즉, 포인트들이 직선하고 멀 수록 좋습니다. 이것이 support vecotr classifier의 기본적인 아이디어입니다. Tis Easiest To See With A Picture C는 각 포인트와 분리하는 선 사이의 최소 수직거리입니다... 2019. 10. 15. Chap 08 Bagging and Random Forests : Random Forests Random Forests 랜덤 포레스트는 매우 효율적인 통계 학습 방법입니다. Bagging의 아이디어를 토대로 하지만 더 좋은 방안입니다. The trees를 de-correlate 하기 때문입니다. 작동하는 방식은 다음과 같습니다. Bootstrapped training sample의 결정 트리들을 만드는데 이때, 트리에서 분할을 고려하여 전체 p predictors의 집합으로부터 임의적 샘플의 m predictors가 split candidates로 선택됩니다. 보통 $m \approx \sqrt{p}$ 왜 분할 시 모든 predictors 대신에 랜덤 샘플의 m predictors를 고려해야 할까요? 데이터셋에서 다른 적당히 강력한 predictor 사이에 매우 강력한 predictor가 있다고.. 2019. 10. 14. 이전 1 2 3 4 5 ··· 7 다음