본문 바로가기

ISLR27

Chap 07 Moving Beyond Linearity Polynomial Regression linaer function : $f(x) = \beta_{0} + \beta_{1}x$ quadratic functon : $f(x) = \beta_{0} + \beta_{1}x + \beta_{2}x^{2}$ cubic function : $f(x) = \beta_{0} + \beta_{1}x + \beta_{2}x^{2} + \beta_{3}x^{3}$ $\vdots$ $f(x) = \beta_{0} + \beta_{1}x + \beta_{2}x^{2} + ... + \beta_{d}x^{d}$ 기존 선형 모델 $f(x_{1}, ,,., x_{d}) = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ... + \beta_{d.. 2019. 12. 16.
Chap 08 트리 기반 모델 - Decision Trees : Classification Trees, Tree Pruning, Trees vs Linear Models, Advantages and Disadvantages of Trees Classification Trees - Growing a Classification Trees 분류 트리는 회귀 트리와 매우 유사합니다. 연속형이 아닌 범주형 response를 예측하는 차이점을 보입니다. 분류 트리는 각 training 관측치가 속한 영역에서 새로운 관측치가 the most commonly occurring class에 속하는지를 예측합니다. 즉, 각 region(or node)에서 region으로 나뉜 training data로 가장 공통의 범주를 예측합니다. Details of classification trees 회귀일 때와 마찬가지로 분류 트리는 recursive binary splitting을 사용합니다. 그러나 RSS는 트리 분할에 사용할 수 없습니다. 대안으로 classi.. 2019. 10. 25.
Chap 08 트리 기반 모델 - Decision Trees : Tree pruning Pruning a Tree The training set에는 좋은 예측력을 자랑하지만 data에 overfit 되어있습니다. data에 overfit되면 test set 예측 성능면에서 좋지 못합니다. 적은 분리의 작은 트리는 bias를 높이는 대신 분산을 낮춰 좋은 해석이 가능하도록 합니다. 이를 만들기 위한 방안은 각 분리마다 RSS 감소가 임계점을 초과할 때만 트리를 성장시키는 것입니다. 이 전략은 더 작은 나무를 만들지 몰라도 너무 short-sighted 합니다. 처음 보기엔 쓸모없는 분할일지 몰라도 나중엔 좋은 분할로 이어질 수 있습니다(후에 RSS를 크게 줄이는). 더 나은 전략은 매우 큰 트리 $T_{0}$를 만든 후 subtree로 가지치기를 하는 것입니다. 직관적으로 가장 작은 test.. 2019. 10. 24.
Chap 10 Clustering - Hierarchical Clustering Hierarchical Clustering K-Means clustering은 clusters의 숫자를 선택하는 것을 요구합니다. 만일 그렇게 하는 것을 원치 않는다면, 대안으로 Hierarchical Clustering을 사용합니다. Hierarchical Clustering은 Dendogram고 불리는 관측치의 트리 기반 표현을 생산하는 추가적인 이점이 있습니다. Dendograms 먼저 가장 가까운 포인트들(5 and 7)을 join 합니다. Fusing/Mergin(세로축)의 높이는 points의 유사도를 나타냅니다. Points가 합쳐진 후엔 하나의 관측치로 다루어지고 알고리즙을 진행합니다. Interpretation Dendogram의 각 'leaf'는 45 관측치 중 하나를 나타냅니다. De.. 2019. 10. 18.