knn3 Ch04 분류분석(3) - LDA & QDA Discriminant Analysis 각 classes에서의 X의 분포를 개별적으로 모델링하한 후 Bayes 정리를 사용하여 $Pr(Y \mid X)$를 얻습니다. 각 class에 대해 normal (Gaussian) 분포를 사용하고 이는 linear or quadratic discriminant analysis로 이어집니다. 로지스틱 회귀가 아닌 다른 대안을 고려하는 이유 class들이 잘 분리되어 있을 때 로지스틱 회귀로 모수를 추정하는 것은 매우 불안정(unstable)합니다. n이 작고, 예측 변수 X의 분포가 대략적으로 정규성을 띈다면 LDA는 로지스틱 회귀보다 더 안정성을 가집니다, LDA는 response classes가 두개 이상일 때 더 자주 사용됩니다. ▶ 선형 판별분석(Linear .. 2019. 9. 25. Chap3 회귀분석(3) ● Potential Fit Problems 선형 회귀 모델을 적합할 때 다음과 같은 문제점을 마주할 수 있습니다. 1. Non-linearity of the data 2. Dependence of the error terms 3. Non-constant variance of error terms 4. Outliers 5. High leverage points 6. Collinearity 각각에 대한 자세한 설명은 따로 포스팅하도록 하겠습니다. ● KNN Regression KNN Regression은 KNN classifier랑 비슷합니다. 주어진 X 값에서 Y를 예측할 때 training data에서 X와 가장 가까운 지점의 k를 고려한 후 평적인 반응을 취합니다. $f(x) = \frac {1}{K.. 2019. 9. 20. Chap02 모델정확도 평가하기(2) 오늘은 저번 시간에 이어서 학습하겠습니다. ● The Classification Setting 회귀 문제에서 MSE를 통계 학습 모델의 정확도를 평가하는 데 사용했습니다. 분류 문제에서는 error rate를 사용합니다. $Error Rate = \sum_{i=1}^{n}I(y_{i} \neq \hat {y_{i}})/n$ $I(y_{i} \neq \hat {y_{i}})$은 지시 함수(indicator function)입니다. 만약 $(y_{i} \neq \hat {y_{i}})$이 맞다면 1 그렇지 않다면 0 값을 가집니다. 따라서 error rate는 잘못된 분류 또는 오분류의 비율을 나타냅니다 ● Bayes Error Rate 베이즈 오차율은 가장 낮은 가능성의 오차율을 나타내는데, 데이터의 't.. 2019. 9. 17. 이전 1 다음