오늘은 저번 시간에 이어서 학습하겠습니다.
● The Classification Setting
회귀 문제에서 MSE를 통계 학습 모델의 정확도를 평가하는 데 사용했습니다.
분류 문제에서는 error rate를 사용합니다.
$Error Rate = \sum_{i=1}^{n}I(y_{i} \neq \hat {y_{i}})/n$
$I(y_{i} \neq \hat {y_{i}})$은 지시 함수(indicator function)입니다. 만약 $(y_{i} \neq \hat {y_{i}})$이 맞다면 1 그렇지 않다면 0 값을 가집니다.
따라서 error rate는 잘못된 분류 또는 오분류의 비율을 나타냅니다
● Bayes Error Rate
베이즈 오차율은 가장 낮은 가능성의 오차율을 나타내는데, 데이터의 'true' 확률 분포를 정확히 알고 있어야 합니다.
● K-Nearest Neighbors (KNN)
KNN은 베이즈 분류를 추정하는 유연한 접근법입니다.
주어진 X에 대해 훈련 데이터에서 X와 가장 가까운 k개의 이웃을 찾고 그에 대응하는 Y를 조사합니다.
만일 Y의 대다수가 주황색이면 주황색으로 예측합니다. 그렇지 않으면 파란색 등으로 예측합니다.
k 값이 작을수록 모델의 유연성이 커집니다.
● Training vs. Test Error Rates on the Simulated Data
Training error rates는 k가 줄어들거나 유연성이 증가함에 따라 감소합니다.
Test error rate는 처음에는 감소하지만 다시 증가하기 시작합니다.
● A Fundamental Picture
일반적으로 training errors는 항상 감소합니다.
Test errors는 처음에는 감소하지만(bias 감소가 지배적일 때) 그러나 다시 증가하기 시작합니다(variance 증가가 지배적)
학습 모델을 선택할 때 아래 그림을 항상 명심하세요! 더 유연하고 복잡한 모델이라고 항상 좋은 것만은 아닙니다.
이제 통계 학습에 대한 전반적인 내용이 끝났습니다.
다음 시간부터는 드디어 회귀 분석을 공부하겠습니다. 감사합니다.
'ISLR' 카테고리의 다른 글
Chap3 회귀분석(2) (0) | 2019.09.19 |
---|---|
Chap03 회귀분석(1) (0) | 2019.09.18 |
Chap02 모델정확도 평가하기(1) (0) | 2019.09.16 |
Chap02 통계 학습(3) (0) | 2019.09.11 |
Chap02 통계 학습(2) (0) | 2019.09.06 |
댓글