본문 바로가기
ISLR

Chap02 통계 학습(3)

by 지식광부키우기 2019. 9. 11.

오늘은 저번 시간에 이어서 왜 더 현실적이고 유연한 모델을 쓰면 안 되는 지를 설명드리겠습니다.

 

● 예측 정확성과 모델 해석 가능성 사이의 상충관계

 

1. 회귀 분석같은 단순한 방법은 모델 해석을 더 쉽게 할 수 있다(추론 부분에서 더 뛰어남.) 예를 들어 선형 모델에서 

 

$\beta_{j}$는 다른 모든 변수를 일정하게 유지했을 때 $\mathbf {X_{j}}$의 한 단위 증가에 대한 Y의 평균 증가입니다. 

 

2. 예측에만 관심이 있어 첫번째 이유와 관련이 없어도 복잡한 모델 대신 간단한 모델로 더 정확한 예측을 할 

 

가능성이 있습니다.  직관적으로 보이지는 않지만 더 유연한 모델이 오히려 적합시키기 어렵다는 사실과 관련됩니다.

 

 

● 나쁜 추정 

 

비선형회귀 방법은 매우 유연하지만 f에 대해 나쁜 추정을 할 수 있다. 

 

 

● 지도학습(supervised)과 비지도 학습(unsupervised learning)

 

모든 학습 문제를 지도학습과 비지도 학습의 상황으로 구별할 필요가 있습니다.

 

 

● 지도학습

 

지도 학습은 예측 변수 $\mathbf {X_{i}}$와 반응 변수 $Y_{i}$가 관찰되어야 합니다.

 

대부분의 코스에서 지도 학습을 다루게 됩니다.

 

 

● 비지도 학습 

 

비지도 학습에서는 $\mathbf {X_{i}}$만 관찰됩니다.

 

$\mathbf {X_{i}}$'s를 이용하여 Y를 추측하고 모델을 만듭니다.

 

가장 흔한 예로 시장 세분화를 들 수 있습니다. 특성에 맞게 잠재 고객을 그룹으로 나누는 것이 이에 해당합니다.

 

또한 흔한 접근은 군집화(clustering)입니다.

 

<그림1>

 

<그림 1>은 간단한 클러스터링의 예시입니다.

 

 

● 회귀(regression) vs 분류(classification)

 

지도 학습문제는 회귀와 분류 문제로 나눌 수 있습니다.

 

회귀는 Y가 연속적이거나 숫자형인 경우를 다룹니다. 

 

예를 들어, 6개월 후 다우지수의 값을 예측한다거나 집 값을 예측하는 것입니다.

 

분류는 Y가 범주형(categorical)인 경우를 다룹니다.

 

예를들어, 다우지수가 6개월 후 올라갈까 내려갈까, 이 메일이 스팸일까 아닐까? 등입니다. 

 

 

● 다른 접근들

 

우리는 앞으로 이 두 타입을 모두 다룰 것입니다.

 

어떤 방법들은 둘 모두를 잘 수행해냅니다(예를 들어, Neural Networks)

 

다른 방법들은 하나의 방법을 잘 수행합니다 예를들어, 회귀는 Linear Regression

 

분류는 k-Nearest Neighbors입니다. 

 

 

지금까지 통계 학습에 대한 전반적인 것을 배워보았습니다.

 

다음 시간부터는 모델 정확도를 평가하는 방법에 대해 배워보겠습니다. 감사합니다.

'ISLR' 카테고리의 다른 글

Chap03 회귀분석(1)  (0) 2019.09.18
Chap02 모델정확도 평가하기(2)  (0) 2019.09.17
Chap02 모델정확도 평가하기(1)  (0) 2019.09.16
Chap02 통계 학습(2)  (0) 2019.09.06
Chap02 통계 학습(1)  (0) 2019.09.05

댓글