본문 바로가기
ISLR

Ch04 분류분석(1)

by 지식광부키우기 2019. 9. 23.

▶ 로지스틱 회귀(Logistic regression)

 

사례 1

 

오렌지 주스 브랜드 선호도 

 

소비자들이 어떤 오렌지 주스 브랜드를 사는 것을 선호하는지 예측하고자 합니다.

 

Y(구매) 변수는 범주형(categorical)입니다. 0 or 1 

 

X 변수는 numerical value입니다. (0과 1 사이), 소비자들이 특정 브랜드의 오렌지 주스에 보이는 충성도입니다.

 

Y가 범주형일 때 회귀 분석을 사용할 수 있을까요??

 

 

▶ 회귀 분석이 안 되는 이유는 무엇인가요?

 

Y가 0과 1의 값만을 가질 때 회귀 분석이 적절하지 않은 이유는 다음과 같습니다. 

 

그림1

 

▶ 문제점

 

회귀 직선 $\beta_{0} + \beta_{1} X$는 $-\infty, \infty$사이에서 어떤 값이든 취할 수 있습니다.

 

위의 오렌지 주스 분류 문제에서 Y는 오직 0과 1 두 가지 값만 가질 수 있습니다.

 

그러므로 분류 문제에서 회귀 직선은 거의 항상 잘못된 Y 값을 예측합니다. 

 

 

▶ 해결책: 로지스틱 함수를 사용하자

 

Y를 예측하는 대신에, P(Y = 1)을 예측해봅시다. 즉, 소비자가 특정 브랜드 주스를 살 확률입니다.

 

따라서 0과 1 사이의 값을 출력하는 함수를 사용하여 P(Y = 1)을 모델링할 수 있습니다.

 

로지스틱 함수를 사용하고 그 모델이 로지스틱 회귀입니다.

 

$p = P(Y = 1) = \frac {e^{\beta_{0}+\beta_{1} X}}{1+e^{\beta_{0}+\beta_{1} X}}$

 

그림2

 

▶ 로지스틱 회귀(Logistic Regression)

 

로지스틱 회귀는 선형 회귀와 매우 유사합니다.

 

$b_{0}, b_{1}$으로 $\beta_{0}, \beta_{1}$을 추정합니다.

 

선형 회귀에서 있었던 유사한 질문과 문제점을 가질 수 있습니다.

 

예를 들어 $\beta_{1}$이 0과 같을까? 또는 $\beta_{0}$과 $\beta_{1}$의 추측이 맞다고 확신할 수 있을까 하는 것들입니다.

 

그림3

 

▶ 사례 2: Credit Card Default Data 

 

채무 불이행을 할 것 같은 고객을 예측하고자 합니다,

 

가능한 변수 X는 연봉, 매월 카드 잔액 등입니다.

 

Y 변수(Default)는 범주형(categorical)입니다. Yes or No

 

Y와 X의 관계를 어떻게 밝혀낼 수 있을까요?

 

 

▶ The Default Dataset

 

그림4

 

▶ 회귀 직선이 왜 안 되나요?

 

위의 데이터에 회귀 직선을 적합시키면 매우 낮은 balance에서 -의 확률을 예측하게 됩니다. 또한 높은 balance에서는 확률이 1보다 더 높아집니다. 

 

그림5
그림6

 

▶ Default Data에서 로지스틱 함수

 

low balance에서 확률은 0에 가깝지만 0보다 작지는 않습니다. high balance에서도 확률은 1에 가깝지만 1보다 커지진 않습니다.

 

 

다음 시간에는 로지스틱 회귀를 해석하는 방법에 대해 학습하겠습니다. 감사합니다,

'ISLR' 카테고리의 다른 글

Ch04 분류분석(3) - LDA & QDA  (0) 2019.09.25
Ch04 분류분석(2)  (0) 2019.09.24
Chap3 회귀분석(3)  (0) 2019.09.20
Chap3 회귀분석(2)  (0) 2019.09.19
Chap03 회귀분석(1)  (0) 2019.09.18

댓글