본문 바로가기
ISLR

Ch04 분류분석(2)

by 지식광부키우기 2019. 9. 24.

▶ $\beta_{1}$의 해석

 

로지스틱 회귀에서 $\beta_{1}$의 의미를 해석하는 일은 쉽지 않습니다.

 

Y가 아닌 P(Y)를 예측하기 때문입니다.

 

만약 $\beta_{1} = 0$라면, Y와 X 사이에 관계가 없다는 뜻입니다.

 

만약 $\beta_{1} > 0$일 때, X가 커지면 Y = 1일 확률도 커집니다.

 

만약 $\beta_{1} < 0$일 때, X가 커지면 Y = 1일 확률은 작아집니다.

 

얼마나 더 큰지 작은 지는 기울기에 따라 의존합니다.

 

 

▶ 계수가 중요할까?

 

로지스틱 회귀에서 가설 검정을 시행합니다. $\beta_{0}$, $\beta_{1}$이 0이 아니라고 확신할 수 있는지를 봅니다.

 

여기서는 T test 대신 Z test를 사용합니다. 그렇다고 p-value 해석하는 방법이 바뀌진 않습니다.

 

아래의 그림에서 p-value는 매우 작고 $b_{1}$은 양수입니다. 따라서 balance가 증가하면 

 

default 확률도 증가한다고 볼 수 있습니다.

 

그림1

 

 

▶ 예측하기 

 

한 사람의 average balance가 1000일 때, default의 확률은 어떻게 될까?

 

$\hat{p}(X) = \frac {e^{\hat {\beta_{0}}+\hat {\beta_{1}}X}}{1 + e^{\hat {\beta_{0}}+\hat {\beta_{1}}X}} = \frac {e^{-10.6513 + 0.0055 \times  1000}}{1 + e^{-10.6513 + 0.0055 \times 1000}} = 0.00576$

 

이 사람의 예측 default 확률은 1% 미만입니다.

 

balance가 2000일 때, 확률은 더 높아져 0.586(58.6%)가 됩니다.

 

 

▶ 로지스틱 회귀가 정성적(Qualitative) 예측변수를 가질 경우

 

individual default를 학생인지 아닌지를 체크해서 예측하려고 합니다.

 

qualitative variable "Student"를 코드화 합니다

 

(Student = 1, Non-student = 0)

 

$b_{1}$은 양수입니다. 학생이 더 높은 default probabilities 경향을 보입니다.

 

그림2
그림3

 

 

▶ 다중 로지스틱 회귀

 

선형 회귀 처럼 다중 로지스틱 적합도 가능합니다.

 

$p(X) = \frac{e^{\beta_{0}+\beta_{1}X_{1} + \cdots  + \beta_{p} X_{p}}}{1 + e^{\beta_{0}+\beta_{1} X_{1} + \cdots  + \beta_{p} X_{p}}} $

 

 

▶ 다중 로지스틱 회귀 - Default Data 

 

Predict Default using

 

Balance (quantitaive)

Income (quantitative)

Student (qualitative)

 

그림4

 

 

▶ 예측

 

credit card balance $1,500, income $40,000, student 

 

default 확률 측정하기

 

$\hat{p}(X) = \frac {e^{-10.8690.00574 \times 1500 + 0.003 \times 40 - 0.6468 \times 1}}{1 + e^{-10.8690.00574 \times 1500 + 0.003 \times 40 - 0.6468 \times 1}} = 0.058$

 

 

▶ 다중 로지스틱 회귀를 적합했을 때 명백히 다른 점

 

그림5

 

 

▶ Students(Orange) vs Non-students(Blue)

 

그림6

 

 

▶ 누구에게 신용을 제공해야 할까?

 

credit card balance is available에 대한 아무런 정보가 없다면 학생은 학생이 아닌 사람보다 더 리스크가 크다. 

 

그러나 같은 credit card balance에서는 학생이 리스크가 더 작습니다. 

'ISLR' 카테고리의 다른 글

Ch05 Resampling Methods - The Validation Set  (0) 2019.09.26
Ch04 분류분석(3) - LDA & QDA  (0) 2019.09.25
Ch04 분류분석(1)  (0) 2019.09.23
Chap3 회귀분석(3)  (0) 2019.09.20
Chap3 회귀분석(2)  (0) 2019.09.19

댓글