범주형 반응변수?
이진변수(반응변수 값 $\in$ 0 또는 1)
멀티변수(반응변수 값 $\in$ 1 또는 2 또는 3 이상)
범주형 데이터일 경우 선형회귀모델과는 다른 방식으로 접근해야 함
선형회귀모델에는 잔차의 분포가 정규분포를 따라야 하는 가정이 있음
범주형 반응변수일 경우 잔차의 분포가 평균이 0일리 없고 분산 역시 마찬가지임
로지스틱 회귀모델 사용
새로운 관측치가 왔을 때 이를 기존 범주 중 하나로 예측(범주예측)
응용?
제품 불량/양품
고객 이탈/잔류
이메일 스팸/정상
페이스북 피드 보임/숨김
로지스틱 회귀모델 이론 배경?
이진변수부터 설명
$Y_{i} = \beta_{0} + \beta_{1}X_{i} + \epsilon_{i} $
$ Y_{i} = 0 \ or \ 1$
$E( \epsilon_{i} ) = 0$을 가정하면
$E(Y_{i}) = \beta_{0} + \beta_{1} X_{i}$
$Y_{i}$를 베르누이 확률 변수이니
$P(Y_{i} = 1) = \pi_{i}$
$P(Y_{i} = 0) = 1 - \pi_{i}$
$E(Y_{i}) = 1 \cdot \pi_{i} + 0 \cdot (1 - \pi_{i}) = \pi_{i}$
$E(Y_{i}) = \beta_{0} + \beta_{1}X_{i} = \pi_{i} $
X값이 주어졌을 때 출력변수 Y가 1의 값을 가질 확률
로지스틱 회귀분석 알고리즘-로지스틱 함수?
$f(X) = \frac{1}{1+e^{{-(\beta_{0}+\beta_{1}X)}}}$
로지스틱(Logistic) 함수
시그모이드(Sigmoid) 함수
$-\infty < X < \infty$
나오는 f(X)는 항상 0과 1사이임
로지스틱 함수 자세히?
Logistic function, Sigmoid function, Squashing function (Large input -> Small output 짓눌러서 Squash)
아웃풋 범위 0~1 사이의 확률(굉장히 중요)
인풋값에 대해 단조증가(혹은 단조감소) 함수
미분결과를 아웃풋의 함수로 표현 가능 (Gradient learning method에 유용하게 사용)
$\frac{d\Phi(z)}{dz} = \frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}}) = \Phi(z)(1-\Phi(z))$
$E(y) = \pi(X = x) = P(Y=1|X=x) = 1 - P(Y=0|X=x)$
단순로지스틱 회귀모델?
입력변수 X가 1개인 로지스틱 회귀모델
$E(y) = \pi(X = x) = \frac{1}{1+e^{-(\beta_{0}+\beta_{1}x)}}$
관측치 x가 범주 1에 속할 확률
(Probability that an observation x belongs to class 1)
$\beta_{1}$의 해석?
$E(y) = \pi(X = x) = \frac{1}{1+e^{-(\beta_{0}+\beta_{1}x)}} $
$\beta_{1}$의 해석 -> 직관적이지 못함
승산(Odds)?
성공 확률을 p로 정의할 때, 실패 대비 성공 확률 비율
$Odds = \frac{p}{1-p}$
p = 1 -> odds = $\infty$
p = 0 -> odds = 0
Odds 예시?
월드컵
프랑스의 우승 odds는 2/11
$\frac{p}{1-p}=\frac{2}{11}$
$p = \frac{2}{13} = 0.15$
프랑스의 우승 확률은 2/13=0.15(15%)
$beta_{1}$의 해석에서 Odds?
$\pi$는 확률
$\pi(X=x) = \frac{1}{1+e^{-(\beta_{0}+\beta_{1}x)}}$
$0 \leq \pi(X=x) \leq 1$
$Odds = \frac{\pi(X=x)}{1 - \pi(X=x)}$
Odds : 범주 0에 속할 확률 대비 범주 1에 속할 확률
$log(Odds) = log(\frac{\pi(X=x)}{1-\pi(X=x)}) = log(\frac{\frac{1}{1+e^{-(\beta_{0}+\beta_{1}x)}}}{1-\frac{1}{1+e^{-(\beta_{0}+\beta_{1}x)}}}) = \beta_{0} + \beta_{1}x$
Odds에다 log를 취하면 단순한 선형결합으로 바뀜
Logit Transform(로짓 변환)
로짓 변환?
두 개의 변환
첫 번째는 Odds
두 번째는 Odds에다 log를 취한 것
$\beta_{1}$ 해석이 직관적이게 됨
$\beta_{1}$의 의미?
x가 한 단위 증가했을 때 log(Odds)의 증가량
성공확률 $\pi(X)$에 따른 log(Odds)의 그래프?
$\pi(X)$가 0.5이면 log1 = 0
$\pi(X)$가 1에 가까워지면 무한대
$\pi(X)$가 0에 가까워지면 -무한대
댓글