범주형 반응변수?
이진변수(반응변수 값 ∈ 0 또는 1)
멀티변수(반응변수 값 ∈ 1 또는 2 또는 3 이상)
범주형 데이터일 경우 선형회귀모델과는 다른 방식으로 접근해야 함
선형회귀모델에는 잔차의 분포가 정규분포를 따라야 하는 가정이 있음
범주형 반응변수일 경우 잔차의 분포가 평균이 0일리 없고 분산 역시 마찬가지임
로지스틱 회귀모델 사용
새로운 관측치가 왔을 때 이를 기존 범주 중 하나로 예측(범주예측)
응용?
제품 불량/양품
고객 이탈/잔류
이메일 스팸/정상
페이스북 피드 보임/숨김
로지스틱 회귀모델 이론 배경?
이진변수부터 설명
Yi=β0+β1Xi+ϵi
Yi=0 or 1
E(ϵi)=0을 가정하면
E(Yi)=β0+β1Xi
Yi를 베르누이 확률 변수이니
P(Yi=1)=πi
P(Yi=0)=1−πi
E(Yi)=1⋅πi+0⋅(1−πi)=πi
E(Yi)=β0+β1Xi=πi
X값이 주어졌을 때 출력변수 Y가 1의 값을 가질 확률
로지스틱 회귀분석 알고리즘-로지스틱 함수?
f(X)=11+e−(β0+β1X)
로지스틱(Logistic) 함수
시그모이드(Sigmoid) 함수
−∞<X<∞
나오는 f(X)는 항상 0과 1사이임
로지스틱 함수 자세히?
Logistic function, Sigmoid function, Squashing function (Large input -> Small output 짓눌러서 Squash)
아웃풋 범위 0~1 사이의 확률(굉장히 중요)
인풋값에 대해 단조증가(혹은 단조감소) 함수
미분결과를 아웃풋의 함수로 표현 가능 (Gradient learning method에 유용하게 사용)
dΦ(z)dz=11+e−z(1−11+e−z)=Φ(z)(1−Φ(z))
E(y)=π(X=x)=P(Y=1|X=x)=1−P(Y=0|X=x)
단순로지스틱 회귀모델?
입력변수 X가 1개인 로지스틱 회귀모델
E(y)=π(X=x)=11+e−(β0+β1x)
관측치 x가 범주 1에 속할 확률
(Probability that an observation x belongs to class 1)
β1의 해석?
E(y)=π(X=x)=11+e−(β0+β1x)
β1의 해석 -> 직관적이지 못함
승산(Odds)?
성공 확률을 p로 정의할 때, 실패 대비 성공 확률 비율
Odds=p1−p
p = 1 -> odds = ∞
p = 0 -> odds = 0
Odds 예시?
월드컵
프랑스의 우승 odds는 2/11
p1−p=211
p=213=0.15
프랑스의 우승 확률은 2/13=0.15(15%)
beta1의 해석에서 Odds?
π는 확률
π(X=x)=11+e−(β0+β1x)
0≤π(X=x)≤1
Odds=π(X=x)1−π(X=x)
Odds : 범주 0에 속할 확률 대비 범주 1에 속할 확률
log(Odds)=log(π(X=x)1−π(X=x))=log(11+e−(β0+β1x)1−11+e−(β0+β1x))=β0+β1x
Odds에다 log를 취하면 단순한 선형결합으로 바뀜
Logit Transform(로짓 변환)
로짓 변환?
두 개의 변환
첫 번째는 Odds
두 번째는 Odds에다 log를 취한 것
β1 해석이 직관적이게 됨
β1의 의미?
x가 한 단위 증가했을 때 log(Odds)의 증가량
성공확률 π(X)에 따른 log(Odds)의 그래프?
π(X)가 0.5이면 log1 = 0
π(X)가 1에 가까워지면 무한대
π(X)가 0에 가까워지면 -무한대
댓글