로지스틱 회귀모델?
X변수를 로지스틱 함수형태(비선형결합)로 표현
$\pi(X) = \frac{1}{1+e^{-(\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p})}}$
$0 \leq \pi(X) \leq 1$
관측치가 특정 범주에 속할 확률로 계산
확률값이 정한 기준보다 크면 범주 1 아니면 범주2(이진범주 분류 문제의 경우)
다중 로지스틱 회귀모델?
입력변수 X가 2개 이상
$\pi(X) = \frac{1}{1+e^{-(\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p})}}$
$Odds = \frac{\pi(X)}{1-\pi(X)}=e^{\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p}}$
$log(Odds) = log(\frac{\pi(X)}{1-\pi(X)})=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+...+\beta_{p}X_{p}$
로지스틱 회귀모델 학습: 최대 우도 추정법(Maximum Likelihood Estimation)?
$f_{i}(y_i)=\pi(x_{i})^{y_{i}}(1-\pi(x_{i}))^{1-y_{i}}, \ i=1,2,...,n$
$P(y_{i} = 1) = \pi_{i}$
$P(y_{i} = 0) = 1 - \pi_{i}$
$L = \Pi_{i}f_{i}(y_{i}) = \Pi_{i}\pi(x_{i})^{y_{i}}(1-\pi(x_{i}))^{1-y_{i}}$
곱하기는 더하기 형식으로 바꿔주면 편함(log)
$lnL = ln [\Pi_{i}\pi(x_{i})^{y_{i}}(1-\pi(x_{i}))^{1-y_{i}}]$
$= ln\Pi_{i} [\frac{\pi(x_{1})}{1-\pi(x_{i})}]^{y_{i}} + \sum_{i} ln(1-\pi(x_{i})) $
$= \sum_{i} y_{i} ln[\frac{\pi(x_{1})}{1-\pi(x_{i})}] + \sum_{i} ln(1-\pi(x_{i})) $
$= \sum_{i}y_{i}(\beta_{0}+\beta_{1}X_{1}+...+\beta_{p}X_{p}) + \sum_{i}ln(1+e^{\beta_{0}+\beta_{1}X_{1}+...+\beta_{p}X_{p}})$
parameter들이 보이기 시작
Likelihood 함수?
확률함수를 여러 번 곱한 함수
Log likelihood 함수?
$lnL = \sum_{i}y_{i}(\beta_{0}+\beta_{1}X_{1}+...+\beta_{p}X_{p}) + \sum_{i}ln(1+e^{\beta_{0}+\beta_{1}X_{1}+...+\beta_{p}X_{p}})$
위 로그-우도함수가 최대가 되는 파라미터 $\beta$ 결정
로그-우도함수는 파라미터 $\beta$에 대해 비선형이므로 선형회귀 모델과 같이 명시적인 해가 존재하지 않음(No dosed-form solution exists)
Iterative reweight least square, Conjugate gradient, Newton's method 등의 수치 최적화 알고리즘을 이용하여 해를 구함
파라미터 추정?
Cross entropy : 두 확률분포(p(x), q(x))의 차이
$Cross entropy = -\sum p(x)log q(x)$
Cross entropy는 음의 log likelihood function의 기댓값
Log likelihood function을 최대 = 입력 분포 p(x)와 파라미터가 주어졌을 때, 출력 분포 q(x)의 확률을 최대
Cross entropy 최소 = 입력 분포 p(x)와 출력분포 q(x)의 차이를 최소
Log likelihood function을 최대 = cross entropy를 최소
로지스틱 회귀모델 - 결과 및 해석?
파라미터가 추정되고 난 이후 최종모델
$\pi(X) = f(X) = \frac{1}{1+e^{-(\hat{\beta_{0}}+\hat{\beta_{1}}X_{1}+...+\hat{\beta_{p}}X_{p})}}=\frac{1}{1+e^{-\hat{\beta}X}}$
이진 분류를 위한 기준값(threshold) 설정 : 일반적으로 0.5를 사용
0.5보다 크면 1, 0.5보다 작으면 0 분류 예측
경우에 따라 0.2를 사용할 때도 있음
기준값 0.2를 사용할 때?
성공 범주의 비중이 낮을 때
불량 예측, 희귀환자 예측, 사기카드 예측
기준값을 높게 사용할 때?
많지는 않음
성공 범주의 비중이 높을 때
선형회귀모델?
$f(X) = \hat{\beta_{0}}+\hat{\beta_{1}}X_{1}+...+\hat{\beta_{p}}X_{p}$
입력변수가 1단위 증가할 때 출력변수의 변화량
로지스틱회귀모델?
$log(Odds) = \hat{\beta_{0}}+\hat{\beta_{1}}X_{1}+...+\hat{\beta_{p}}X_{p}$
입력변수가 1단위 증가할 때 log(Odds)의 변화량
승산 비율 : Odds Ratio?
$\frac{odds(x_{1}+1,x_{2},...,x_{n})}{odds(x_{1},x_{2},...,x_{n})}=\frac{e^{ \hat{\beta_{0}}+\hat{\beta_{1}}(X_{1}+1)+...+\hat{\beta_{p}}X_{p}}}{e^{ \hat{\beta_{0}}+\hat{\beta_{1}}X_{1}+...+\hat{\beta_{p}}X_{p}}}=e^{\beta_{1}}$
나머지 입력변수는 모두 고정시킨 상태에서 한 변수를 1단위 증가시켰을 때 변화하는 Odds의 비율
$x_{1}$이 1단위 증가하면 성공에 대한 승산 비율이 $e^{\beta_{1}}$만큼 변화함
회귀 계수가 양수 -> 성공확률 증가(성공확률 $\geq$ 1)
회귀 계수가 음수 -> 성공확률 감소 (0 $\leq$ 성공확률 < 1)
Coefficient(로지스틱 회귀계수, 추정된 파라미터 값)?
해당 변수가 1단위 증가할 때 로그아드의 변화량량
양수이면 성공확률과 양의 상관관계, 음수이면 성공 확률과 음의 상관관계
Std.Error(추정 파라미터의 표준편차)?
추정 파라미터의 신뢰구간(구간추정)을 구축할 때 사용
p-value?
해당 변수가 통계적으로 유의미한지 여부를 알려주는 지표
해당 파라미터 값이 0이인지 여부를 통계적으로 판단(가설검정)
Odds(Odds Ratio)?
나머지 입력변수는 모두 고정시킨 상태에서 한 변수를 1단위 증가시켰을 때 변화하는 Odds(성공확률)의 비율
Experience = 1.058 -> 경험이 1년 더 많으면 대출 확률이 1.058배 증가
로지스틱 회귀모델 예제?
나이, 사회적 지위, 거주지역과 질병유무와의 관계
회적 지위는 원래 3개의 범주(상, 중, 하)를 갖는 변수
-> 2개의 이진 변수($X_{1},X_{2}$)로 표현(상->(0,0), 중->(1,0), 하->(0,1))
거주지역은 2개 범주 (지역1->0, 지역2->1)
Regression Coefficient & Odds Ratio 해석?
$\beta_{1}$의 odds ratio = 1.030 -> 나이가 1살 증가하면 질병 걸릴 확률 1.03배 증가
$\beta_{4}$의 odds ratio = 4.829 -> 거주지역이 2이면 질병 걸릴 확률 4.829배 증가
댓글