● Qualitative Predictors
"남자", "여자" 같은 범주형(category listings)은 회귀 방정식에 어떻게 이용해야 할까요?
답은 범주형 데이터는 가변수(indicator variables)로 코드화 시키면 됩니다.
(dummy variables이라고도 합니다)
예를 들어 "남자=0, 여자=1"으로 코드 화합니다.
● Interprertation
수입과 성별을 변수로 사용한다고 가정합니다.
범주형인 성별은 코드화 해줍니다.
회귀 방정식을 세우면
위와 같은 결과가 나옵니다.
$\beta_{2}$는 average extra balance each month that females have for given income level입니다.
남성은 "baseline"입니다.
● Other Coding Schemes
꼭 0과 1로만 코드 화할 필요는 없습니다.
범주형 데이터를 코드 화할 다른 방법들이 있습니다.
이런 식으로 해도 괜찮습니다.
회귀 방정식은
$\beta_{2}$는 여자의 경우 평균보다 높은 평균 금액을, 남성의 경우 평균보다 낮은 평균 금액을 나타냅니다.
● Other Issues Discussed
다른 이슈들도 남아있습니다.
상호 작용(Interaction terms), 비선형 효과(Non-linear effects), 다중 공선 성(Multicollinearity), 모델 선택(Model Selection)
등이 있습니다.
● Interaction
$X_{1}$ 증가에 따른 Y의 효과가 다른 $X_{2}$에 의존하는 경우가 있습니다.
직위($X_{1}$)를 증가시킬 때 급여(Y)에 미치는 영향은 성별($X_{2}$)에 따라 달라질 수 있을까요?
예를 들어 승진 시 남자의 급여가 여자보다 좀 더 빠르게(또는 느리게) 증가할 수 있습니다.
광고의 예에서도
TV와 radio 광고는 둘 다 판매를 촉진시킵니다.
두 매체에 모두 돈을 투자하는 것이 판매를 더 증가시킬까요? 똑같은 양의 돈을 하나의 매체에만 투자하는 것보다?
● Interaction in advertising
● Parallel Regression Lines
기울기는 같지만 절편이 달라져 평행하는 직선을 볼 수 있습니다.
● Interaction Effects
위의 모델에서 남자와 여자의 직선은 평행입니다.
평행한 직선은 승진은 남과 여 모두 동일한 급여 혜택을 가집니다.
만약 직선이 평행하지 않다면 승진은 여자와 남자의 급여가 다르게끔 영향을 미칩니다.
● Should the Lines be Parallel?
오늘은 회귀분석에서 범주형 데이터를 처리하는 방법과 상호 작용 효과에 대해서 배웠습니다.
다음 시간에는 모델 적합시 일어날 수 있는 문제와 KNN Regression에 대해 다뤄보도록 하겠습니다. 감사합니다
'ISLR' 카테고리의 다른 글
Ch04 분류분석(1) (0) | 2019.09.23 |
---|---|
Chap3 회귀분석(3) (0) | 2019.09.20 |
Chap03 회귀분석(1) (0) | 2019.09.18 |
Chap02 모델정확도 평가하기(2) (0) | 2019.09.17 |
Chap02 모델정확도 평가하기(1) (0) | 2019.09.16 |
댓글