본문 바로가기
ISLR

Chap3 회귀분석(2)

by 지식광부키우기 2019. 9. 19.

● Qualitative Predictors 

 

"남자", "여자" 같은 범주형(category listings)은 회귀 방정식에 어떻게 이용해야 할까요?

 

답은 범주형 데이터는 가변수(indicator variables)로 코드화 시키면 됩니다.

(dummy variables이라고도 합니다)

 

예를 들어 "남자=0, 여자=1"으로 코드 화합니다.

 

 

● Interprertation

 

수입과 성별을 변수로 사용한다고 가정합니다.

 

범주형인 성별은 코드화 해줍니다. 

<그림1>

회귀 방정식을 세우면

 

<그림2>

 

위와 같은 결과가 나옵니다.

 

$\beta_{2}$는 average extra balance each month that females have for given income level입니다.

 

남성은 "baseline"입니다. 

 

<그림3>

 

● Other Coding Schemes

 

꼭 0과 1로만 코드 화할 필요는 없습니다.

 

범주형 데이터를 코드 화할 다른 방법들이 있습니다.

 

<그림4>

이런 식으로 해도 괜찮습니다.

 

회귀 방정식은 

 

<그림5>

 

$\beta_{2}$는 여자의 경우 평균보다 높은 평균 금액을, 남성의 경우 평균보다 낮은 평균 금액을 나타냅니다.

 

 

● Other Issues Discussed

 

다른 이슈들도 남아있습니다. 

 

상호 작용(Interaction terms), 비선형 효과(Non-linear effects), 다중 공선 성(Multicollinearity), 모델 선택(Model Selection) 

 

등이 있습니다.

 

 

● Interaction

 

$X_{1}$ 증가에 따른 Y의 효과가 다른 $X_{2}$에 의존하는 경우가 있습니다.

 

직위($X_{1}$)를 증가시킬 때  급여(Y)에 미치는 영향은 성별($X_{2}$)에 따라 달라질 수 있을까요?

 

예를 들어 승진 시 남자의 급여가 여자보다 좀 더 빠르게(또는 느리게) 증가할 수 있습니다.

 

광고의 예에서도

 

TV와 radio 광고는 둘 다 판매를 촉진시킵니다.

 

두 매체에 모두 돈을 투자하는 것이 판매를 더 증가시킬까요? 똑같은 양의 돈을 하나의 매체에만 투자하는 것보다?

 

 

● Interaction in advertising 

 

<그림6>

 

● Parallel Regression Lines

 

<그림7>

 

기울기는 같지만 절편이 달라져 평행하는 직선을 볼 수 있습니다.

 

 

● Interaction Effects

 

위의 모델에서 남자와 여자의 직선은 평행입니다.

 

평행한 직선은 승진은 남과 여 모두 동일한 급여 혜택을 가집니다.

 

만약 직선이 평행하지 않다면 승진은 여자와 남자의 급여가 다르게끔 영향을 미칩니다.

 

 

● Should the Lines be Parallel?

 

<그림8>

 

 

오늘은 회귀분석에서 범주형 데이터를 처리하는 방법과 상호 작용 효과에 대해서 배웠습니다.

 

다음 시간에는 모델 적합시 일어날 수 있는 문제와 KNN Regression에 대해 다뤄보도록 하겠습니다. 감사합니다

'ISLR' 카테고리의 다른 글

Ch04 분류분석(1)  (0) 2019.09.23
Chap3 회귀분석(3)  (0) 2019.09.20
Chap03 회귀분석(1)  (0) 2019.09.18
Chap02 모델정확도 평가하기(2)  (0) 2019.09.17
Chap02 모델정확도 평가하기(1)  (0) 2019.09.16

댓글