안녕하세요. 인문계공돌이입니다.
경기도 일자리 청년통장 선발정보 데이터를 가지고 여러 가지 분석을 해보려고 하는데 오늘은 연속형 변수 분석을 해보겠습니다.
데이터
사용할 데이터는 경기지역경제포털의 경기도 일자리 청년통장선발정보입니다.
설명은 위와 같습니다.
경기도 일자리 청년통장선발정보 EDA 연속형 변수
연속형 변수의 기술통계부터 살펴보았습니다.
ERNM_AMOUNT에서 max값이 75%와 많이 차이나는 것으로 보아 아웃라이어일 확률이 높습니다.
다른 변수에서도 max값만 높은 것이 꽤 보입니다.
연속형변수와 종속변수인 SPORT_TRGET_AT만 따로 뽑아내 데이터셋을 만들었습니다.
변수마다 값들의 편차가 크기 때문에 큰 값을 가진 변수들만 뽑아 high에 할당했습니다.
해당 변수들만 로그 변환을 해주었습니다.
로그 변환을 해준 변수 이름 앞에 log_를 붙였습니다.
꽤 많은 연속형 변수가 있기 때문에 한꺼번에 시각화하는 것은 시간이 많이 걸려 6개씩 나눴습니다.
ERNM_AMOUNT와 REAL_INCOME_AMOUNT에서 Y와 N의 차이가 보입니다.
ERNM_AMOUNT와 REAL_INCOME_AMOUNT가 높다면 청년통장선발이 되지 않는 경우가 훨씬 많습니다.
게다가 ERNM_AMOUNT와 REAL_INCOME_AMOUNT, BSNS_INCOME_AMOUNT와 ETC_INCOME_AMOUNT는 거의 똑같은 분포를 보입니다.
상관관계를 보고 두 변수 중 하나는 삭제해도 될 것 같습니다.
BSIS_DDCAMOUNT는 값이 하나만 있어 예측에 도움이 될 것 같지 않습니다.
FSTLTN_INCOME_RESULT_VALUE가 높은 경우에 청년통장선발이 더 안됩니다.
RSDNTL_PRPRTY_AMOUNT가 더 높은 경우에 청년통장선발이 더 안됩니다.
INCOME_RCOGN_AMOUNT가 더 높을수록 청년통장선발이 안됩니다,
이제는 값이 낮은 변수들을 시각화해보겠습니다.
낮은 값을 가진 변수들만 데이터셋을 만들었습니다.
GG_RESIDE_PD_SCORE가 높을 수록 청년통장선발이 됩니다.
VHCLE_HOLD_STTUS_SCORE가 0일 때 청년통발선발이 안 된 사람은 없습니다.
FSTLTN_INCOME_RESULT_SCORE가 높을수록 청년통장선발이 됩니다.
EVL_SCORE_TOT_SCORE가 높을수록 청년통장선발이 됩니다,
WORK_LOCPLC_SCORE에서 청년통장선발이 되지 않은 사람은 없습니다.
결론
ERNM_AMOUNT(근로소득금액), REAL_INCOME_AMOUNT(실제소득금액), FSTLTN_INCOME_RESULT_VALUE(중위소득결과값), RSDNTL_PRPRTY_AMOUNT(주거용재산금액), INCOME_RCOGN_AMOUNT(소득인정금액), GG_RESIDE_PD_SCORE(경기도거주기간점수), FSTLTN_INCOME_RESULT_SCORE(중위소득결과점수), EVL_SCORE_TOT_SCORE(평가점수총점수)에서 청년통장선발 여부가 차이났습니다.
소득과 경기도거주기간이 경기도 청년통장선발 예측에 중요한 변수입니다.
다음 번에는 예측 모델링을 하기 전에 상관분석을 해보고 나중에 제외할 변수를 골라보겠습니다.
'Python' 카테고리의 다른 글
[이슈사항] 로또 크롤링 (0) | 2021.08.15 |
---|---|
[이슈사항] 경기도 일자리 청년통장선발정보 Python 분석 4 (0) | 2021.08.14 |
[EDA] 경기도 일자리 청년통장선발정보 Python 분석 3 (0) | 2021.08.13 |
[EDA] 경기도 일자리 청년통장선발정보 Python 분석 2 (0) | 2021.08.12 |
[EDA] 경기도 일자리 청년통장선발정보 Python 분석 1 (0) | 2021.08.11 |
댓글