본문 바로가기
Python

[EDA] 경기도 일자리 청년통장선발정보 Python 분석 2

by 지식광부키우기 2021. 8. 12.

안녕하세요. 인문계공돌이입니다.

 

경기도 일자리 청년통장 선발정보 데이터를 가지고 여러 가지 분석을 해보려고 하는데 오늘은 사용하지 않을 변수를 구별해보겠습니다. 

 

 

 

데이터 

 

사용할 데이터는 경기지역경제포털의 경기도 일자리 청년통장선발정보입니다.

 

 

설명은 위와 같습니다.

 

 

 

경기도 일자리 청년통장선발정보 EDA 변수 제외

 

 

결측치 제거를 해서 총 50개의 변수와 79232의 값들이 있습니다.

 

이제 분석에 필요한 변수만 뽑아보겠습니다.

 

 

선발정보번호입니다. 숫자에 의미가 있는 것이 아니므로 제외해야 합니다.

 

 

ERNM_AMOUNT, BSNS_INCOME_AMOUNT, PRPRTY_INCOME_AMOUNT, ETC_INCOME_AMOUNT, REAL_INCOME_AMOUNT, MXMM_INCOME_RCOGN_AMOUNT

 

모두 소득 금액과 관련된 변수입니다. 일자리 청년통장 선발에 중요한 변수가 될 수도 있으므로 삭제해서는 안됩니다.

 

 

HSHLD_CHARTR_CRRSPND_AT는 가구특성해당여부입니다. 

 

Yes와 No로만 이루어져 있고 포함시키겠습니다.

 

 

FSTLTN_INCOME_RESULT_VALUE는 중위소득 결과값입니다.

 

포함시키겠습니다.

 

 

HSHLD_CHARTR_SCORE, GG_RESIDE_PD_SCORE, NOW_WRC_LABOR_PD_SCORE, RESIDE_STTUS_SCORE, VHCLE_HOLD_STTUS_SCORE, FSTLTN_INCOME_RESULT_SCORE, ADDI_STDR_SUFFCN_SCORE, EVL_SCORE_TOT_SCORE

 

모두 00점수로 되어있는 변수들입니다. 

 

포함시키겠습니다.

 

 

BSIS_DDCAMOUNT, DEBT_AMOUNT, RSDNTL_PRPRTY_AMOUNT, RSDNTL_INCOME_CNVRSN_AM, GNRL_PRPRTY_AMOUNT, GNRL_PRPRTY_INCOME_CNVRSN_AM, CAR_PRPRTY_AMOUNT, CAR_PRPRTY_INCOME_CNVRSN_AM, PRPRTY_INCOME_CNVRSN_AMOUNT, INCOME_RCOGN_AMOUNT

 

모두 00액으로 되어있는 변수들입니다.

 

포함시키겠습니다.

 

 

EMD_CHARGER_CNFIRM_NM은 읍면동담당자확인명입니다. 분석에 별로 필요할 것 같지 않습니다.

 

 

UNITY_EXAMIN_CHARGER_CNFIRM_NM 역시 통합조사담당자확인명입니다. 제외하겠습니다.

 

 

SPORT_TRGET_AT은 지원대상여부입니다. 적격, 부적격이랑 다른 것인지 한 번 확인해봐야 겠습니다.

 

 

CTPRVN_CHARGER_CNFIRM_NM는 시도담당자확인명입니다. 삭제하겠습니다.

 

 

REGIST_DT, UPDT_DT, DELETE_AT 등록일시, 수정일시, 삭제여부입니다.

 

이런 것이 선발에 영향을 미친다면 말이 안되겠지요. 삭제하겠습니다. 

 

 

WORK_LOCPLC_SCORE 근무소재지 점수입니다. 포함시키겠습니다.

 

 

연령, 성별입니다. 당연히 포함시켜야 겠습니다.

 

 

ZIP, LNM_ADRES, WRKPLC_ZIP 우편번호와 지번주소입니다. 제외하겠습니다. 

 

 

HSHLDM_CO은 가구원 수입니다. 포함시키겠습니다.

 

 

GG_RESIDE_PD_NM는 경기도 거주기간 명입니다. 포함시키겠습니다.

 

 

WRKPLC_RDNMADR, WRKPLC_RN_DETAIL_ADRES, WRKPLC_NM는 근무처주소와 이름에 관련된 변수입니다. 

 

삭제하겠습니다. 

 

WRKPLC_GG_AREA_AT 근무처경기도지역여부가 있었는데 결측치가 많아서 제거한 변수입니다.

 

WRKPLC_LNM_ADRES 근무처지번주소 변수에서 서울, 경기 등을 추출해서 새로 만들겠습니다.

 

 

실제로 WRKPLC_GG_AREA_AT는 Yes, No로만 되어있었습니다.

 

 

LABOR_PD_NM, PRTITN_STDDE, PROPER_STTUS_NM, SVINGS_PURPS_NM

 

각각 근로기간명, 파티션기준일, 적격상태명, 저축목적명입니다.

 

파티션기준일만 제외하겠습니다.

 

 

마지막으로 근로형태 명입니다. 포함시키겠습니다.

 

 

총 14개의 변수가 제거되었습니다.

 

다음번 포스팅부터 시각화 등을 통해 분석해보겠습니다. 

댓글