안녕하세요. 인문계공돌이입니다.
경기도 일자리 청년통장 선발정보 데이터를 가지고 여러 가지 분석을 해보려고 하는데 오늘은 결측치 처리부터 해보겠습니다.
데이터
사용할 데이터는 경기지역경제포털의 경기도 일자리 청년통장선발정보입니다.
설명은 위와 같습니다.
경기도 일자리 청년통장선발정보 EDA 결측치 처리
경기도 일자리 청년통장선발정보 데이터를 확인했습니다.
약 9만 5천개의 데이터가 있습니다.
결측값이 있는지 확인하는데 절반 정도 아예 데이터가 없는 변수도 있습니다.
결측값이 있는 변수만 확인해보겠습니다.
총 개수가 9만 5천개 쯤 되는데 4만개 이상의 결측값이 존재한다면 그 변수는 없애주겠습니다.
결측치 수가 애매한 변수들만 살펴보겠습니다.
PROPER_STTUS_NM는 적격상태명입니다.
최종적으로 예측해야할 변수이므로 삭제해서는 절대 안됩니다.
EMD_CHARGER_CNFIRM_DT는 읍면동담당자확인일시입니다.
없어도 무방합니다.
SVINGS_PURPS_NM은 저축목적명입니다.
쓸모가 있을 것 같으니 남겨두겠습니다.
MRRG_STTUS_NM는 결혼상태명인데 데이터가 잘 못 들어간 듯합니다.
삭제하겠습니다.
마지막 LABOR_STLE_NM은 근로형태명입니다.
MRRG_STTUS_NM에 이 데이터가 잘 못 들어갔네요.
남겨두겠습니다.
결측값을 기준으로만 변수를 골라냈습니다.
null 값이 있는 row까지 제거했습니다.
결측치가 보이지 않습니다.
사용하게 될 데이터의 개수는 약 8만 개입니다.
결측치 제거는 끝났습니다.
다음번에는 분석에 필요없는 변수를 제거해보는 것부터 해보겠습니다.
'Python' 카테고리의 다른 글
[EDA] 경기도 일자리 청년통장선발정보 Python 분석 3 (0) | 2021.08.13 |
---|---|
[EDA] 경기도 일자리 청년통장선발정보 Python 분석 2 (0) | 2021.08.12 |
[시각화] 소상공인시장진흥공단 상가(상권)정보 Python 분석 3 (1) | 2021.08.10 |
[시각화] 소상공인시장진흥공단 상가(상권)정보 Python 분석 2 (0) | 2021.08.09 |
[빈도분석] 소상공인시장진흥공단 상가(상권)정보 서울 Python 분석 (0) | 2021.08.08 |
댓글