본문 바로가기

Python61

[EDA] 경기도 일자리 청년통장선발정보 Python 분석 5 안녕하세요. 인문계공돌이입니다. 경기도 일자리 청년통장 선발정보 데이터를 가지고 여러 가지 분석을 해보려고 하는데 오늘은 연속형 변수 분석을 해보겠습니다. 데이터 사용할 데이터는 경기지역경제포털의 경기도 일자리 청년통장선발정보입니다. 설명은 위와 같습니다. 경기도 일자리 청년통장선발정보 EDA 연속형 변수 연속형 변수의 기술통계부터 살펴보았습니다. ERNM_AMOUNT에서 max값이 75%와 많이 차이나는 것으로 보아 아웃라이어일 확률이 높습니다. 다른 변수에서도 max값만 높은 것이 꽤 보입니다. 연속형변수와 종속변수인 SPORT_TRGET_AT만 따로 뽑아내 데이터셋을 만들었습니다. 변수마다 값들의 편차가 크기 때문에 큰 값을 가진 변수들만 뽑아 high에 할당했습니다. 해당 변수들만 로그 변환을 해.. 2021. 8. 16.
[이슈사항] 로또 크롤링 안녕하세요. 인문계공돌이입니다. 이전글에서 로또 1등 번호를 크롤링하는 포스팅을 했었습니다. 2021.07.25 - [Python] - [로또] 이번 회차 로또 1등 번호에 직전 회차 1등 번호가 나올 확률은? [로또] 이번 회차 로또 1등 번호에 직전 회차 1등 번호가 나올 확률은? 안녕하세요. 인문계공돌이입니다. 오늘도 로또 이야기를 들고 왔습니다. 궁금한 것은 이번 회차 로또 1등 번호에 직전 회차 1등 번호가 몇 개나 겹치는지 입니다. 참고로 로또 관련 한 것은 재미 bizzengine.tistory.com 이번에 새로 크롤링을 하려니 에러가 났습니다. data = soup.select('#article > div:nth-child(2) > div > div.win_result > div > di.. 2021. 8. 15.
[이슈사항] 경기도 일자리 청년통장선발정보 Python 분석 4 안녕하세요. 인문계공돌이입니다. 경기도 일자리 청년통장 선발정보 데이터를 가지고 여러 가지 분석을 하고 있는데 연속형 변수를 분석하다가 생긴 이슈사항을 공유하려고 합니다. 이슈사항 이슈가 생긴 부분을 다른 데이터로 설명 드리겠습니다. 사용할 데이터는 펭귄데이터입니다. Seaborn에서는 여러 가지 Distribution plots을 제공합니다. 예를 들어 displot을 써봤습니다. 문제는 이제 그래프를 여러개 그리려 할 때 발생했습니다. 분포 그래프를 변수마다 그리려고 subplot을 사용했는데 자꾸 subplot 안에 그래프가 그려지지 않고 따로 그려졌습니다. 이유를 찾아봤더니 displot만 FacetGrid를 생성하고 figure와 axes를 포함하기 때문에 matplot의 subplot으로 생성.. 2021. 8. 14.
[EDA] 경기도 일자리 청년통장선발정보 Python 분석 3 안녕하세요. 인문계공돌이입니다. 경기도 일자리 청년통장 선발정보 데이터를 가지고 여러 가지 분석을 해보려고 하는데 오늘은 범주형 변수 분석을 해보겠습니다. 데이터 사용할 데이터는 경기지역경제포털의 경기도 일자리 청년통장선발정보입니다. 설명은 위와 같습니다. 경기도 일자리 청년통장선발정보 EDA 범주형 변수 변수들의 데이터 타입이 object인 것만 보겠습니다. 범주형 변수는 총 9개입니다. 하나씩 자세히 살펴보면 위와 같습니다. 저번에 언급한대로 경기에 직장을 두고 있으면 Y, 아니면 N 값을 가진 변수를 생성했습니다. 원래 있던 변수였지만 결측치가 많아서 삭제했고 제가 따로 만들었습니다. 주소 변수는 삭제했습니다. 가구특성해당여부가 아닐 경우 선발이 더 됩니다. 여자일 경우 선발이 더 됩니다. 경기도 .. 2021. 8. 13.