본문 바로가기

Python61

[데이터 통합] 인천광역시 소득 데이터 20200630 Python 분석 안녕하세요. 인문계공돌이입니다. 오늘은 인천광역시 소득 데이터를 한 파일로 합치는 작업을 해보겠습니다. 데이터 데이터는 공공데이터포털에서 제공하는 인천광역시 소득 데이터입니다 라이센스 및 데이터 설명은 위와 같습니다. 데이터 통합 인천광역시 소득 데이터를 다운받아 보면 압축 파일 안에 시간대별로 다른 파일들이 여러 개 있습니다. 압축을 푼 후 데이터를 몇 개만 살펴보겠습니다. Jupyter notebook의 경로는 현재 있는 파일로 설정했습니다. 16년 12월 데이터의 변수들을 확인해봤습니다. 각 파일마다 변수가 동일하면 concat을 이용해서 쉽게 데이터 통합을 할 수 있습니다. 20년 6월까지 모두 변수들이 같습니다. concat을 통해 아주 쉽게 데이터 통합을 할 수 있습니다. 먼저 빈 데이터프레임.. 2021. 8. 4.
[빈도분석] 네이버 뉴스 기사 주요 단어 빈도 python 분석 안녕하세요. 인문계공돌이입니다. 오늘은 저번에 수집한 네이버 뉴스 기사를 가지고 주요 단어 및 언론사 빈도 분석을 해보겠습니다. 빈도분석 필요한 라이브러리부터 불러옵니다. 검색 키워드가 코로나 확진자인 뉴스 기사 제목과 언론사를 크롤링 했었습니다. index가 열에 포함되어 있어서 삭제했습니다. 똑같은 언론사인데도 어떤 언론사는 뒤에 '언론사'가 붙었습니다. 예를 들면 한국경제, 한국경제언론사 이렇게 되어있었습니다. 이를 통합해주기 위해 일단 '언론사'가 붙지 않은 것들만 다로 빼서 리스트화 해주었습니다. press_list에 들어있는 언론사 명이 포함되어 있으면 새 변수 com_press에 넣었습니다. 언론사별로 기사가 몇 개가 수집되었는지 봤습니다. 코로나 확진자 키워드로 네이버 뉴스에 검색한 결과 .. 2021. 8. 2.
[크롤링] 네이버 뉴스 기사 제목 및 언론사 크롤링 python 분석 안녕하세요. 인문계공돌이입니다. 오늘은 네이버 뉴스에서 기사 제목과 언로사를 수집하기 위해 크롤링을 해보겠습니다. 크롤링 필요한 라이브러리부터 불러왔습니다. 오늘 날짜를 date에 할당하였습니다. 검색 키워드와 몇 페이지까지 수집할 지 input을 통해 자유롭게 입력하도록 했습니다. 제가 오늘 검색한 키워드는 코로나 확진자입니다. query={}에서 {} 부분에 코로나 확진자가 들어가게 됩니다. 기사제목은 text로 따로 나와 있는 것이 아니라 태그 안에 들어 속해있습니다. 언론사 명은 위와 같이 태크 바깥의 text로 존재합니다. 따라서 기사 제목은 get으로 속성에 바로 접근 했고 언론사 명은 텍스트를 추출하는 식으로 했습니다. 페이지가 1, 2, 3이 아닌 21, 31 식으로 갑니다. 에러가 나면 .. 2021. 8. 1.
[로또] 로또 1등 당첨은 진짜 어려울까? 안녕하세요. 인문계공돌이입니다. 로또 1등이 될 확률은 814만 5060대 1입니다. 엄청나게 어려운 확률입니다. 많은 사람들이 가게에서든, 인터넷에서든 자동으로 많이 번호를 받고 사는데 자동 번호로 얼마나 1등 당첨 되기가 힘든지 한 번 실험해보겠습니다. 자동 번호로 로또 1등 당첨 실험 실험할 회차는 아무 회차나 상관 없으므로 970회를 골랐습니다. 필요한 라이브러리를 불러오고 random.sample(range(1, 46), 6)으로 6개를 뽑겠습니다. 970회 번호는 9, 11, 16, 21, 28, 36입니다. 무려 당첨된 사람이 14명이나 나왔습니다. 자동으로 뽑은 번호가 이 번호랑 일치할 확률이 높다고 현혹될까요? 설계는 위와 같습니다. 천 만번을 반복 하면서 자동 번호를 뽑을 것이고 이 번.. 2021. 7. 26.