본문 바로가기
Python

[빈도분석] 네이버 뉴스 기사 주요 단어 빈도 python 분석

by 지식광부키우기 2021. 8. 2.

안녕하세요. 인문계공돌이입니다.

 

오늘은 저번에 수집한 네이버 뉴스 기사를 가지고 주요 단어 및 언론사 빈도 분석을 해보겠습니다.

 

 

 

빈도분석

 

 

필요한 라이브러리부터 불러옵니다.

 

 

검색 키워드가 코로나 확진자인 뉴스 기사 제목과 언론사를 크롤링 했었습니다.

 

index가 열에 포함되어 있어서 삭제했습니다.

 

 

똑같은 언론사인데도 어떤 언론사는 뒤에 '언론사'가 붙었습니다.

 

예를 들면 한국경제, 한국경제언론사 이렇게 되어있었습니다.

 

이를 통합해주기 위해 일단 '언론사'가 붙지 않은 것들만 다로 빼서 리스트화 해주었습니다.

 

 

press_list에 들어있는 언론사 명이 포함되어 있으면 새 변수 com_press에 넣었습니다.

 

 

언론사별로 기사가 몇 개가 수집되었는지 봤습니다.

 

코로나 확진자 키워드로 네이버 뉴스에 검색한 결과 뉴스1 기사가 가장 많았습니다. 

 

 

언론사가 너무 많으므로 Top 10을 뽑아서 진행했습니다.

 

 

언론사별 뉴스 기사 수를 그래프로 그려봤습니다.

 

 

이제 많이 나온 단어를 뽑아보겠습니다.

 

뉴스 기사들의 목록을 봤습니다.

 

 

단어를 나눈 기준은 단순히 띄어쓰기로 했습니다.

 

자연어처리로 들어가면 띄어쓰기가 아니라 명사, 동사 등으로 할 수 있습니다.

 

이 것은 나중에 해보도록 하겠습니다.

 

 

많이 나온 단어 10개를 뽑아봤습니다.

 

검색어 키워드가 코로나 확진자다 보니 관련 단어들이 모두 나왔습니다. 

 

'속보' 역시 많습니다.

 

 

빈도수가 Top 10인 것은 top_10_list에 저장했고

 

나머지는 other_list에 넣었습니다.

 

 

top_10_list 기타에 other_list를 추가했습니다.

 

 

전체 단어 수에서 주요 단어가 차지하는 비율은 22.3%입니다.

 

 

다시 기타를 제외했습니다.

 

 

기사 제목에 주요 단어가 들어있는지 확인해보겠습니다.

 

먼저 각 행마다 주요 단어가 여부를 알기 위한 열을 새로 만들었습니다.

 

 

제일 많이 나온 10개의 언론사의 주요 단어 빈도를 구해보겠습니다.

 

 

전체 언론사의 주요 단어 빈도입니다.

 

 

기사가 많은 Top 10 언론사 별로 주요 단어가 등장한 빈도입니다.

 

KBS의 경우 확진이란 단어가 기사 제목에 가장 많이 등장했고

 

국제뉴스는 코로나가 기사 제목에 가장 많이 등장했습니다.

 

속보를 가장 많이 내보낸 언론사도 국제뉴스로 나타났습니다.

댓글