안녕하세요. 인문계공돌이입니다.
오늘은 네이버 뉴스에서 기사 제목과 언로사를 수집하기 위해 크롤링을 해보겠습니다.
크롤링
필요한 라이브러리부터 불러왔습니다.
오늘 날짜를 date에 할당하였습니다.
검색 키워드와 몇 페이지까지 수집할 지 input을 통해 자유롭게 입력하도록 했습니다.
제가 오늘 검색한 키워드는 코로나 확진자입니다.
query={}에서 {} 부분에 코로나 확진자가 들어가게 됩니다.
기사제목은 text로 따로 나와 있는 것이 아니라 태그 안에 들어 속해있습니다.
언론사 명은 위와 같이 태크 바깥의 text로 존재합니다.
따라서 기사 제목은 get으로 속성에 바로 접근 했고
언론사 명은 텍스트를 추출하는 식으로 했습니다.
페이지가 1, 2, 3이 아닌 21, 31 식으로 갑니다.
에러가 나면 반복문이 멈추도록 했습니다.
끝나면 수집한 데이터를 데이터프레임으로 만들었습니다.
csv로 저장할 때는 현재 경로에 날짜와 검색 키워드를 제목으로 넣어주었습니다.
파일을 확인해보니 저장이 잘 되었습니다.
'Python' 카테고리의 다른 글
[데이터 통합] 인천광역시 소득 데이터 20200630 Python 분석 (0) | 2021.08.04 |
---|---|
[빈도분석] 네이버 뉴스 기사 주요 단어 빈도 python 분석 (0) | 2021.08.02 |
[로또] 로또 1등 당첨은 진짜 어려울까? (0) | 2021.07.26 |
[로또] 이번 회차 로또 1등 번호에 직전 회차 1등 번호가 나올 확률은? (0) | 2021.07.25 |
[키움증권 API] 주식 매매를 위한 환경 구축 Python (0) | 2021.07.24 |
댓글