안녕하세요. 인문계공돌이입니다.
오늘은 G마켓 사이트에서 농심 라면 데이터를 수집하기 위해 크롤링을 해보겠습니다.
크롤링 허용 여부
홈페이지 링크 뒤에 /robots.txt를 붙여 확인한 결과
Allow 즉, 크롤링이 허용이 되었습니다.
크롤링
전체 카테고리에서 식품/생필품 > 가공식품으로 이동하였습니다.
라면을 선택했습니다.
검색 조건은 무료배송과 농심입니다.
다음 분석을 위해서 상품평 많은 순으로 정렬했습니다.
먼저 사용할 라이브러리를 불러 왔습니다.
수집해야 할 변수는 총 6개입니다.
브랜드, 제품명, 가격, 만족도, 만족도참여건수, 구매건수입니다.
각 변수 값을 추출하기 위해 빈리스트를 만들고 해당 태그를 넣었는데
span.text같이 겹치는 것이 보입니다.
이 경우에는 좀 더 태그 범위를 넓혀야 합니다.
만족도, 만족도참여건수, 구매건수 모두 태그 범위를 넓혀줬습니다.
브랜드 역시 그랬는데 그 이유는
맨 아래 G9 트랜드 라이프쇼핑이라고 해서 브랜드만 태그가 겹쳤기 때문입니다.
따라서 리스트 길이를 확인해보면 브랜드만 +1이 되어있었기 때문에 box__brand 안에 있는 것만 넣을 수 있도록 했습니다.
정상적으로 1000개씩 추출을 했습니다.
추출한 값들을 DataFrame 형식으로 만들어준 후 csv 파일로 저장했습니다.
다음 번에는 데이터 가공을 해보도록 하겠습니다.
'Python' 카테고리의 다른 글
[키움증권 API] 주식 매매를 위한 환경 구축 Python (0) | 2021.07.24 |
---|---|
[데이터 가공, 정규표현식] G마켓 농심 라면 데이터 가공하기 Python (0) | 2021.07.23 |
[EDA, 시각화] G마켓 생수 데이터 Python (0) | 2021.07.21 |
[데이터 가공, 정규표현식] G마켓 생수 데이터 가공하기 Python (0) | 2021.07.19 |
[크롤링] G마켓 생수 데이터 수집 Python (0) | 2021.07.18 |
댓글