[크롤링] G마켓 농심 라면 데이터 수집 Python

안녕하세요. 인문계공돌이입니다.

오늘은 G마켓 사이트에서 농심 라면 데이터를 수집하기 위해 크롤링을 해보겠습니다.

홈페이지 링크 뒤에 /robots.txt를 붙여 확인한 결과

Allow 즉, 크롤링이 허용이 되었습니다.

전체 카테고리에서 식품/생필품 > 가공식품으로 이동하였습니다.

라면을 선택했습니다.

검색 조건은 무료배송과 농심입니다.

다음 분석을 위해서 상품평 많은 순으로 정렬했습니다.

먼저 사용할 라이브러리를 불러 왔습니다.

수집해야 할 변수는 총 6개입니다.

브랜드, 제품명, 가격, 만족도, 만족도참여건수, 구매건수입니다.

각 변수 값을 추출하기 위해 빈리스트를 만들고 해당 태그를 넣었는데

span.text같이 겹치는 것이 보입니다.

이 경우에는 좀 더 태그 범위를 넓혀야 합니다.

만족도, 만족도참여건수, 구매건수 모두 태그 범위를 넓혀줬습니다.

브랜드 역시 그랬는데 그 이유는

맨 아래 G9 트랜드 라이프쇼핑이라고 해서 브랜드만 태그가 겹쳤기 때문입니다.

따라서 리스트 길이를 확인해보면 브랜드만 +1이 되어있었기 때문에 box__brand 안에 있는 것만 넣을 수 있도록 했습니다.

정상적으로 1000개씩 추출을 했습니다.

추출한 값들을 DataFrame 형식으로 만들어준 후 csv 파일로 저장했습니다.

다음 번에는 데이터 가공을 해보도록 하겠습니다.

[키움증권 API] 주식 매매를 위한 환경 구축 Python (0)	2021.07.24
[데이터 가공, 정규표현식] G마켓 농심 라면 데이터 가공하기 Python (0)	2021.07.23
[EDA, 시각화] G마켓 생수 데이터 Python (0)	2021.07.21
[데이터 가공, 정규표현식] G마켓 생수 데이터 가공하기 Python (0)	2021.07.19
[크롤링] G마켓 생수 데이터 수집 Python (0)	2021.07.18