본문 바로가기
Python

[크롤링] G마켓 농심 라면 데이터 수집 Python

by 지식광부키우기 2021. 7. 22.

안녕하세요. 인문계공돌이입니다.

 

오늘은 G마켓 사이트에서 농심 라면 데이터를 수집하기 위해 크롤링을 해보겠습니다. 

 

 

 

크롤링 허용 여부

 

 

홈페이지 링크 뒤에 /robots.txt를 붙여 확인한 결과

 

Allow 즉, 크롤링이 허용이 되었습니다.

 

 

 

크롤링

 

 

전체 카테고리에서 식품/생필품 > 가공식품으로 이동하였습니다.

 

 

라면을 선택했습니다.

 

 

검색 조건은 무료배송과 농심입니다.

 

 

다음 분석을 위해서 상품평 많은 순으로 정렬했습니다.

 

 

먼저 사용할 라이브러리를 불러 왔습니다.

 

 

수집해야 할 변수는 총 6개입니다.

 

브랜드, 제품명, 가격, 만족도, 만족도참여건수, 구매건수입니다.

 

 

각 변수 값을 추출하기 위해 빈리스트를 만들고 해당 태그를 넣었는데

 

span.text같이 겹치는 것이 보입니다.

 

이 경우에는 좀 더 태그 범위를 넓혀야 합니다.

 

 

만족도, 만족도참여건수, 구매건수 모두 태그 범위를 넓혀줬습니다.

 

브랜드 역시 그랬는데 그 이유는

 

 

맨 아래 G9 트랜드 라이프쇼핑이라고 해서 브랜드만 태그가 겹쳤기 때문입니다.

 

따라서 리스트 길이를 확인해보면 브랜드만 +1이 되어있었기 때문에 box__brand 안에 있는 것만 넣을 수 있도록 했습니다.

 

 

정상적으로 1000개씩 추출을 했습니다.

 

 

추출한 값들을 DataFrame 형식으로 만들어준 후 csv 파일로 저장했습니다.

 

다음 번에는 데이터 가공을 해보도록 하겠습니다.

댓글