본문 바로가기

Python61

[EDA, 시각화] G마켓 생수 데이터 Python 안녕하세요. 인문계공돌이입니다. 오늘은 G마켓 생수 데이터를 가지고 EDA를 진행하겠습니다. EDA EDA의 순서는 없습니다. 방법 또한 정해져 있는 것이 아니기 때문에 그때그때 생각나는 것을 해봤습니다. 예측을 하지 않고도 EDA만으로도 소중한 인사이트를 얻을 수 있습니다. 필요한 라이브러리를 불러왔습니다. 그래프에서 한글이 깨지지 않도록 했습니다. G마켓 생수 데이터를 불러왔습니다. 가격에 쉼표로 천 단위가 구별되어 있었기 때문에 thousands=',' 옵션을 미리 추가했습니다. 연속형 변수의 기술통계량입니다. 가격의 최댓값은 66500원이고 최솟값은 4560원입니다. 4L부터 살 수 있으며 100L까지 판매하고 있습니다. 데이터의 크기입니다. 가격, 용량, 단위, 리터 모두 count가 639이니.. 2021. 7. 21.
[데이터 가공, 정규표현식] G마켓 생수 데이터 가공하기 Python 안녕하세요. 인문계공돌이입니다. 저번에 G마켓 사이트에서 생수 데이터를 수집했는데 분석을 할 수 있는 데이터로 가공해보겠습니다. 데이터 가공 with 정규표현식 저번에 크롤링한 데이터입니다. 이대로 통계 분석을 하게 된다면 제품 구성 별로 가격이 다르기 때문에 제대로된 분석이 되지 않습니다. 용량과 단위를 추출해서 규격을 통일 시키겠습니다. 제품명에 보면 2L, 6병 등이 섞여 있습니다. 제가 최종적으로 만들고 싶은 것은 2L * 6 = 12L 와 같은 데이터입니다. 일단 제주삼다수로 작업을 해보았습니다. 원하는 숫자 및 문자 추출을 위해 정규표현식을 사용하였습니다. \d는 숫자를 찾습니다. \d만 쓰게 되면 0.5L, 20병의 경우 [0, 5, 2, 0]이 됩니다. 제가 원하는 숫자는 0.5와 20이므.. 2021. 7. 19.
[크롤링] G마켓 생수 데이터 수집 Python 안녕하세요. 인문계공돌이입니다. 오늘은 G마켓 사이트에서 생수 데이터를 수집하기 위해 크롤링을 해보겠습니다. 크롤링 허용 여부 홈페이지 링크 뒤에 /robots.txt를 붙여 확인한 결과 Allow 즉, 허용되었습니다. 크롤링 전체 카테고리에서 식품/생필품 > 커피/음료 > 생수/탄산수 > 생수로 이동하였습니다. 생수 브랜드는 제주삼다수, 스파클, 아이시스만 체크했고 무료배송 조건을 하나 더 달았습니다. 제품명이 있고 그 앞에 브랜드가 따로 표시되어 있습니다. 가격은 할인가 기준으로 했습니다. 필요한 라이브러리를 import 합니다. selenium으로 크롤링을 하면 크롬창이 뜨게 되는데 굳이 그럴 필요가 없으므로 뜨지 않게 설정했습니다. 나중에 DataFrame으로 만들어줄 리스트를 세 개 형성하였습니.. 2021. 7. 18.
[로또] 처음 뽑은 6개의 번호를 제외한다면? 안녕하세요. 인문계공돌이입니다. 오늘은 로또를 이용하여 재밌는 실험을 해보려고 합니다. 궁금증 1000원으로 로또를 한 줄 사면 번호가 하나도 안 맞는 경우가 있습니다. 그러면 다음 생각으로 이어지게 됩니다. 어차피 내가 뽑는 번호는 당첨이 되지 않으니 이 번호를 제외하고 뽑으면 되지 않을까? 간단하지만 과연 실제로도 번호를 제외해도 되는지 한 번 확인해보겠습니다. 해결 실험은 간단합니다. 이번 1등 로또 당첨 번호가 위와 같은데 번호 6개를 랜덤으로 뽑아보고 겹치는 것이 얼마나 되는지 세보면 됩니다. 코드를 보면 번호 6개를 랜덤으로 중복 없이 뽑고 pick에 할당했습니다. 이 pick과 971회차의 로또 1등 번호와 겹치는 것이 하나도 없으면 success란 변수에 넣었습니다. 과연 내가 뽑은 번호가.. 2021. 7. 17.