전체 글348 [데이터 가공, 정규표현식] G마켓 생수 데이터 가공하기 Python 안녕하세요. 인문계공돌이입니다. 저번에 G마켓 사이트에서 생수 데이터를 수집했는데 분석을 할 수 있는 데이터로 가공해보겠습니다. 데이터 가공 with 정규표현식 저번에 크롤링한 데이터입니다. 이대로 통계 분석을 하게 된다면 제품 구성 별로 가격이 다르기 때문에 제대로된 분석이 되지 않습니다. 용량과 단위를 추출해서 규격을 통일 시키겠습니다. 제품명에 보면 2L, 6병 등이 섞여 있습니다. 제가 최종적으로 만들고 싶은 것은 2L * 6 = 12L 와 같은 데이터입니다. 일단 제주삼다수로 작업을 해보았습니다. 원하는 숫자 및 문자 추출을 위해 정규표현식을 사용하였습니다. \d는 숫자를 찾습니다. \d만 쓰게 되면 0.5L, 20병의 경우 [0, 5, 2, 0]이 됩니다. 제가 원하는 숫자는 0.5와 20이므.. 2021. 7. 19. [크롤링] G마켓 생수 데이터 수집 Python 안녕하세요. 인문계공돌이입니다. 오늘은 G마켓 사이트에서 생수 데이터를 수집하기 위해 크롤링을 해보겠습니다. 크롤링 허용 여부 홈페이지 링크 뒤에 /robots.txt를 붙여 확인한 결과 Allow 즉, 허용되었습니다. 크롤링 전체 카테고리에서 식품/생필품 > 커피/음료 > 생수/탄산수 > 생수로 이동하였습니다. 생수 브랜드는 제주삼다수, 스파클, 아이시스만 체크했고 무료배송 조건을 하나 더 달았습니다. 제품명이 있고 그 앞에 브랜드가 따로 표시되어 있습니다. 가격은 할인가 기준으로 했습니다. 필요한 라이브러리를 import 합니다. selenium으로 크롤링을 하면 크롬창이 뜨게 되는데 굳이 그럴 필요가 없으므로 뜨지 않게 설정했습니다. 나중에 DataFrame으로 만들어줄 리스트를 세 개 형성하였습니.. 2021. 7. 18. [로또] 처음 뽑은 6개의 번호를 제외한다면? 안녕하세요. 인문계공돌이입니다. 오늘은 로또를 이용하여 재밌는 실험을 해보려고 합니다. 궁금증 1000원으로 로또를 한 줄 사면 번호가 하나도 안 맞는 경우가 있습니다. 그러면 다음 생각으로 이어지게 됩니다. 어차피 내가 뽑는 번호는 당첨이 되지 않으니 이 번호를 제외하고 뽑으면 되지 않을까? 간단하지만 과연 실제로도 번호를 제외해도 되는지 한 번 확인해보겠습니다. 해결 실험은 간단합니다. 이번 1등 로또 당첨 번호가 위와 같은데 번호 6개를 랜덤으로 뽑아보고 겹치는 것이 얼마나 되는지 세보면 됩니다. 코드를 보면 번호 6개를 랜덤으로 중복 없이 뽑고 pick에 할당했습니다. 이 pick과 971회차의 로또 1등 번호와 겹치는 것이 하나도 없으면 success란 변수에 넣었습니다. 과연 내가 뽑은 번호가.. 2021. 7. 17. [크롤링] 하이마트 건조기 데이터 수집 Python 안녕하세요. 인문계공돌이입니다. 오늘은 하이마트 사이트에서 건조기 데이터를 수집하기 위해 크롤링을 해보겠습니다. 크롤링 코드 참조 크롤링을 위해서 참고한 코드는 https://youngseokim.tistory.com 웹 크롤링을 이용해 제품 가격 수집하기입니다. 크롤링 먼저 크롤링이 허용되는지 보았습니다. 홈페이지 링크 뒤에 /robots.txt를 붙여 확인해보았고 Allow라고 써져 있어서 진행했습니다. 웬만하면 Disallow는 크롤링하지 않습니다. 크롤링을 해야겠다는 생각은 SPSS로 각 기업의 건조기 가격 차이가 있는지 검정하고 싶었기 때문입니다. 공공데이터는 제공하는 곳이 없었기 때문에 크롤링을 하게 되었습니다. 전체카테고리에서 TV/냉장고/세탁기/건조기 > 의류건조기를 클릭했습니다. 제가 필.. 2021. 7. 16. 이전 1 ··· 32 33 34 35 36 37 38 ··· 87 다음