전체 글348 [데이터 가공, 정규표현식] G마켓 농심 라면 데이터 가공하기 Python 안녕하세요. 인문계공돌이입니다. 저번에 G마켓 사이트에서 라면 데이터를 수집했는데 분석을 할 수 있는 데이터로 가공해보겠습니다. 데이터 가공 with 정규표현식 가공에 필요한 라이브러리부터 불러왔습니다. 데이터를 보고 다음과 같은 전처리를 해야겠다는 생각이 들었습니다. 브랜드 변수에서 제품 이름 추출하기 만족도 변수에서 숫자만 추출하기 만족도참여 괄호 안 숫자만 추출하고 쉼표 없애기 구매건수 숫자만 추출하고 쉼표 없애기 위 작업이 먼저 떠올랐습니다. 먼저 브랜드 변수에서 육개장, 신라면 등만 추출해서 새로운 변수 '종류'에 넣었습니다. 만약 브랜드가 농심 밖에 적혀 있지 않다면 농심 그대로 종류에 넣었습니다. 다음으로는 만족도에서 숫자만 뽑았습니다. 정규표현식을 사용하여 %앞에 있는 숫자만 뽑았습니다. .. 2021. 7. 23. [크롤링] G마켓 농심 라면 데이터 수집 Python 안녕하세요. 인문계공돌이입니다. 오늘은 G마켓 사이트에서 농심 라면 데이터를 수집하기 위해 크롤링을 해보겠습니다. 크롤링 허용 여부 홈페이지 링크 뒤에 /robots.txt를 붙여 확인한 결과 Allow 즉, 크롤링이 허용이 되었습니다. 크롤링 전체 카테고리에서 식품/생필품 > 가공식품으로 이동하였습니다. 라면을 선택했습니다. 검색 조건은 무료배송과 농심입니다. 다음 분석을 위해서 상품평 많은 순으로 정렬했습니다. 먼저 사용할 라이브러리를 불러 왔습니다. 수집해야 할 변수는 총 6개입니다. 브랜드, 제품명, 가격, 만족도, 만족도참여건수, 구매건수입니다. 각 변수 값을 추출하기 위해 빈리스트를 만들고 해당 태그를 넣었는데 span.text같이 겹치는 것이 보입니다. 이 경우에는 좀 더 태그 범위를 넓혀야.. 2021. 7. 22. [EDA, 시각화] G마켓 생수 데이터 Python 안녕하세요. 인문계공돌이입니다. 오늘은 G마켓 생수 데이터를 가지고 EDA를 진행하겠습니다. EDA EDA의 순서는 없습니다. 방법 또한 정해져 있는 것이 아니기 때문에 그때그때 생각나는 것을 해봤습니다. 예측을 하지 않고도 EDA만으로도 소중한 인사이트를 얻을 수 있습니다. 필요한 라이브러리를 불러왔습니다. 그래프에서 한글이 깨지지 않도록 했습니다. G마켓 생수 데이터를 불러왔습니다. 가격에 쉼표로 천 단위가 구별되어 있었기 때문에 thousands=',' 옵션을 미리 추가했습니다. 연속형 변수의 기술통계량입니다. 가격의 최댓값은 66500원이고 최솟값은 4560원입니다. 4L부터 살 수 있으며 100L까지 판매하고 있습니다. 데이터의 크기입니다. 가격, 용량, 단위, 리터 모두 count가 639이니.. 2021. 7. 21. [분산분석] G마켓 생수 가격 정보 SPSS 분석 안녕하세요. 인문계공돌이입니다. 오늘은 G마켓 생수 가격 정보 데이터를 가지고 일원배치 분산분석을 해보겠습니다. 데이터 데이터는 이전 포스팅에서 크롤링 후 가공했던 G마켓 생수 데이터입니다. 2021.07.19 - [Python] - [데이터 가공, 정규표현식] G마켓 생수 데이터 가공하기 Python 연구가설 생수 브랜드의 1리터당 가격은 차이가 있는지 알아보겠습니다. 귀무가설 : 생수 브랜드별 1리터당 가격은 차이가 없을 것이다. 대립가설 : 생수 브랜드별 1리터당 가격은 적어도 한 브랜드는 차이가 있을 것이다. 일원배치 분산분석 따로 EDA 포스팅을 진행할 것이기 때문에 있는 1리터당 가격 데이터만 만들어주고 추가적인 가공 없이 분산분석을 진행하겠습니다. 메뉴에서 변환 > 변수 계산을 클릭합니다. .. 2021. 7. 20. 이전 1 ··· 31 32 33 34 35 36 37 ··· 87 다음