본문 바로가기
Python

[데이터 가공, 정규표현식] G마켓 농심 라면 데이터 가공하기 Python

by 지식광부키우기 2021. 7. 23.

안녕하세요. 인문계공돌이입니다.

 

저번에 G마켓 사이트에서 라면 데이터를 수집했는데 분석을 할 수 있는 데이터로 가공해보겠습니다.

 

 

 

데이터 가공 with 정규표현식

 

 

가공에 필요한 라이브러리부터 불러왔습니다.

 

 

데이터를 보고 다음과 같은 전처리를 해야겠다는 생각이 들었습니다.

 

브랜드 변수에서 제품 이름 추출하기

 

만족도 변수에서 숫자만 추출하기

 

만족도참여 괄호 안 숫자만 추출하고 쉼표 없애기

 

구매건수 숫자만 추출하고 쉼표 없애기

 

위 작업이 먼저 떠올랐습니다.

 

 

먼저 브랜드 변수에서 육개장, 신라면 등만 추출해서 새로운 변수 '종류'에 넣었습니다.

 

만약 브랜드가 농심 밖에 적혀 있지 않다면 농심 그대로 종류에 넣었습니다.

 

 

다음으로는 만족도에서 숫자만 뽑았습니다.

 

정규표현식을 사용하여 %앞에 있는 숫자만 뽑았습니다.

 

 

만족도참여 변수에서 괄호 안에 있는 숫자만 추출했습니다.

 

 

쉼표를 없애주기 위해 replace를 사용하였습니다.

 

그 후 숫자형으로 데이터 타입을 변경하였습니다.

 

 

만족도참여가 어떤 것을 의미하는 지 명확하지 않은 것 같아

 

만족도참여건수로 변수명을 변경하였습니다.

 

 

구매건수 변수에서는 숫자 추출 -> 쉼표 제거 -> 정수형 변환 순으로 진행하였습니다.

 

 

종류 변수 값 중 '농심'을 최대한 대체하기 위한 작업을 하고자 했습니다.

 

먼저 변수 종류에 어떤 값들이 존재하는 지 봤습니다.

 

 

제품명에 김치사발면이 포함되어 있는데 브랜드는 농심만 적혀져 있는 것들이 있었습니다.

 

따라서 제품명에 위의 라면 종류가 포함되어 있다면 그 값은 해당하는 라면 종류로 변경하였습니다.

 

또한 신라면+안성탕면처럼 혼합되어 판매되는 것이 있었는데 특징이 +로 이어져 있었습니다.

 

따라서 +가 포함되어 있으면 혼합판매로 바꿔주었습니다.

 

 

하지만 아직도 종류를 보면 농심이 많이 남아있었습니다. 

 

김치 사발면같이 띄어쓰기나 다르게 적힌 것들은 위의 작업에서 바꾸지 못했습니다.

 

 

사리곰탕의 경우에는 사리곰탕이 띄어쓰기로 되어있지 않기 때문에 이 글자를 포함하면 사리곰탕면으로 넣었습니다.

 

 

농심 중 사리면은 비중이 높아 따로 또 넣었고

 

이제 남은 농심의 개수는 82개입니다.

 

 

나머지는 비주류라 생각해 그 행은 제외하고 데이터프레임을 만들었습니다.

 

 

csv 파일까지 만들면 완성입니다.

 

다음 번에는 이 데이터를 가지고 EDA나 통계 분석을 해보겠습니다.

댓글