안녕하세요. 인문계공돌이입니다.
오늘은 서울시 생필품 농수축산물 가격 정보 데이터를 가지고 독립표본 T 검정을 해보겠습니다.
데이터
데이터는 서울 열린데이터 광장에서 제공하는 서울시 생필품 농수축산물 가격 정보입니다.
라이센스 및 다른 정보들은 위와 같습니다.
연구가설
서울시 생필품 농수축산물 가격 정보 데이터 중 2021년 상반기 달걀(10개)와 달걀(30개) 품목에 대해서 대형마트와 전통시장의 가격 차이가 있는지 알아보겠습니다.
귀무가설 : 2021년 상반기 달걀(10개)는 시장유형에 따라 가격 차이가 없을 것이다.
대립가설 : 2021년 상반기 달걀(10개)는 시장유형에 따라 가격 차이가 있을 것이다.
그리고
귀무가설 : 2021년 상반기 달걀(30개)는 시장유형에 따라 가격 차이가 없을 것이다.
대립가설 : 2021년 상반기 달걀(30개)는 시장유형에 따라 가격 차이가 있을 것이다.
시장유형은 대형마트와 전통시장으로 구별되어 있습니다.
원하는 연구 데이터 추출
원본 데이터에서 년도-월이 2021년 상반기에 해당하는 것과
품목 이름이 달걀(10개), 달걀(30개)인 것만 추출하기 위해 Python을 이용하였습니다.
위와 같이 간단하게 2021년 상반기 달걀(10개), 달걀(30개) 파일을 만들었습니다.
2021년 상반기 달걀(10개) 파일 예시입니다.
독립표본 T 검정을 하기 전에 데이터 클리닝 작업을 해주겠습니다.
가격원에 이상치를 제거하겠습니다.
이상치 탐색
메뉴에서 분석 > 기술통계량 > 데이터 탐색을 클릭합니다.
이상치를 확인할 종속변수는 가격원입니다.
가격원을 넣은 후 확인을 클릭합니다.
동그란 점이 이상치고 별표는 극단적인 이상치입니다.
위에 쓰여있는 숫자는 해당 값이 아니라 변수 번호입니다.
344번의 값을 한 번 보겠습니다.
344번은 이마트 용산점에서 파는 달걀(10개)에 가격은 8980원입니다.
이상치가 발견되었다고 함부로 지울 수 있는 것은 아닙니다.
일단 10개가 아닌 15구가 들어있고 이마트 용산점의 위치 그리고 동물복지 항생제까지 썼다면 저 가격은 합리적인 가격이 될 수 있기 때문입니다.
낮은 값들도 한 번 봐야 겠습니다.
0원 가까이에 포진되어 있는 2190, 2083, 2366을 보겠습니다.
2083은 1632934 114 현대시장 171 달걀(10개) 10개 200 2021-01 국산 2021-01-28 1 전통시장 545000 금천구 8
2190은 1634496 13 돈암제일시장 171 달걀(10개) 10개 0 2021-01 입고안됨 2021-01-28 1 전통시장 290000 성북구 17
2366은 1631487 63 농협 하나로마트 용산점 171 달걀(10개) 10개 370 2021-01 농협신선대란 2021-01-28 2 대형마트 170000 용산구 21
200원, 0원, 370원인데 0원은 입고가 되지 않았습니다.
확실하게 지워줄 수 있습니다.
나머지는 별 이상이 없는데 가격이 너무 비정상적입니다.
오타이거나 다른 문제가 있을 것이라 추측됩니다.
역시 삭제하겠습니다.
원인을 알기 위해서는 직접 문의를 해봐야 할 것 같습니다.
모두 삭제를 해주었고 이제 이 데이터를 가지고 독립표본 T 검정을 진행해보겠습니다.
독립표본 T 검정 - 달걀 10개
독립변수는 시장유형구분 시장마트코드 종속변수는 가격원입니다.
메뉴에서 분석 > 평균비교 > 독립표본 T 검정으로 들어가겠습니다.
검정변수 칸에는 종속변수인 가격원을 집단변수 칸에는 독립변수인 시장유형구분시장마트코드를 넣어줍니다.
확인 버튼을 누릅니다.
보고서를 보면 집단통계량 표와 독립표본 검정 표 2개가 나타납니다.
집단통계량 표에서는 두 집단 표본 수, 평균, 표준편차, 평균의 표준오차를 보여줍니다.
전통시장과 대형마트 모두 표본이 30개 이상이기 때문에 정규성을 만족한다고 할 수 있습니다.
평균을 보니 전통시장의 달걀 10개의 평균 가격은 3457.64원, 대형마트는 4555.10원으로 나타났습니다.
실제 두 집단의 평균 차이가 통계적으로 유의한지 보기 위해서 독립표본 검정 표를 보겠습니다.
Levene의 등분산 검정 F에서 유의확률이 0.000이므로 등분산을 가정하지 않게 됩니다.
따라서 등분산이 가정되지 않음을 기준으로 봐야 합니다.
독립표본 T 검정의 t = -21.211, T 분포에 따른 유의확률(양쪽)은 0.000으로 나타났습니다.
즉, 유의확률(p) = 0.000 < 0.05 이므로
대립가설인 2021년 상반기 달걀(10개)는 시장유형에 따라 가격 차이가 있을 것이다.'가 채택이 됩니다.
독립표본 T 검정 - 달걀(30개)
달걀 30개에 대해서도 똑같이 분석을 진행해보았습니다.
과정은 똑같습니다.
다만 데이터 클리닝 과정에서 롯대백화점 잠실점, 청량리점이 모두 가격원이 0원이었습니다.
이 부분에 대해서 데이터 관리가 필요할 듯 합니다.
백화점만의 가격 인플레이션이 똑같이 너무 심한 곳이 있었는데 이 것도 삭제했습니다.
달걀 30개의 결과입니다.
전통시장과 대형마트 모두 표본이 30개 이상이기 때문에 정규성을 만족한다고 할 수 있습니다.
평균을 보니 전통시장의 달걀 30개의 평균 가격은 7929.43원, 대형마트는 8028.95원으로 나타났습니다.
실제 두 집단의 평균 차이가 통계적으로 유의한지 보기 위해서 독립표본 검정 표를 보겠습니다.
Levene의 등분산 검정 F에서 유의확률이 0.000이므로 등분산을 가정하지 않게 됩니다.
따라서 등분산이 가정되지 않음을 기준으로 봐야 합니다.
독립표본 T 검정의 t = -1.399, T 분포에 따른 유의확률(양쪽)은 0.152으로 나타났습니다.
즉, 유의확률(p) = 0.152 > 0.05 이므로
귀무가설인 2021년 상반기 달걀(30개)는 시장유형에 따라 가격 차이가 없을 것이다.'가 채택이 됩니다.
한 가지 더 말씀드리고 싶은 것은
아까 데이터 클리닝을 하지 않고 비정상적인 백화점 가격을 넣게 되면
대립가설인 '2021년 상반기 달걀(30개)는 시장유형에 따라 가격 차이가 있을 것이다.'가 채택이 되니 주의하셔야 합니다.
데이터 클리닝을 하지 않으면 다른 결과가 나올 수 있다는 의미입니다.
실제로 백화점에서 달걀을 사는 사람은 극히 일부일텐데 이 때문에 전통시장과 대형마트의 가격 차이가 있다고 결론을 내면 잘못된 결론이겠지요.
결론
2021년 상반기에 서울시 생필품 농수축산물 가격 정보 중 달걀 10개와 30개를 비교한 결과
달결 10개의 가격은 전통시장과 대형마트의 차이가 있었고
달걀 30개의 가격은 전통시장과 대형마트의 차이가 없었습니다.
달걀 10개를 산다면 전통시장을 이용하는 것이 저렴하고 30개를 산다면 대형마트를 이용해도 무방합니다.
다른 품목, 기간, 자치구, 비고 등의 항목들을 더 세세하게 나눠서 보면 또 다른 재밌는 결과가 나올 수 있다고 생각합니다.
'SPSS' 카테고리의 다른 글
[카이제곱 검정] 경기도 일자리 청년통장소득재산 SPSS 분석 (0) | 2021.06.29 |
---|---|
[독립표본 T 검정] 서울시농수산식품공사 품목별등급별가격(도매시장) SPSS 분석 (0) | 2021.06.28 |
[독립표본 T 검정]공공자전거 이용정보(시간대별) 21.01 SPSS 분석 (0) | 2021.06.26 |
서울글로벌센터 월별 상담실적 SPSS 분석 (2) (0) | 2021.06.26 |
서울글로벌센터 월별 상담실적 SPSS 분석 (1) (0) | 2021.06.25 |
댓글