본문 바로가기
SPSS

[독립표본 T 검정] 서울시 생필품 농수축산물 가격 정보 SPSS 분석

by 지식광부키우기 2021. 7. 2.

안녕하세요. 인문계공돌이입니다.

 

오늘은 서울시 생필품 농수축산물 가격 정보 데이터를 가지고 독립표본 T 검정을 해보겠습니다. 

 

 

 

데이터

 

데이터는 서울 열린데이터 광장에서 제공하는 서울시 생필품 농수축산물 가격 정보입니다. 

 

 

라이센스 및 다른 정보들은 위와 같습니다. 

 

 

 

연구가설

 

서울시 생필품 농수축산물 가격 정보 데이터 중 마트 간 양파와 무의 가격 차이가 있는지 알아보겠습니다. 

 

귀무가설 : 마트 간 무, 양파 가격에 차이가 없을 것이다.

 

대립가설 : 마트 간 무, 양파 가격에 차이가 있을 것이다.

 

마트는 이마트와 홈플러스입니다.

 

 

 

원하는 연구 데이터 추출

 

원본 데이터에서 중 원하는 데이터만 추출하기 위해 Python을 사용하였습니다.

 

 

하고자 했던 작업을 설명드리겠습니다.

 

먼저 이마트와 홈플러스가 어디 자치구에 분포되어 있는지 알아보고

 

시장/마트 이름에 이마트와 홈플러스가 들어간 행을 추출한 다음에

 

공통된 자치구만 또다시 추출해주었습니다.

 

그 다음에 마트란 변수를 새로 만들어 이마트와 홈플러스 카테고리로 묶어주었습니다.

 

 

 

데이터 클리닝

 

 

무와 양파의 케이스만 다루기 위해 케이스 선택을 진행해주겠습니다.

 

메뉴에서 데이터 > 케이스 선택을 클릭합니다.

 

 

조건을 만족하는 케이스에 체크표시하고 조건을 클릭합니다.

 

 

조건에 품목이름 = '무' or 품목이름 = '양파'를 넣어주었습니다.

 

계속과 확인 버튼을 눌러 마루리합니다.

 

 

제대로 조건에 맞는 케이스가 선택되었는지 확인해보겠습니다.

 

메뉴에서 분석 > 기술통계량 > 빈도분석을 클릭합니다.

 

 

품목이름을 넣고 확인을 클릭합니다.

 

 

무와 양파만 결과로 잘 나옵니다.

 

 

변수 마트와 자치구 이름이 문자이기 때문에 숫자로 변경해주겠습니다.

 

메뉴에서 변환 > 자동 코딩변경을 클릭합니다.

 

 

마트는 마트숫자로 자치구이름은 자치구숫자로 새 이름 추가를 해준 후 확인을 클릭합니다.

 

 

제대로 변환이 되었습니다.

 

 

이상치가 있을 수 있기 때문에 한 번 확인합니다.

 

분석 > 기술통계량 > 데이터 탐색을 클릭합니다.

 

 

종속변수에 가격원을 요인에 품목이름을 넣어준 후 확인 버튼을 클릭합니다.

 

 

아웃라이어들이 보입니다. 

 

한 번 확인해보겠습니다.

 

 

이마트 가양점의 무 1kg을 보면 11800원입니다. 

 

아래 홈플러스 등촌점의 무 1개 1.5kg이 1650인거 보면 명백하게 잘못된 수치라는 것을 알 수 있습니다.

 

아마도 0을 하나 더 넣은 듯 하지만 관계자가 아니므로 삭제하겠습니다. 

 

다른 아웃라이어들도 가격이 비쌀 이유가 없는데 비쌌습니다. 

 

실제로 이유를 알면 이상치 제거를 해서 안되는 경우도 있지만 

 

제가 봤을 때는 다른 것과 별 차이가 없는데 값이 비싸서 제거했습니다.

 

 

데이터 클리닝이 끝났습니다.

 

 

 

독립표본 T 검정 

 

 

분석 > 평균 비교 > 독립표본 T 검정을 클릭합니다.

 

먼저 무부터 해보겠습니다.

 

한꺼번에 무와 양파가 되지 않기 때문에 무만 따로 케이스 선택을 해준 상태입니다.

 

 

검정변수에 가격원을 집단변수에 마트숫자를 넣었습니다.

 

집단정의를 클릭합니다.

 

 

1과 2를 넣고 계속과 확인 버튼을 최종적으로 눌러줍니다.

 

 

보고서를 보면 집단통계량 표와 독립표본 검정 표 2개가 나타납니다.

 

집단통계량 표에서는 두 집단 표본 수, 평균, 표준편차, 평균의 표준오차를 보여줍니다.

 

평균을 보니 이마트의 무 평균 가격은 약 1410원, 홈플러스는 1847.35원으로 나타났습니다.

 

실제 두 집단의 평균 차이가 통계적으로 유의한지 보기 위해서 독립표본 검정 표를 보겠습니다.

 

Levene의 등분산 검정 F에서 F 값은 8.096 유의확률이 0.005이므로 등분산을 가정하지 않게 됩니다. 

 

따라서 등분산이 가정되지 않음을 기준으로 봐야 합니다.

 

독립표본 T 검정의 t = -13.297, T 분포에 따른 유의확률(양쪽)은 0.000으로 나타났습니다. 

 

즉, 유의확률(p) = 0.000 < 0.05 이므로

 

대립가설인 '마트 간 무 가격에 차이가 있을 것이다.'가 채택이 됩니다.

 

 

이번에는 양파만 케이스 선택을 해준 상태입니다.

 

평균을 보니 이마트의 양파 평균 가격은 약 4656원, 홈플러스는 4930원으로 나타났습니다.

 

실제 두 집단의 평균 차이가 통계적으로 유의한지 보기 위해서 독립표본 검정 표를 보겠습니다.

 

Levene의 등분산 검정 F에서 F 값은 0.167 유의확률이 0.683이므로 등분산을 가정하게 됩니다. 

 

따라서 등분산이 가정됨을 기준으로 봐야 합니다.

 

독립표본 T 검정의 t = -2.476, T 분포에 따른 유의확률(양쪽)은 0.014으로 나타났습니다. 

 

즉, 유의확률(p) = 0.014 < 0.05 이므로

 

대립가설인 '마트 간 양파 가격에 차이가 있을 것이다.'가 채택이 됩니다.

 

 

 

결론

 

무와 양파 가격은 마트 간 차이가 있었습니다.

 

둘 다 이마트에서 사는 게 더 저렴했습니다. 

 

다른 품목들과 자치구별로 해도 또 다른 재밌는 결과가 나올 수 있다고 생각합니다.

댓글