안녕하세요. 인문계공돌이입니다.
오늘은 서울시농수산식품공사 품목별등급별가격(도매시장) 데이터를 가지고 독립표본 T 검정을 해보겠습니다.
데이터
데이터는 서울 열린데이터 광장에서 제공하는 서울시농수산식품공사 품목별등급별가격(도매시장)입니다.
라이센스 및 다른 정보들은 위와 같습니다.
연구가설
서울시농수산식품공사 품목별등급별가격(도매시장) 데이터 중 수가 많은 품목및품명의 감귤, 등급은 보통에 대해서 가락시장과 양곡시장의 평균가격 차이가 있는지 알아보겠습니다.
귀무가설 : 감귤 보통 등급은 시장구분에 따라 평균 가격 차이가 없을 것이다.
대립가설 : 감귤 보통 등급은 시장구분에 따라 평균 가격 차이가 있을 것이다.
시장구분은 가락시장와 양곡시장으로 구별되어 있습니다.
원하는 연구 데이터 추출
원본 데이터에서 중 품목및품명에서 감귤만을 추출하기 위해 이번에는 SPSS를 사용해보겠습니다.
메뉴에서 데이터 > 케이스 선택을 클릭합니다.
우측의 조건을 만족하는 케이스를 클릭하고 조건 버튼을 눌러줍니다.
품목및품명='감귤' & 등급='보통'을 입력하고 계속 버튼을 클릭합니다.
최종적으로 확인을 눌러줍니다.
이처럼 해당하지 않으면 Index에 대각선 표시가 생기고 맨 끝에 filter 변수가 새로 생깁니다.
우리가 설정한 케이스에 해당하면 1 아니면 0입니다.
제대로 필터링이 되었는지 확인해보겠습니다.
메뉴에서 분석 > 기술통계량 > 빈도분석을 클릭합니다.
변수에 품목및품명을 넣고 확인을 클릭합니다.
우리가 원하는 감귤 보통 등급의 데이터만 잘 뽑혔습니다.
독립표본 T 검정
사전에 이상치도 없음을 확인했고 바로 독립표본 T 검정을 진행해보겠습니다.
메뉴에서 분석 > 평균비교 > 독립표본 T 검정으로 들어가겠습니다.
검정변수 칸에는 종속변수인 평균가을 집단변수 칸에는 독립변수인 시장구분숫자를 넣어줍니다.
참고로 시장구분숫자는 시장구분이 문자 형식이기 때문에 제가 숫자로 변환한 변수입니다.
집단정의를 클릭하고 집단 1: 1, 집단 2: 2를 넣어준 후 계속을 클릭하고 확인을 최종적으로 눌러줍니다.
보고서를 보면 집단통계량 표와 독립표본 검정 표 2개가 나타납니다.
집단통계량 표에서는 두 집단 표본 수, 평균, 표준편차, 평균의 표준오차를 보여줍니다.
가락시장과 양곡시장 모두 표본이 30개 이상이기 때문에 정규성을 만족한다고 할 수 있습니다.
평균을 보니 가락시장의 감귤 보통 등급의 평균 가격의 평균 값은 31505.43원, 양곡시장는 399995.58원으로 나타났습니다.
실제 두 집단의 평균 차이가 통계적으로 유의한지 보기 위해서 독립표본 검정 표를 보겠습니다.
Levene의 등분산 검정 F에서 F 값은 41.039 유의확률이 0.000이므로 등분산을 가정하지 않게 됩니다.
따라서 등분산이 가정되지 않음을 기준으로 봐야 합니다.
독립표본 T 검정의 t = -2.092, T 분포에 따른 유의확률(양쪽)은 0.039으로 나타났습니다.
즉, 유의확률(p) = 0.039 < 0.05 이므로
대립가설인 '감귤 보통 등급은 시장구분에 따라 평균 가격 차이가 있을 것이다.'가 채택이 됩니다.
라고 결론이 나왔습니다.
그런데 뭔가 이상하다고 느끼지 않으셨나요?
무엇인가를 고려하지 않았다는 느낌이 듭니다.
바로 '거래단위' 입니다.
감귤의 경우 '거래단위'는 10 kg상자, 3 kg상자, 5 kg상자 3가지로 나뉘어져 있습니다.
만약에 양곡시장에 10 kg상자 데이터가 훨씬 더 많거나 3 kg상자가 적다면
양곡시장의 평균 가격의 평균 값은 높아질 수 밖에 없습니다.
이를 검증하기 위해 교차분석을 해보겠습니다.
교차분석
교차분석은 메뉴에서 분석 > 기술통계량 > 교차분석으로 할 수 있습니다.
행에 거래단위 열에 시장구분을 넣어주고 확인을 클릭합니다.
역시 가정한 대로 3 kg상자 데이터가 양곡시장에는 하나도 없었습니다.
3 kg 상자는 평균 가격이 낮을 텐데 이 데이터가 없으니 평균 가격의 평균 값이 당연히 높을 수밖에 없었습니다.
공정한 비교를 위해 3 kg상자도 필터링해주고 독립표본 T 검정을 시행해보겠습니다.
케이스 선택: 조건에서 거래단위 ~='3 kg상자'를 추가했습니다.
~=는 같지 않다는 의미입니다.
필터링 후에 다시 독립표본 T 검정을 시행하면
가락시장의 평균 가격의 평균 값이 31505.43원에서 39091.57로 크게 오른 것을 알 수 있습니다.
Levene의 등분산 검정 F에서 F 값은 15.411 유의확률이 0.000이므로 등분산을 가정하지 않게 됩니다.
따라서 등분산이 가정되지 않음을 기준으로 봐야 하고
독립표본 T 검정의 t = -0.197, T 분포에 따른 유의확률(양쪽)은 0.844으로 나타났습니다.
즉, 유의확률(p) = 0.844 > 0.05 이므로
귀무가설인 '감귤 보통 등급은 시장구분에 따라 평균 가격 차이가 없을 것이다.'를 기각시킬 수 없습니다.
만약 거래단위를 고려하지 않았다면 정반대의 통계 결과를 낼 뻔했습니다.
결론
감귤 보통 등급은 시장구분에 따라 평균 가격 차이가 없었습니다.
가락시장에서 사나 양곡시장에서 사나 비슷했습니다.
오늘 주의해야 했던 점은 분석 전에 꼭 다른 요소가 영향을 미치지 않는지 확인해야 한다는 것입니다.
분석 결과를 올려주기 위해서 순서를 이렇게 보여줬지만
실제로는 빈도분석, 교차분석, 기술통계 등을 모두 본 후에 독립표본 T 검정을 진행합니다.
미리 확인을 하지 않으면 결과에 완전히 정반대의 영향을 미치니 꼭 주의하셔야 합니다.
이번 데이터의 경우 품목, 등급 등을 달리 해보면 또 다른 재밌는 결과가 나올 수 있다고 생각합니다.
'SPSS' 카테고리의 다른 글
[카이제곱 검정] 서울특별시 사회복지시설 목록 SPSS 분석 (0) | 2021.06.30 |
---|---|
[카이제곱 검정] 경기도 일자리 청년통장소득재산 SPSS 분석 (0) | 2021.06.29 |
[독립표본 T 검정]서울시 대형마트 및 전통시장 달걀 10개 & 30개 가격 정보 21년 상반기 SPSS 분석 (0) | 2021.06.27 |
[독립표본 T 검정]공공자전거 이용정보(시간대별) 21.01 SPSS 분석 (0) | 2021.06.26 |
서울글로벌센터 월별 상담실적 SPSS 분석 (2) (0) | 2021.06.26 |
댓글