안녕하세요. 인문계공돌이입니다.
오늘은 G마켓 생수 가격 정보 데이터를 가지고 일원배치 분산분석을 해보겠습니다.
데이터
데이터는 이전 포스팅에서 크롤링 후 가공했던 G마켓 생수 데이터입니다.
2021.07.19 - [Python] - [데이터 가공, 정규표현식] G마켓 생수 데이터 가공하기 Python
연구가설
생수 브랜드의 1리터당 가격은 차이가 있는지 알아보겠습니다.
귀무가설 : 생수 브랜드별 1리터당 가격은 차이가 없을 것이다.
대립가설 : 생수 브랜드별 1리터당 가격은 적어도 한 브랜드는 차이가 있을 것이다.
일원배치 분산분석
따로 EDA 포스팅을 진행할 것이기 때문에 있는 1리터당 가격 데이터만 만들어주고
추가적인 가공 없이 분산분석을 진행하겠습니다.

메뉴에서 변환 > 변수 계산을 클릭합니다.

새로운 대상변수의 이름은 일리터당가격입니다.
숫자표현식에 가격 / 리터를 입력했습니다.
최종적으로 확인을 누릅니다.

일리터당가격 변수가 추가되었습니다.

메뉴에서 변환 > 자동 코딩변경을 클릭합니다.
브랜드를 숫자로 변경하기 위함입니다.

브랜드숫자로 새 이름을 추가하고 확인을 클릭합니다.

예를 들어 3은 제주삼다수를 의미합니다.

메뉴에서 분석 > 평균 비교 > 일원배치 분산분석을 클릭합니다.

종속변수에 일리터당가격을 요인에 브랜드숫자를 넣었습니다.

사후분석에서 LSD, Tukey 방법, Duncan, Games-Howell에 체크합니다.

옵션에서는 기술통계, 분산 동질성 검정, Brown-Forsythe, Welch, 평균 도표에 체크합니다.
최종적으로 확인을 클릭합니다.

평균도표부터 보겠습니다.
롯데칠성 아이시스와 제주삼다수는 평균이 900~1000원 사이인데 스파클은 500~600 사이입니다.

Levene 통계량은 4.820이고 유의확률이 0.008이므로 0.05보다 작습니다.
'등분산이 가정되지 않음'을 기준으로 봐야 합니다.

Welch 통계량은 44.621이고 유의확률이 0.000이므로 0.05보다 작습니다.
Brown-Forsythe 통계량은 42.558이고 역시 유의확률이 0.000입니다.
따라서 요인별 각 집단 평균은 통계적으로 다른 집단이 적어도 한 개 있다고 할 수 있습니다.
'등분산이 가정되어 있지 않음'을 기준으로 하므로, 사후 검정으로 'Games-Howell'을 보겠습니다.

사후검정에서 봐야할 영역은 Games-Howell입니다.
스파클은 롯데칠성 아이시스와 제주삼다수와 차이가 나고
롯데칠성은 제주삼다수와 차이가 나지 않습니다.
일원배치 분산분석 - 비모수검정
분산의 등분산 가정이 기각 되었을 때 비모수검정을 할 수도 있습니다.

메뉴에서 분석 > 비모수 검정 > 레거시 대화 상자 > 독립 K-표본을 클릭합니다.

검정변수에 일리터당가격을 집단변수에 브랜드숫자를 넣고
범위지정을 1부터 3까지 해주었습니다.

옵션에서 기술통계에 체크하고 최종적으로 확인을 누릅니다.

Kruskal-Wallis 검정 통계량을 보면 근사 유의확률이 0.000 즉, 0.05보다 작게 나왔습니다.
비모수검정에서도 차이가 있다고 나왔습니다.
결론
생수 브랜드별 1리터당 가격은 유의한 차이가 있는 것으로 나타났습니다.
롯데칠성 아이시스와 제주삼다수는 차이가 없었지만 두 브랜드 모두 스파클하고는 차이가 났습니다.
다음 포스팅에는 EDA를 통해 전반적으로 데이터를 한 번 보겠습니다.
'SPSS' 카테고리의 다른 글
[정규분포 검토] 지역별 지역화폐 사용량 및 지역별 소상공인 분포 SPSS 분석 (0) | 2021.07.28 |
---|---|
[빈도분석] 지역별 지역화폐 사용량 및 지역별 소상공인 분포 SPSS 분석 (0) | 2021.07.27 |
[카이제곱 검정] 국가건강검진 시력데이터 SPSS 분석 2 (0) | 2021.07.15 |
[독립표본 T 검정] 서울시 지하철호선별 역별 승하차 인원 정보 SPSS 분석 (0) | 2021.07.14 |
[카이제곱 검정] 국가건강검진 시력데이터 SPSS 분석 (0) | 2021.07.13 |
댓글