본문 바로가기
SPSS

[분산분석] G마켓 생수 가격 정보 SPSS 분석

by 지식광부키우기 2021. 7. 20.

안녕하세요. 인문계공돌이입니다.

 

오늘은 G마켓 생수 가격 정보 데이터를 가지고 일원배치 분산분석을 해보겠습니다. 

 

 

데이터

 

데이터는 이전 포스팅에서 크롤링 후 가공했던 G마켓 생수 데이터입니다. 

 

2021.07.19 - [Python] - [데이터 가공, 정규표현식] G마켓 생수 데이터 가공하기 Python

 

 

 

연구가설

 

생수 브랜드의 1리터당 가격은 차이가 있는지 알아보겠습니다. 

 

귀무가설 : 생수 브랜드별 1리터당 가격은 차이가 없을 것이다.

 

대립가설 : 생수 브랜드별 1리터당 가격은 적어도 한 브랜드는 차이가 있을 것이다.

 

 

 

일원배치 분산분석 

 

따로 EDA 포스팅을 진행할 것이기 때문에 있는 1리터당 가격 데이터만 만들어주고

 

추가적인 가공 없이 분산분석을 진행하겠습니다. 

 

 

메뉴에서 변환 > 변수 계산을 클릭합니다.

 

 

새로운 대상변수의 이름은 일리터당가격입니다.

 

숫자표현식에 가격 / 리터를 입력했습니다. 

 

최종적으로 확인을 누릅니다.

 

 

일리터당가격 변수가 추가되었습니다.

 

 

메뉴에서 변환 > 자동 코딩변경을 클릭합니다.

 

브랜드를 숫자로 변경하기 위함입니다.

 

 

브랜드숫자로 새 이름을 추가하고 확인을 클릭합니다.

 

 

예를 들어 3은 제주삼다수를 의미합니다.

 

 

메뉴에서 분석 > 평균 비교 > 일원배치 분산분석을 클릭합니다.

 

 

종속변수에 일리터당가격을 요인에 브랜드숫자를 넣었습니다.

 

 

사후분석에서 LSD, Tukey 방법, Duncan, Games-Howell에 체크합니다.

 

 

옵션에서는 기술통계, 분산 동질성 검정, Brown-Forsythe, Welch, 평균 도표에 체크합니다.

 

최종적으로 확인을 클릭합니다.

 

 

평균도표부터 보겠습니다.

 

롯데칠성 아이시스와 제주삼다수는 평균이 900~1000원 사이인데 스파클은 500~600 사이입니다.

 

 

Levene 통계량은 4.820이고 유의확률이 0.008이므로 0.05보다 작습니다.

 

'등분산이 가정되지 않음'을 기준으로 봐야 합니다.

 

 

Welch 통계량은 44.621이고 유의확률이 0.000이므로 0.05보다 작습니다.

 

Brown-Forsythe 통계량은 42.558이고 역시 유의확률이 0.000입니다.

 

따라서 요인별 각 집단 평균은 통계적으로 다른 집단이 적어도 한 개 있다고 할 수 있습니다. 

 

'등분산이 가정되어 있지 않음'을 기준으로 하므로, 사후 검정으로 'Games-Howell'을 보겠습니다.

 

 

사후검정에서 봐야할 영역은 Games-Howell입니다.

 

스파클은 롯데칠성 아이시스와 제주삼다수와 차이가 나고

 

롯데칠성은 제주삼다수와 차이가 나지 않습니다.

 

 

 

일원배치 분산분석 - 비모수검정

 

분산의 등분산 가정이 기각 되었을 때 비모수검정을 할 수도 있습니다.

 

 

메뉴에서 분석 > 비모수 검정 > 레거시 대화 상자 > 독립 K-표본을 클릭합니다.

 

 

검정변수에 일리터당가격을 집단변수에 브랜드숫자를 넣고

 

범위지정을 1부터 3까지 해주었습니다.

 

 

옵션에서 기술통계에 체크하고 최종적으로 확인을 누릅니다.

 

 

Kruskal-Wallis 검정 통계량을 보면 근사 유의확률이 0.000 즉, 0.05보다 작게 나왔습니다.

 

비모수검정에서도 차이가 있다고 나왔습니다. 

 

 

 

결론

 

생수 브랜드별 1리터당 가격은 유의한 차이가 있는 것으로 나타났습니다.

 

롯데칠성 아이시스와 제주삼다수는 차이가 없었지만 두 브랜드 모두 스파클하고는 차이가 났습니다. 

 

다음 포스팅에는 EDA를 통해 전반적으로 데이터를 한 번 보겠습니다.

댓글