안녕하세요. 인문계공돌이입니다.
오늘은 서울시 생필품 농수축산물 가격 정보 데이터를 가지고 분산분석 중 일원배치 분산분석을 해보겠습니다.
데이터
데이터는 서울 열린데이터 광장에서 제공하는 서울시 생필품 농수축산물 가격 정보입니다.
라이센스 및 다른 정보들은 위와 같습니다.
연구가설
서울시 생필품 농수축산물 가격 정보 데이터 중 자치구에 따라 홈플러스 돼지고기의 가격은 차이가 있는지 알아보겠습니다.
귀무가설 : 자치구에 따른 홈플러스 돼지고기의 가격은 차이가 없을 것이다.
대립가설 : 자치구에 따른 홈플러스 돼지고기의 가격은 차이가 있을 것이다.
원하는 연구 데이터 추출
원본 데이터에서 중 원하는 데이터만 추출하기 위해 Python을 사용하였습니다.
데이터 클리닝까지 Python으로 다 하고 분석만 SPSS로 진행해보았습니다.
원본 데이터를 불러왔습니다.
시장/마트 이름을 보면 홈플러스 목동점이 가장 많습니다.
홈플러스가 포함되어 있는 행만 추출했습니다.
품목은 달걀 10개, 달걀 30개, 오이, 쇠고기, 돼지고기 순으로 많습니다.
이 중 돼지고기만 분석에 사용할 것이기 때문에 따로 df_h_p에 할당했습니다.
데이터를 한 번 살펴보면 100g과 600g이 혼용되어 있습니다.
구별해서 자세하게 살펴보겠습니다.
600g만 추출해서 df_h_p_600에 할당했습니다.
df_h_p_600에서 가격(원) 변수의 boxplot을 그려보았습니다.
5000원 미만인 값들이 있습니다.
600g이 5000원 미만으로 판매되는 것은 뭔가 이상합니다.
홈플러스 방학점과 목동점에서 600g인데 각각 1690원, 2390원으로 판매되고 있었습니다.
0을 하나 빼먹은 것인지 100g인데 600g이라고 표기한 것인지 자세히 모르므로 삭제하겠습니다.
삭제 후의 boxplot입니다.
이번에는 100g을 한 번 보겠습니다.
100g 역시 14000원이 넘는 값이 존재합니다.
찾아보니 홈플러스 영등포점에서 600g으로 판매되고 있는 가격인데 100g으로 잘못 나왔습니다.
해당 행만 따로 추출해서 df_h_p_600_err에 할당했습니다.
600g 가격을 기준으로 할 것이기 때문에 100g 가격(원)에 곱하기 6을 해주었습니다.
모든 과정이 끝나서 다시 하나의 데이터 프레임으로 합쳐주었습니다.
홈플러스의 600g 돼지고기 가격으로 boxplot이 잘 형성되었습니다.
이제 csv 파일로 변형한 후 SPSS에서 분석을 진행하겠습니다.
일원배치 분산분석
데이터를 불러왔고 그래프를 그려보겠습니다.
메뉴에서 그래프 > 도표 작성기를 클릭합니다.
갤러리에서 상자도표 처음 것을 선택한 후 X축에 자치구 이름 Y축에 가격원을 넣어주었습니다.
자치구별로 그려진 boxplot을 보면 노원구가 가격이 높게 형성되어 있습니다.
도봉구와 중랑구는 분포가 작고 값들이 많이 떨어져 있습니다.
메뉴에서 분석 > 평균 비교 > 일원배치 분산분석을 클릭합니다.
요인에 자치구이름 숫자를 종속변수에 가격원을 넣어줍니다.
자치구이름은 문자였기 때문에 자동 코딩변환을 통해 숫자로 변경을 미리 해주었습니다.
우측의 사후분석을 클릭하고 Scheffe와 Games-Howell을 체크합니다.
옵션에서는 기술통계, 분선 동질성 검정, Welch를 체크합니다.
최종적으로 확인 버튼을 눌러줍니다.
자치구별로 평균과 함께 표쥰편차, 표준오차, 최소값, 최대값 등을 확인합니다.
Levene 통계량은 8.122이고 유의확률이 0.000이므로 0.05보다 작습니다.
'등분산이 가정되지 않음'을 기준으로 봐야 합니다.
Welch 통계량은 72.101이고 유의확률이 0.000이므로 0.05보다 작습니다.
따라서 요인별 각 집단 평균은 통계적으로 다른 집단이 적어도 한 개 있다고 할 수 있습니다.
'등분산이 가정되어 있지 않음'을 기준으로 하므로, 사후 검정으로 'Games-Howell'을 보겠습니다.
자치구별로 홈플러스 돼지고기 600g 가격의 평균 차이는
강동구 : 노원구, 영등포구, 중랑구
강서구 : 노원구, 영등포구, 중랑구
금천구 : 노원구, 영등포구, 중랑구
노원구 : 전부 다
도봉구 : 노원구, 중랑구
동대문구 : 노원구
마포구 : 노원구, 중랑구
송파구 : 노원구, 영등포구, 중랑구
양천구 : 노원구, 영등포구, 중랑구
영등포구 : 강동구, 강서구, 금천구, 노원구, 송파구, 양천구
중랑구 : 동대문구, 영등포구 제외 모두 다
에서 평균의 차이가 있는 것으로 나타났습니다.
특히, 송파구와 노원구의 차이가 8440.431로 평균차이가 가장 크게 나타났습니다.
결론
자치구별 홈플러스 돼지고기 600g의 가격은 유의한 차이가 있는 것으로 나타났습니다.
특히 노원구는 다른 곳에 비해 홈플러스 돼지고기가 비싼 것으로 판단되었습니다.
2021년 데이터만 가지고 진행했는데 연도별로 비교해도 재밌을 것 같습니다.
'SPSS' 카테고리의 다른 글
[판별분석] 국가건강검진 혈압혈당데이터 SPSS 분석 (0) | 2021.07.10 |
---|---|
[상관분석] 도로교통공단 일자별 시군구별 교통사고 건수 20191231 SPSS 분석 (0) | 2021.07.06 |
[분산분석] 서울시 생필품 농수축산물 가격 정보 SPSS 분석 (0) | 2021.07.04 |
[독립표본 T 검정] 서울시 생필품 농수축산물 가격 정보 SPSS 분석 (0) | 2021.07.02 |
[카이제곱 검정] 서울특별시 사회복지시설 목록 SPSS 분석 (0) | 2021.06.30 |
댓글