본문 바로가기
SPSS

[카이제곱 검정] 서울특별시 사회복지시설 목록 SPSS 분석

by 지식광부키우기 2021. 6. 30.

안녕하세요. 인문계공돌이입니다.

 

오늘은 서울특별시 사회복지시설 데이터를 가지고 카이제곱 검정을 해보겠습니다. 

 

 

 

데이터

 

데이터는 서울 열린데이터 광장에서 제공하는 서울특별시 사회복지시설입니다.

 

 

라이센스 및 다른 정보들은 위와 같습니다. 

 

 

 

연구가설

 

서울특별시 사회복지시설 데이터 중 자치구와 시설종류의 관계가 있는지 알아보겠습니다. 

 

귀무가설 : 자치구별 시설종류는 차이가 없을 것이다.

 

대립가설 : 자치구별 시설종류는 차이가 있을 것이다.

 

서울에는 25개의 자치구가 있고(ex. 종로구) 시설종류는 너무 많아서 다음 과정에서 카테고리를 줄여봤습니다.

 

 

 

데이터 클리닝

 

먼저 데이터 클리닝을 진행한 후 카이제곱 검정을 진행하겠습니다.

 

 

원본에서 시설종류명시설유형 변수가 있습니다.

 

값을 보면 괄호 안에 노인, 장애인 등이 있는데 이 것을 추출하여 시설종류통합이라는 새로운 변수를 만들어주겠습니다.

 

문자 추출은 Python을 이용하는 게 빠를 것 같아서 코드를 짰습니다.

 

 

시설종류명시설유형에서 괄호안의 문자를 추출하면 위와 같습니다.

 

여기서 카테고리를 더 줄이기 위한 과정을 거쳤습니다.

 

 

예를 들어 결핵한센인, 건강가정, 정신보건 등은 건강 카테고리로 넣었고

 

청소년, 영유아, 여성, 한부모가족 등은 가정으로 

 

기타, 저소득, 노숙인등은 일반 카테고리에 넣어주었습니다.

 

 

넣고난 후에는 노인, 가정, 장애인, 건강, 일반 총 5개의 카테고리가 완성되었습니다.

 

이제 이 데이터를 가지고 SPSS로 넘어가겠습니다.

 

 

 

카이제곱 검정

 

이제부터 정제한 데이터를 가지고 카이제곱 검정을 해보겠습니다.

 

 

가장 먼저 빈도분석부터 해봤습니다.

 

메뉴에서 기술통계량 > 빈도분석을 클릭합니다.

 

 

변수에 시군구명과 시설종류통합을 넣어주고 확인을 클릭합니다.

 

 

시설종류통합의 경우 아까 완성한 5개의 카테고리의 빈도와 동일하게 나옵니다. (value_counts)

 

 

시군구명을 보면 26개입니다. 자치구는 25개인데 왜 그런가 봤더니 서울특별이라고 분류되어 있는 것이 있습니다. 

 

경기도에 포함되어 있는 지역도 있었고 자치구도 있었지만 그 수가 매우 적기에 필터로 제외했습니다.

 

 

메뉴에서 데이터 > 케이스 선택을 클릭합니다.

 

 

조건을 만족하는 케이스에 체크하고 조건을 클릭합니다.

 

 

시군구명이 서울특별이 아닌 데이터만 사용하도록 조건을 걸어주었습니다. 

 

계속과 확인을 눌러줍니다.

 

 

제외가 잘 되었습니다.

 

 

카이제곱 검정은 메뉴에서 분석 > 기술통계량 > 교차분석에서 할 수 있습니다.

 

 

행에 시군구명을 열에 시설종류통합을 넣었습니다.

 

통계량을 클릭합니다.

 

 

카이제곱에 체크표시하고 계속을 클릭합니다.

 

 

이번엔 셀을 클릭합니다.

 

 

퍼센트에서 행에 체크표시하고 계속을 클릭합니다.

 

확인 버튼을 눌러줍니다.

 

 

결측 없이 모두 분석에 사용되었습니다.

 

결과를 보면 건강과 일반의 빈도가 다른 시설종류에 비해 떨어집니다.

 

일반과 건강을 합쳐본 후 가정, 노인, 장애인, 건강&일반 네 종류로 분석을 다시 하겠습니다.

 

 

메뉴에서 파일 > 새 파일 > 명령문을 클릭합니다.

 

 

위와 같이 조건식을 적고 ▶ 버튼을 누르면 실행됩니다.

 

 

빈도분석을 해보니 잘 변경되었습니다.

 

 

다시 카이제곱 검정을 진행했습니다. 

 

결측은 없습니다.

 

 

카이제곱 검정 표를 보면 Pearson 카이제곱의 값은 249.084, 자유도는 72, 점근 유의확률(양측검정)은 0.000으로 유의 수준 0.05보다 작습니다. 

 

따라서 귀무가설을 기각하고 대립가설을 채택합니다.

 

즉, 대립가설인 '자치구별 시설종류는 차이가 있을 것이다.'가 채택됩니다.

 

 

교차표를 보겠습니다.

 

각 자치구마다 빈도수 Top 2까지만 나열하겠습니다. 

 

강남구 : 장애인 노인

 

강동구 : 노인 장애인

 

강북구 : 노인 장애인

 

강서구 : 노인 장애인

 

관악구 : 노인 가정

 

광진구 : 노인 가정

 

구로구 : 가정 노인

 

금천구 : 노인 가정

 

노원구 : 노인 장애인

 

도봉구 : 노인 가정&장애인(동률)

 

동대문구 : 노인 가정

 

동작구 : 노인 가정

 

마포구 : 노인 가정

 

서대문구 : 노인 가정

 

서초구 : 장애인 노인

 

성동구 : 노인 가정

 

성북구 : 노인 가정

 

송파구 : 노인 장애인

 

양천구 : 노인 가정 

 

 

영등포구 : 노인 가정

 

용산구 : 가정 노인&장애인(동률)

 

은평구 : 노인 가정

 

종로구 : 노인 가정

 

중구 : 노인 장애인

 

중랑구 : 노인 가정

 

 

 

결론

 

서울특별시 사회복지시설 데이터의 경우 자치구별 시설종류는 차이가 있을 것으로 나타났습니다.

 

카테고리를 줄여주는 데는 도메인 지식이 필요하겠지만 일반적으로 묶을 수 있는 것끼리 합리적으로 묶어봤습니다.

 

데이터를 그대로 이용하는 것이 아니라 범주가 너무 많으면 통합하는 것도 좋은 수단이니 한 번 해보시는 것을 추천드립니다.

 

전국으로 데이터를 얻을 수 있다면 지역별로 비교해보는 것도 재밌을 것 같습니다.

댓글