본문 바로가기
SPSS

[독립표본 T 검정] 서울시 지하철호선별 역별 승하차 인원 정보 SPSS 분석

by 지식광부키우기 2021. 7. 14.

안녕하세요. 인문계공돌이입니다.

 

오늘은 서울시 지하철호선별 역별 승하차 인원 정보 데이터를 가지고 독립표본 T 검정을 해보겠습니다. 

 

 

 

데이터

 

데이터는 서울 열린데이터 광장에서 제공하는 서울시 지하철호선별 역별 승하차 인원 정보입니다.

 

 

라이센스 및 다른 정보들은 위와 같습니다. 

 

 

 

연구가설

 

서울시 지하철호선별 역별 승하차 인원 정보 데이터 중 경부선과 경인선의 승하차 총 승객수의 차이가 있는지 알아보겠습니다. 

 

귀무가설 : 경부선과 경인선 간 승하차 총 승객수에 차이가 없을 것이다.

 

대립가설 : 경부선과 경인선 간 승하차 총 승객수에 차이가 있을 것이다.

 

 

 

데이터 클리닝

 

 

메뉴에서 데이터 > 케이스 선택을 클릭합니다.

 

 

조건을 만족하는 케이스에 체크하고 조건을 클릭합니다.

 

 

호선명 = '경부선' | 호선명 = '경인선' 을 입력합니다.

 

계속 및 확인을 누르면

 

 

원하는 케이스만 선택되었습니다.

 

 

메뉴에서 그래프 > 도표 작성기를 클릭합니다.

 

 

상자도표에서 제일 처음 것을 선택 후 X축에 호선명, Y축에 승차총승객수를 넣었습니다.

 

 

경부선과 경의선의 승차총승객수 boxplot을 그렸습니다.

 

역마다 승차 인원이 다르기 때문에 함부로 이상치를 제거하면 안됩니다.

 

만약 같은 역인데 어떤 날에 승차총승객수가 차이가 너무 났다면

 

이 이유도 조사해보면 재밌을 듯 합니다.

 

경의선의 경우 역마다 승차총승객수가 그렇게 많이 차이나지 않습니다.

 

 

승차총승객수나 하차총승객수나 비슷합니다.

 

 

호선명이 문자이기 때문에 숫자로 변경하겠습니다.

 

메뉴에서 변환 > 자동 코딩변경을 클릭합니다.

 

 

호선명숫자1으로 새로운 변수를 만들어주겠습니다.

 

 

숫자 1이 경부선, 숫자 2가 경인선입니다. 

 

 

 

독립표본 T 검정 

 

 

분석 > 평균 비교 > 독립표본 T 검정을 클릭합니다.

 

 

검정변수에 승차총승객수, 하차총승객수를 넣고 집단변수에 호선명숫자1을 넣었습니다.

 

집단정의를 클릭해서 1과 2를 지정해주었습니다.

 

 

집단통계량을 보면 승차총승객수에서 경부선의 평균은 약 9759, 경인선은 12335입니다.

 

하차총승객수에서는 경부선의 평균이 9711, 경인선은 12118로 나타났습니다.

 

승차총승객수의 경우 Levene의 등분산 검정 F에서 F 값은 7.543 유의확률이 0.006이므로 등분산을 가정하지 않게 됩니다. 

 

따라서 등분산이 가정되지 않음을 기준으로 봐야 합니다.

 

독립표본 T 검정의 t = -6.697, T 분포에 따른 유의확률(양쪽)은 0.000으로 나타났습니다. 

 

즉, 유의확률(p) = 0.000 < 0.05 이므로

 

대립가설인 '경부선과 경인선 간 승차 총 승객수에 차이가 있을 것이다.'가 채택이 됩니다.

 

신뢰구간을 봐도 0을 포함하고 있지 않아 평균의 차이가 있다고 볼 수 있습니다.

 

경인선의 승차총승객수 평균은 12335명이고, 경부선의 평균은 9759명을 나타내고 있으므로


경부선에 비해 경인선의 평균이 약 2576명 높다고 볼 수 있습니다. 

 

이번에는 하차총승객수를 보겠습니다.

 

하차총승객수의 경우 Levene의 등분산 검정 F에서 F 값은 3.443 유의확률이 0.064이므로 등분산을 가정하게 됩니다. 

 

따라서 등분산이 가정됨을 기준으로 봐야 합니다.

 

독립표본 T 검정의 t = -5.991, T 분포에 따른 유의확률(양쪽)은 0.000으로 나타났습니다. 

 

즉, 유의확률(p) = 0.000 < 0.05 이므로

 

대립가설인 '경부선과 경인선 간 하차 총 승객수에 차이가 있을 것이다.'가 채택이 됩니다.

 

신뢰구간을 봐도 역시 0을 포함하고 있지 않아 평균의 차이가 있다고 볼 수 있습니다.

 

경인선의 승차총승객수 평균은 12118명이고, 경부선의 평균은 9711명을 나타내고 있으므로


경부선에 비해 경인선의 평균이 약 2407명 높다고 볼 수 있습니다. 

 

 

 

결론

 

승하차총승객수는 경부선과 경인선 간 차이가 있었습니다.

 

경인선이 경부선보단 이용하는 승객이 많았습니다. 

 

다른 호선과 비교하거나 승하차수에 상관관계가 있는 지 등을 분석해보면 또 다른 재밌는 결과가 나올 수 있다고 생각합니다.

댓글