본문 바로가기
SPSS

[판별분석] 국가건강검진 혈압혈당데이터 SPSS 분석

by 지식광부키우기 2021. 7. 10.

안녕하세요. 인문계공돌이입니다.

 

오늘은 국가건강검진 혈압혈당데이터 데이터를 가지고 판별분석을 해보겠습니다. 

 

 

데이터

 

데이터는 국민건강보험에서 제공하는 혈압혈당데이터입니다. 

 

 

변수 설명입니다.

 

 

라이센스 및 다른 정보들은 위와 같습니다. 

 

 

 

연구목적

 

연령, 성별, 수축기혈압, 이완기혈압, 공복혈당으로 이루어진 독립변수와

 

고혈압/당뇨병 진료내역 종속변수와의 관계를 보려고 합니다.

 

종속변수는 고혈압/당뇨병 진료내역 있음, 고혈압 진료내역 있음, 당뇨병 진료내역 있음, 고혈압/당뇨병 진료내역 없음으로 나누어져 있습니다. 

 

 

 

판별분석

 

 

메뉴에서 분석 > 분류분석 > 판별분석을 클릭합니다.

 

 

집단변수에 DIS를 넣고 범위지정을 1부터 4까지 해주었습니다.

 

독립변수로는 나머지를 다 넣었습니다.

 

 

통계량을 클릭하고 평균, 일변량분산분석, Box의 M, Fisher의 방법, 비표준화, 집단-내 상관행렬에 체크 표시합니다.

 

 

분류 옵션에서는 각 케이스에 대한 결과, 용약표, 결합-집단, 개별-집단, 영역도에 체크 표시합니다.

 

 

저장 옵션에서는 전부 다 체크 표시를 합니다.

 

최종적으로 확인을 누르면

 

전체 데이터 개수가 100만 개이기 때문에 출력 결과에 시간이 걸립니다. 

 

 

집단 통계량은 종속변수의 집단별 독립변수의 기술통계치를 나타냅니다.

 

 

유의확률을 보면 모두 0.05보다 작으므로 각 독립변수가 DIS별로 유의미한 차이를 보입니다. 

 

 

여기서 문제가 하나 생겼습니다. 

 

판별분석은 모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정을 필요로 합니다. 

 

그러나 현재 검정 결과 표에서는 유의확률이 0.05보다 작아 귀무가설을 기각하게 됩니다. 

 

이 가정은 매우 중요하므로 이 이후의 해석은 연습용 즉, 판별 분석을 이해하는 차원에서 계속 보고자 해서 계속 진행하는 것이지

 

절대로 제대로된 통계 결과가 아니라는 것을 말씀드립니다.

 

고유값과 정준 상관계수가 높을수록 독립변수의 설명력이 높음을 의미합니다.

 

첫 번째 함수의 정준상관계수는 0.588입니다.

 

첫 번째 함수의 설명력은 0.588의 제곱인 0.345744, 즉 34.5744%의 설명력을 갖습니다.

 

두 번째 함수의 설명력은 12%, 세 번째 함수의 설명력은 0.1681%입니다.

 

 

유의확률이 .05보다 모두 작아 집단간 차이가 있습니다.

 

즉, 독립변수에 투입된 모든 변수들이 판별함수로 적합함을 나타냅니다.

 

 

종속변수 판별에 영향을 미치는 독립변수들의 상대적 중요도를 나타냅니다.

 

 

값이 클수록 판별함수에 영향력이 큰 변수입니다.

 

함수 1에서는 BTH_G가 가장 높게, 함수 2에서는 FBS가 가장 높게, 함수 3에서는 SPB가 가장 높게 나타났습니다.

 

 

예를 들어 판별함수 식을 세워보면

 

판별함수 Z1 = .102(SEX) + .108(BTH_G) + .019(SBP) - .009(DBP) + .029(FBS) + .048(BMI) -7.277입니다.

 

 

DIS가 1인 집단에서는 가장 높게 나타난 점수가 1.889입니다. 즉, 함수 1의 특징이 두드러집니다.

 

위의 표에서 함수 1에서 가장 높게 나타난 판별계수를 찾아보면 BTH_G입니다. 

 

DIS가 1인 집단에게 나타나는 주된 특징은 연령이라고 말할 수 있습니다.

 

 

분류결과는 나의 데이터에서 실제 소속집단과 판별함수에 의한 예측 소속집단간의 교차표입니다.

 

분류 정확도는 69.2%인데 4개 집단을 꽤 높은 수치로 정확하게 분류했다고 볼 수 있습니다.

 

 

 

결론 

 

모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정이 만족되지 않았기 때문에

 

제대로된 통계 결과를 낼 수는 없었습니다.

 

다만 다른 데이터에서는 가정을 만족하고 했다면 위와 같은 식으로 계속 해석을 진행해주시면 되겠습니다. 

 

댓글