본문 바로가기
SPSS

[판별분석] 국가건강검진 혈액검사데이터 SPSS 분석

by 지식광부키우기 2021. 7. 11.

안녕하세요. 인문계공돌이입니다.

 

오늘은 국가건강검진 혈액검사데이터 데이터를 가지고 판별분석을 해보겠습니다. 

 

 

 

데이터

 

데이터는 국민건강보험에서 제공하는 혈액검사데이터입니다.

 

 

변수 설명입니다.

 

 

라이센스 및 다른 정보들은 위와 같습니다. 

 

 

 

연구목적

 

연령, 성별, 혈색소, 총콜레스테롤, 중성지방, 콜레스테롤로 이루어진 독립변수와

 

뇌혈관질환 진료여부 종속변수와의 관계를 보려고 합니다.

 

종속변수는 뇌혈관질환 진료여부 있음, 뇌혈관질환 진료여부 없음으로 나누어져 있습니다. 

 

 

 

판별분석

 

 

메뉴에서 분석 > 분류분석 > 판별분석을 클릭합니다.

 

 

집단변수에 STK를 넣고 범위지정을 0부터 1까지 해주었습니다.

 

독립변수로는 ANE와 IHD를 제외하고 다 넣었습니다.

 

 

통계량을 클릭하고 평균, 일변량분산분석, Box의 M, Fisher의 방법, 비표준화, 집단-내 상관행렬에 체크 표시합니다.

 

 

분류 옵션에서는 각 케이스에 대한 결과, 용약표, 결합-집단, 개별-집단, 영역도에 체크 표시합니다.

 

 

저장 옵션에서는 전부 다 체크 표시를 합니다.

 

최종적으로 확인을 누릅니다.

 

 

독립변수 별로 기술통계치를 확인합니다.

 

 

유의확률을 보면 모두 0.05보다 작습니다.

 

각 독립변수가 STK 값에 대해 유의미한 차이를 보입니다. 

 

 

저번과 동일한 문제가 생겼습니다. 

 

판별분석은 모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정을 필요로 합니다. 

 

유의확률이 0.05보다 작아 또 귀무가설을 기각하게 됩니다. 

 

이번 분석 역시 판별 분석을 이해하는 차원에서 계속 진행하겠습니다.

 

절대로 제대로된 통계 결과가 아니라는 것을 말씀드립니다.

 

 

고유값과 정준 상관계수가 높을수록 독립변수의 설명력이 높음을 의미합니다.

 

첫 번째 함수의 정준상관계수는 0.270입니다.

 

첫 번째 함수의 설명력은 0.270의 제곱인 0.0729, 즉 7.29%의 설명력을 갖습니다.

 

 

유의확률이 .05보다 모두 작아 STK 여부간 차이가 있습니다.

 

즉, 독립변수에 투입된 모든 변수들이 판별함수로 적합함을 나타냅니다.

 

 

종속변수 판별에 영향을 미치는 독립변수들의 상대적 중요도를 나타냅니다.

 

 

값이 클수록 판별함수에 영향력이 큰 변수입니다.

 

함수 1에서는 AGE_G가 가장 높게 나타났습니다.

 

 

판별함수 식을 세워보면

 

판별함수 Z1 = -0.055(SEX) + 0.143(AGE_G) - 0.054(HGB) - 0.007(TCHOL) + 0.001(TG) - 0.001(HDL) + 0.122입니다.

 

 

STK가 1에서 나타난 점수가 1.084입니다.

 

또한 위의 표에서 함수 1에서 가장 높게 나타난 판별계수를 찾아보면 AGE_G입니다. 

 

주된 특징은 연령이라고 말할 수 있습니다.

 

 

분류 정확도는 72.0%입니다.

 

2개 집단을 꽤 높은 수치로 정확하게 분류했다고 볼 수 있습니다.

 

 

 

결론 

 

모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정이 만족되지 않았기 때문에

 

제대로된 통계 결과를 낼 수는 없었습니다.

 

다만 다른 데이터에서는 가정을 만족하고 했다면 위와 같은 식으로 계속 해석을 진행해주시면 되겠습니다. 

댓글