안녕하세요. 인문계공돌이입니다.
오늘은 국가건강검진 혈액검사데이터 데이터를 가지고 판별분석을 해보겠습니다.
데이터
데이터는 국민건강보험에서 제공하는 혈액검사데이터입니다.
변수 설명입니다.
라이센스 및 다른 정보들은 위와 같습니다.
연구목적
연령, 성별, 혈색소, 총콜레스테롤, 중성지방, 콜레스테롤로 이루어진 독립변수와
뇌혈관질환 진료여부 종속변수와의 관계를 보려고 합니다.
종속변수는 뇌혈관질환 진료여부 있음, 뇌혈관질환 진료여부 없음으로 나누어져 있습니다.
판별분석
메뉴에서 분석 > 분류분석 > 판별분석을 클릭합니다.
집단변수에 STK를 넣고 범위지정을 0부터 1까지 해주었습니다.
독립변수로는 ANE와 IHD를 제외하고 다 넣었습니다.
통계량을 클릭하고 평균, 일변량분산분석, Box의 M, Fisher의 방법, 비표준화, 집단-내 상관행렬에 체크 표시합니다.
분류 옵션에서는 각 케이스에 대한 결과, 용약표, 결합-집단, 개별-집단, 영역도에 체크 표시합니다.
저장 옵션에서는 전부 다 체크 표시를 합니다.
최종적으로 확인을 누릅니다.
독립변수 별로 기술통계치를 확인합니다.
유의확률을 보면 모두 0.05보다 작습니다.
각 독립변수가 STK 값에 대해 유의미한 차이를 보입니다.
저번과 동일한 문제가 생겼습니다.
판별분석은 모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정을 필요로 합니다.
유의확률이 0.05보다 작아 또 귀무가설을 기각하게 됩니다.
이번 분석 역시 판별 분석을 이해하는 차원에서 계속 진행하겠습니다.
절대로 제대로된 통계 결과가 아니라는 것을 말씀드립니다.
고유값과 정준 상관계수가 높을수록 독립변수의 설명력이 높음을 의미합니다.
첫 번째 함수의 정준상관계수는 0.270입니다.
첫 번째 함수의 설명력은 0.270의 제곱인 0.0729, 즉 7.29%의 설명력을 갖습니다.
유의확률이 .05보다 모두 작아 STK 여부간 차이가 있습니다.
즉, 독립변수에 투입된 모든 변수들이 판별함수로 적합함을 나타냅니다.
종속변수 판별에 영향을 미치는 독립변수들의 상대적 중요도를 나타냅니다.
값이 클수록 판별함수에 영향력이 큰 변수입니다.
함수 1에서는 AGE_G가 가장 높게 나타났습니다.
판별함수 식을 세워보면
판별함수 Z1 = -0.055(SEX) + 0.143(AGE_G) - 0.054(HGB) - 0.007(TCHOL) + 0.001(TG) - 0.001(HDL) + 0.122입니다.
STK가 1에서 나타난 점수가 1.084입니다.
또한 위의 표에서 함수 1에서 가장 높게 나타난 판별계수를 찾아보면 AGE_G입니다.
주된 특징은 연령이라고 말할 수 있습니다.
분류 정확도는 72.0%입니다.
2개 집단을 꽤 높은 수치로 정확하게 분류했다고 볼 수 있습니다.
결론
모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정이 만족되지 않았기 때문에
제대로된 통계 결과를 낼 수는 없었습니다.
다만 다른 데이터에서는 가정을 만족하고 했다면 위와 같은 식으로 계속 해석을 진행해주시면 되겠습니다.
'SPSS' 카테고리의 다른 글
[카이제곱 검정] 국가건강검진 시력데이터 SPSS 분석 (0) | 2021.07.13 |
---|---|
[상관분석] 서울시 시내버스 노선별 일별 운행거리 SPSS 분석 (0) | 2021.07.12 |
[판별분석] 국가건강검진 혈압혈당데이터 SPSS 분석 (0) | 2021.07.10 |
[상관분석] 도로교통공단 일자별 시군구별 교통사고 건수 20191231 SPSS 분석 (0) | 2021.07.06 |
[분산분석] 서울시 생필품 농수축산물 가격 정보 SPSS 분석 2 (0) | 2021.07.05 |
댓글