[판별분석] 국가건강검진 혈액검사데이터 SPSS 분석

안녕하세요. 인문계공돌이입니다.

오늘은 국가건강검진 혈액검사데이터 데이터를 가지고 판별분석을 해보겠습니다.

데이터

데이터는 국민건강보험에서 제공하는 혈액검사데이터입니다.

변수 설명입니다.

라이센스 및 다른 정보들은 위와 같습니다.

연구목적

연령, 성별, 혈색소, 총콜레스테롤, 중성지방, 콜레스테롤로 이루어진 독립변수와

뇌혈관질환 진료여부 종속변수와의 관계를 보려고 합니다.

종속변수는 뇌혈관질환 진료여부 있음, 뇌혈관질환 진료여부 없음으로 나누어져 있습니다.

판별분석

메뉴에서 분석 > 분류분석 > 판별분석을 클릭합니다.

집단변수에 STK를 넣고 범위지정을 0부터 1까지 해주었습니다.

독립변수로는 ANE와 IHD를 제외하고 다 넣었습니다.

통계량을 클릭하고 평균, 일변량분산분석, Box의 M, Fisher의 방법, 비표준화, 집단-내 상관행렬에 체크 표시합니다.

분류 옵션에서는 각 케이스에 대한 결과, 용약표, 결합-집단, 개별-집단, 영역도에 체크 표시합니다.

저장 옵션에서는 전부 다 체크 표시를 합니다.

최종적으로 확인을 누릅니다.

독립변수 별로 기술통계치를 확인합니다.

유의확률을 보면 모두 0.05보다 작습니다.

각 독립변수가 STK 값에 대해 유의미한 차이를 보입니다.

저번과 동일한 문제가 생겼습니다.

판별분석은 모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정을 필요로 합니다.

유의확률이 0.05보다 작아 또 귀무가설을 기각하게 됩니다.

이번 분석 역시 판별 분석을 이해하는 차원에서 계속 진행하겠습니다.

절대로 제대로된 통계 결과가 아니라는 것을 말씀드립니다.

고유값과 정준 상관계수가 높을수록 독립변수의 설명력이 높음을 의미합니다.

첫 번째 함수의 정준상관계수는 0.270입니다.

첫 번째 함수의 설명력은 0.270의 제곱인 0.0729, 즉 7.29%의 설명력을 갖습니다.

유의확률이 .05보다 모두 작아 STK 여부간 차이가 있습니다.

즉, 독립변수에 투입된 모든 변수들이 판별함수로 적합함을 나타냅니다.

종속변수 판별에 영향을 미치는 독립변수들의 상대적 중요도를 나타냅니다.

값이 클수록 판별함수에 영향력이 큰 변수입니다.

함수 1에서는 AGE_G가 가장 높게 나타났습니다.

판별함수 식을 세워보면

판별함수 Z1 = -0.055(SEX) + 0.143(AGE_G) - 0.054(HGB) - 0.007(TCHOL) + 0.001(TG) - 0.001(HDL) + 0.122입니다.

STK가 1에서 나타난 점수가 1.084입니다.

또한 위의 표에서 함수 1에서 가장 높게 나타난 판별계수를 찾아보면 AGE_G입니다.

주된 특징은 연령이라고 말할 수 있습니다.

분류 정확도는 72.0%입니다.

2개 집단을 꽤 높은 수치로 정확하게 분류했다고 볼 수 있습니다.

결론

모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정이 만족되지 않았기 때문에

제대로된 통계 결과를 낼 수는 없었습니다.

다만 다른 데이터에서는 가정을 만족하고 했다면 위와 같은 식으로 계속 해석을 진행해주시면 되겠습니다.

저작자표시

'SPSS' 카테고리의 다른 글

[카이제곱 검정] 국가건강검진 시력데이터 SPSS 분석 (0)	2021.07.13
[상관분석] 서울시 시내버스 노선별 일별 운행거리 SPSS 분석 (0)	2021.07.12
[판별분석] 국가건강검진 혈압혈당데이터 SPSS 분석 (0)	2021.07.10
[상관분석] 도로교통공단 일자별 시군구별 교통사고 건수 20191231 SPSS 분석 (0)	2021.07.06
[분산분석] 서울시 생필품 농수축산물 가격 정보 SPSS 분석 2 (0)	2021.07.05

인문계공돌이

[판별분석] 국가건강검진 혈액검사데이터 SPSS 분석

데이터

연구목적

판별분석

결론

'SPSS' 카테고리의 다른 글

댓글

티스토리툴바

[판별분석] 국가건강검진 혈액검사데이터 SPSS 분석

데이터

연구목적

판별분석

결론

'SPSS' 카테고리의 다른 글

관련글

댓글

티스토리툴바