안녕하세요. 인문계공돌이입니다.
오늘은 국가건강검진 혈압혈당데이터 데이터를 가지고 판별분석을 해보겠습니다.
데이터
데이터는 국민건강보험에서 제공하는 혈압혈당데이터입니다.
변수 설명입니다.
라이센스 및 다른 정보들은 위와 같습니다.
연구목적
연령, 성별, 수축기혈압, 이완기혈압, 공복혈당으로 이루어진 독립변수와
고혈압/당뇨병 진료내역 종속변수와의 관계를 보려고 합니다.
종속변수는 고혈압/당뇨병 진료내역 있음, 고혈압 진료내역 있음, 당뇨병 진료내역 있음, 고혈압/당뇨병 진료내역 없음으로 나누어져 있습니다.
판별분석
메뉴에서 분석 > 분류분석 > 판별분석을 클릭합니다.
집단변수에 DIS를 넣고 범위지정을 1부터 4까지 해주었습니다.
독립변수로는 나머지를 다 넣었습니다.
통계량을 클릭하고 평균, 일변량분산분석, Box의 M, Fisher의 방법, 비표준화, 집단-내 상관행렬에 체크 표시합니다.
분류 옵션에서는 각 케이스에 대한 결과, 용약표, 결합-집단, 개별-집단, 영역도에 체크 표시합니다.
저장 옵션에서는 전부 다 체크 표시를 합니다.
최종적으로 확인을 누르면
전체 데이터 개수가 100만 개이기 때문에 출력 결과에 시간이 걸립니다.
집단 통계량은 종속변수의 집단별 독립변수의 기술통계치를 나타냅니다.
유의확률을 보면 모두 0.05보다 작으므로 각 독립변수가 DIS별로 유의미한 차이를 보입니다.
여기서 문제가 하나 생겼습니다.
판별분석은 모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정을 필요로 합니다.
그러나 현재 검정 결과 표에서는 유의확률이 0.05보다 작아 귀무가설을 기각하게 됩니다.
이 가정은 매우 중요하므로 이 이후의 해석은 연습용 즉, 판별 분석을 이해하는 차원에서 계속 보고자 해서 계속 진행하는 것이지
절대로 제대로된 통계 결과가 아니라는 것을 말씀드립니다.
고유값과 정준 상관계수가 높을수록 독립변수의 설명력이 높음을 의미합니다.
첫 번째 함수의 정준상관계수는 0.588입니다.
첫 번째 함수의 설명력은 0.588의 제곱인 0.345744, 즉 34.5744%의 설명력을 갖습니다.
두 번째 함수의 설명력은 12%, 세 번째 함수의 설명력은 0.1681%입니다.
유의확률이 .05보다 모두 작아 집단간 차이가 있습니다.
즉, 독립변수에 투입된 모든 변수들이 판별함수로 적합함을 나타냅니다.
종속변수 판별에 영향을 미치는 독립변수들의 상대적 중요도를 나타냅니다.
값이 클수록 판별함수에 영향력이 큰 변수입니다.
함수 1에서는 BTH_G가 가장 높게, 함수 2에서는 FBS가 가장 높게, 함수 3에서는 SPB가 가장 높게 나타났습니다.
예를 들어 판별함수 식을 세워보면
판별함수 Z1 = .102(SEX) + .108(BTH_G) + .019(SBP) - .009(DBP) + .029(FBS) + .048(BMI) -7.277입니다.
DIS가 1인 집단에서는 가장 높게 나타난 점수가 1.889입니다. 즉, 함수 1의 특징이 두드러집니다.
위의 표에서 함수 1에서 가장 높게 나타난 판별계수를 찾아보면 BTH_G입니다.
DIS가 1인 집단에게 나타나는 주된 특징은 연령이라고 말할 수 있습니다.
분류결과는 나의 데이터에서 실제 소속집단과 판별함수에 의한 예측 소속집단간의 교차표입니다.
분류 정확도는 69.2%인데 4개 집단을 꽤 높은 수치로 정확하게 분류했다고 볼 수 있습니다.
결론
모집단간 양적 독립변수의 등분산이 가정되어야 하는 가정이 만족되지 않았기 때문에
제대로된 통계 결과를 낼 수는 없었습니다.
다만 다른 데이터에서는 가정을 만족하고 했다면 위와 같은 식으로 계속 해석을 진행해주시면 되겠습니다.
'SPSS' 카테고리의 다른 글
[상관분석] 서울시 시내버스 노선별 일별 운행거리 SPSS 분석 (0) | 2021.07.12 |
---|---|
[판별분석] 국가건강검진 혈액검사데이터 SPSS 분석 (0) | 2021.07.11 |
[상관분석] 도로교통공단 일자별 시군구별 교통사고 건수 20191231 SPSS 분석 (0) | 2021.07.06 |
[분산분석] 서울시 생필품 농수축산물 가격 정보 SPSS 분석 2 (0) | 2021.07.05 |
[분산분석] 서울시 생필품 농수축산물 가격 정보 SPSS 분석 (0) | 2021.07.04 |
댓글