충분통계량 정의
모수 θ를 갖는 분포에서 추출한 확률 표본 X1,...,Xn에 대한 통계량
Y=u(X1,...,Xn)이 주어질 때, Y의 가능한 어떠한 y값에 대해서도 Y=y일 때의
X1,...,Xn에 대한 조건부 확률분포가 θ와 무관하면 Y를 모수 θ에 대한 충분 통계량이라 합니다.
쉽게 풀어쓰면 n개의 표본을 뽑는 대신 충분 통계량만으로도 모수 θ에 대한 동일한 추론이 가능하다는 것입니다.
동전 던지기 예시 : 이산형
하나의 동전을 n번 던지는 실험에서 시행결과를 관측하는 것은 베르누이 분포에서 크기 n인 확률 표본으로
간주할 수 있고 한 번 던질 때 앞면이 나오는 확률 p를 추정하고 싶습니다. n번의 실행에서 앞면이 나오는 횟수
Y=∑Xi는 p에 대한 충분통계량인가요?
풀이 :
fX|Y(x1,...,xn|y)=P(X1=x1,...,Xn=xn|Y=y) (y=∑xi일때)
=P(X1=x1,...,Xn=xn,Y=y)P(Y=y)
=P(X1=x1,...,Xn=xn)P(Y=y)
= \frac {\prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i}}{\binom {n}{y} p^y(1-p)^{n-y}} = \frac {1}{\binom {n}{y}}
이 값은 p와 무관하므로 Y는 p에 대한 충분 통계량입니다.
연속형 확률변수
P(X_1 \leq x_1,..., X_n\leq x_n | Y=y)가 \Theta와 무관하면 Y = u(X_1,..., X_n)은 \Theta에 대한 충분 통계량입니다.
X_1,..., X_n과 Y, Y_2,..., Y_n이 일대일 대응관계일 때 Y_2,..., Y_n | Y=y의 분포가 \theta에 종속되어 있지 않으면
Y, Y_2,..., Y_n | Y=y의 분포도 \theta와 무관합니다. 이때 X_1,..., X_n | Y=y의 분포가 \theta와 무관하므로
Y = u(X_1,..., X_n)는 \theta에 대한 충분 통계량입니다.
정규분포 예시 : 연속형
평균이 \theta, 분산이 1인 정규분포에서 확률 표본 X_{1}, X_{2}을 추출하였습니다. Y = X_{1} + X_{2}는 \theta에 대한 충분 통계량인가요?
풀이 :
Y = X_{1} + X_{2}, Y = X_{2} - X_{1}이면 (X_{1}, X_{2}), (Y, Y_{2})는 일대일 대응입니다.
f_{Y_{2} \mid Y} (y_{2} \mid y)가 \theta에 종속되어 있지 않으면 Y는 \theta에 대한 충분 통계량입니다.
정규분포에서 적률 생성 함수는 다음과 같습니다.
M_{X}(t) = exp(\mu t + \frac {1}{2}\sigma^{2} t^{2})
문제에 적용하면
M_{Y}(t) = E [e^{t(X_{1}+X_{2})}] = E(e^{tX_{1}})E(e^{tX_{2}}) = [exp(\theta t + \frac {1}{2} t^{2})]^{2} = exp(2\theta t + t^{2})
M_{Y_{2}}(t_{2}) = E [e^{t_{2}(X_{2}-X_{1})}] = E(e^{t_{2} X_{2}})E(e^{-t_{2} X_{1}}) = [exp(\theta t_{2} + \frac {1}{2} t_{2}^{2})] [exp(-\theta t_{2} + \frac{1}{2} t_{2}^{2})] = e^{t_{2}^{2}}
M_{YY_{2}} (t, t_{2})
= E [exp(t(X_{1} + X_{2}) + t_{2}(X_{2}-X_{1}))]
= E [exp((t-t_{2})X_{1}) + (t+t_{2})X_{2}]
= exp((t-t_{2})\theta + \frac {1}{2}(t-t_{2})^{2})exp((t+t_{2})\theta + \frac {1}{2}(t-t_{2})^{2})
= e^{2\theta t + t_{2}^{2}}e^{t_{2}^{2}}
= M_{Y}(t) M_{Y_{2}}(t^{2})
Y, Y_{2}는 서로 독립입니다.
f_{Y_{2} \mid Y} (y_{2} \mid y) = \frac {1}{\sqrt {2\pi}}\frac {1}{\sqrt {2}}exp(-\frac {1}{2}\frac {y_{2}^{2}}{2})입니다.
Y_{2} \mid Y의 분포가 평균이 0, 표준편차가 2인 정규분포이므로, \theta와 무관합니다.
따라서 Y = X_{1} + X_{2}는 \theta에 대한 충분 통계량입니다.
유니와이즈 수리통계학의 내용을 바탕으로 요약 작성되었습니다.
댓글