충분통계량 정의
모수 $$\theta$$를 갖는 분포에서 추출한 확률 표본 $X_1,... , X_n$에 대한 통계량
$Y = u(X_1,...,X_n)$이 주어질 때, $Y$의 가능한 어떠한 $y$값에 대해서도 $Y = y$일 때의
$X_1,..., X_n$에 대한 조건부 확률분포가 $\theta$와 무관하면 $Y$를 모수 $\theta$에 대한 충분 통계량이라 합니다.
쉽게 풀어쓰면 n개의 표본을 뽑는 대신 충분 통계량만으로도 모수 $\theta$에 대한 동일한 추론이 가능하다는 것입니다.
동전 던지기 예시 : 이산형
하나의 동전을 $n$번 던지는 실험에서 시행결과를 관측하는 것은 베르누이 분포에서 크기 $n$인 확률 표본으로
간주할 수 있고 한 번 던질 때 앞면이 나오는 확률 $p$를 추정하고 싶습니다. $n$번의 실행에서 앞면이 나오는 횟수
$Y = \sum X_i$는 $p$에 대한 충분통계량인가요?
풀이 :
$f_{X|Y}(x_1,..., x_n|y) = P(X_1=x_1,..., X_n = x_n | Y = y)$ $(y = \sum x_i일 때)$
$= \frac {P(X_1=x_1,..., X_n=x_n, Y=y)}{P(Y=y)}$
$= \frac{P(X_1=x_1, ..., X_n=x_n)}{P(Y=y)} $
$= \frac {\prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i}}{\binom {n}{y} p^y(1-p)^{n-y}} = \frac {1}{\binom {n}{y}}$
이 값은 $p$와 무관하므로 $Y$는 $p$에 대한 충분 통계량입니다.
연속형 확률변수
$P(X_1 \leq x_1,..., X_n\leq x_n | Y=y)$가 $\Theta$와 무관하면 $Y = u(X_1,..., X_n)$은 $\Theta$에 대한 충분 통계량입니다.
$X_1,..., X_n$과 $Y, Y_2,..., Y_n$이 일대일 대응관계일 때 $Y_2,..., Y_n | Y=y$의 분포가 $\theta$에 종속되어 있지 않으면
$Y, Y_2,..., Y_n | Y=y$의 분포도 $\theta$와 무관합니다. 이때 $X_1,..., X_n | Y=y$의 분포가 $\theta$와 무관하므로
$Y = u(X_1,..., X_n)$는 $\theta$에 대한 충분 통계량입니다.
정규분포 예시 : 연속형
평균이 $\theta$, 분산이 1인 정규분포에서 확률 표본 $X_{1}, X_{2}$을 추출하였습니다. $Y = X_{1} + X_{2}$는 $\theta$에 대한 충분 통계량인가요?
풀이 :
$Y = X_{1} + X_{2}$, $Y = X_{2} - X_{1}$이면 $(X_{1}, X_{2})$, $(Y, Y_{2})$는 일대일 대응입니다.
$f_{Y_{2} \mid Y} (y_{2} \mid y)$가 $\theta$에 종속되어 있지 않으면 $Y$는 $\theta$에 대한 충분 통계량입니다.
정규분포에서 적률 생성 함수는 다음과 같습니다.
$M_{X}(t) = exp(\mu t + \frac {1}{2}\sigma^{2} t^{2})$
문제에 적용하면
$M_{Y}(t) = E [e^{t(X_{1}+X_{2})}] = E(e^{tX_{1}})E(e^{tX_{2}}) = [exp(\theta t + \frac {1}{2} t^{2})]^{2} = exp(2\theta t + t^{2})$
$M_{Y_{2}}(t_{2}) = E [e^{t_{2}(X_{2}-X_{1})}] = E(e^{t_{2} X_{2}})E(e^{-t_{2} X_{1}}) = [exp(\theta t_{2} + \frac {1}{2} t_{2}^{2})] [exp(-\theta t_{2} + \frac{1}{2} t_{2}^{2})] = e^{t_{2}^{2}}$
$M_{YY_{2}} (t, t_{2})$
$= E [exp(t(X_{1} + X_{2}) + t_{2}(X_{2}-X_{1}))]$
$= E [exp((t-t_{2})X_{1}) + (t+t_{2})X_{2}]$
$= exp((t-t_{2})\theta + \frac {1}{2}(t-t_{2})^{2})exp((t+t_{2})\theta + \frac {1}{2}(t-t_{2})^{2})$
$= e^{2\theta t + t_{2}^{2}}e^{t_{2}^{2}}$
$= M_{Y}(t) M_{Y_{2}}(t^{2})$
$Y$, $Y_{2}$는 서로 독립입니다.
$f_{Y_{2} \mid Y} (y_{2} \mid y) = \frac {1}{\sqrt {2\pi}}\frac {1}{\sqrt {2}}exp(-\frac {1}{2}\frac {y_{2}^{2}}{2})$입니다.
$Y_{2} \mid Y$의 분포가 평균이 0, 표준편차가 2인 정규분포이므로, $\theta$와 무관합니다.
따라서 $Y = X_{1} + X_{2}$는 $\theta$에 대한 충분 통계량입니다.
유니와이즈 수리통계학의 내용을 바탕으로 요약 작성되었습니다.
댓글