베이즈 방법
모수를 확률변수로 다루는 방법입니다.
기존의 전통적 방법은 확률 표본의 정보만 이용했지만 베이즈 방법은 다릅니다.
$\theta$ : 모수 (값)
$\Theta$ : 모수 (확률변수)
$\Theta$의 확률분포 $\pi(\theta)$(사전분포, prior distribution) $\theta$의 값이 어느 정도 되는지를 알고 있는 상황입니다.
크기 n인 확률표본을 $x = (x_{1}, x_{2},..., x_{n})$과 같이 나타내고, 모수 $\theta$에 대해 표본의 표본 분포를
$f(x \mid \theta)$로 나타냅니다.
베이즈 정리
$P(A \mid B) = \frac{P(B\mid A) P(A)}{P(B)}$
정의
자료 $x$가 주어질 경우 $\theta$의 분포(사후 분포, posterior distribution)는
$\pi(\theta\mid x) = \frac {f(x \mid \theta) \pi(\theta)}{g(x)}$ ($g(x)$는 $x$의 주변 분포)로 주어집니다.
주변분포
이산형의 경우 $g(x) = \sum_{\theta} f(x \mid \theta)\pi(\theta)$
연속형의 경우 $g(x) = \int_{-\infty}^{\infty} f(x \mid \theta)\pi(\theta) d\theta$
$\theta$에 대해 관측된 자료와 이전의 지식이 사후 분포 $\pi(\theta \mid x)에 포함됩니다.
예시
불량률의 사전 분포는 다음과 같습니다.
p | 0.1 | 0.2 |
$\pi(p)$ | 0.6 | 0.4 |
$x$를 크기 2인 확률 표본 중 불량품의 수라고 할 때, $x$가 관측된 후 $p$의 사후 분포를 구해보세요.
풀이
확률변수 $X$는 이항 분포를 따릅니다.
$f(x \mid p) = b(x; 2, p) = \begin {pmatrix}
2\\x
\end {pmatrix} p^{x} q^{2-x}, x= 0, 1, 2$
x의 주변푼포는
$g(x) = f(x\mid 0.1)\pi(0.1) + f(x \mid 0.2)\pi(0.2)$
$= \begin {pmatrix}
2\\x
\end {pmatrix}((0.1)^{x}(0.9)^{2-x}(0.6) + (0.2)^{x}(0.8)^{2-x}(0.4))$입니다.
x가 주어질 경우 $p = 0.1$. $p = 0.2$에 대한 사후 확률은 다음과 같습니다.
$\pi(0.1 \mid x) = \frac {f(x \mid 0.1) \pi(0.1)}{g(x)}$
$= \frac{(0.1)^{x}(0.9)^{2-x}(0.6)}{(0.1)^{x}(0.9)^{2-x}(0.6) + (0.2)^{x}(0.8)^{2-x}(0.4)}$
$\pi(0.2 \mid x) = 1 - \pi(0.1 \mid x)$
x = 0의 경우
$\pi(0.1 \mid 0) = \frac{(0.1)^{0}(0.9)^{2-0}(0.6)}{(0.1)^{0}(0.9)^{2-0}(0.6) + (0.2)^{0}(0.8)^{2-0}(0.4)} = 0.6550$
$\pi(0.2 \mid 0) = 0.3450$
x = 1의 경우
$\pi(0.1 \mid 1) = 0.4576$, $\pi(0.2 \mid 1) = 0.5424$
x = 2의 경우
$\pi(0.1 \mid 2) = 0.2727$, $\pi(0.2 \mid 2) = 0.7273$
베이즈 추정 방법까지 다루게 되면 포스팅이 엄청 길어지고
어려울 수 있으므로 다음 시간에 다루도록 하겠습니다. 감사합니다.
댓글