본문 바로가기
수리통계학/평균과 분산

확률변수 - 공분산

by 지식광부키우기 2019. 10. 4.

 

공분산

 

확률변수 $X$와 $Y$의 값이 확률적으로 어떻게 결합되어 있는가를 나타내는 지표입니다.

 

$X$와 $Y$를 결합확률분포 $f(x, y)$를 가지는 확률변수라고 할 때, $X$와 $Y$의 공분산(covariance)은 다음과 같습니다.

 

$Cov(X, Y) = \sigma_{XY} = E[(X - \mu_{X})(Y - \mu_{Y})] =$ 

$\sum_{x}\sum_{y}(x-\mu_{X})(y-\mu_{Y})f(x, y)$ (이산형)

$\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x - \mu_{X})(y-\mu_{Y})f(x, y) dxdy$ (연속형)

 

$X$ 값이 클 때 $Y$ 값이 크고, $X$ 값이 작을 때 $Y$ 값이 작으면 $(X - \mu_{X})(Y - \mu_{Y})$는 양의 값을 반대면 음의 값을 갖습니다.

 

$X$, $Y$가 통계적으로 독립이면 공분산은 0입니다. 역은 성립하지 않습니다. 

 

 

공분산 또 다른 정리

 

확률변수 $X$와 $Y$의 평균이 $\mu_{X}$와 $\mu_{Y}$이면, $X$와 $Y$의 공분산은 

 

$\sigma_{XY} = E(XY) - \mu_{X} \mu_{Y}$

 

증명) 이산형

 

$\sigma_{XY}$  

$= \sum_{x}\sum_{y}(x-\mu_{X})(y-\mu_{Y})f(x, y) $

 

$= \sum_{x}\sum_{y}(xy - \mu_{X} y - \mu_{Y} x + \mu_{X}\mu_{Y})f(x, y) $

 

$= \sum_{x}\sum_{y} xyf(x, y) - \mu_{X}\sum_{x}\sum_{y} yf(x, y) - \mu_{Y}\sum_{x}\sum_{y} xf(x, y) +  \mu_{X}\mu_{Y}\sum_{x}\sum_{y} f(x, y) $

 

$\mu_{X} =  \sum_{x}\sum_{y} xf(x, y), ~\mu_{Y} =  \sum_{x}\sum_{y} yf(x, y), ~\sum_{x}\sum_{y} f(x, y) = 1 $

 

 $\sigma_{XY} = E(XY) - \mu_{X}\mu_{Y} - \mu_{Y}\mu_{X} + \mu_{X}\mu_{Y} = E(XY) - \mu_{X}\mu_{Y}$

연속형의 경우에는 위의 합을 적분으로 바꿔주면 됩니다.

 

 

공분산 예시(연속형)

 

마라톤 코스를 완주한 남자의 비율 $X$와 여자의 비율 $Y$의 결합 확률분포는 다음과 같습니다. $X$와 $Y$의 공분산을 구하세요.

 

$f(x, y) = 8xy, ~ 0 \leq y \leq x \leq 1$, 그 외의 경우는 0

 

풀이)

 

주변 밀도 함수를 구하면

 

$g(x) = 4x^{3}, ~0 \leq x \leq 1$, 그 외의 경우는 0

 

$h(y) = 4y(1-y^{2}), ~0 \leq y \leq 1$, 그 외의 경우는 0입니다.

 

$g(x) = \int_{0}^{x} 8 xydy = [4xy^{2}]^{y=x}_{y=0} = 4x^{3}, ~0 \leq x \leq 1$

 

$h(y) = \int_{y}^{1} 8 xydx = [4x^{2} y]_{x = y}^{x = 1} = 4y(1-y^{2}), ~0 \leq y \leq 1$

 

$\mu_{X} = E(X) = \int_{0}^{1} 4x^{4} dx = \frac {4}{5}$ 

$\mu_{Y} = E(Y) = \int_{0}^{1} 4y^{2}(1-y^{2})dy = \frac {8}{15}$

 

$E(XY) = \int_{0}^{1}\int_{y}^{1} 8x^{2} y^{2} dxdy = \frac {4}{9}$

 

$\sigma_{XY} = E(XY) - \mu {X}\mu {Y} = \frac {4}{9} - \frac {4}{5} \cdot \frac {8}{15} = \frac {4}{225}$

 

 

상관계수

 

공분산은 두 확률변수 사이의 관련성을 나타내지만, $\sigma_{XY}$의 값은 $X$와 $Y$의 측정단위에 따라 달라집니다.

 

상관계수는 측정 단위와 무관합니다.

 

확률변수 $X$와 $Y$의 공분산이 $\sigma_{XY}$이고, 표준편차가 각각 $\sigma_{X}$, $\sigma_{Y}$라고 합니다.

$X$와 $Y$의 상관계수는 다음과 같습니다.

 

$\rho_{XY} = \frac {\sigma_{XY}}{\sigma {X} \sigma {Y}} = \frac {Cov(X, Y)}{\sqrt {Var(X)}\sqrt {Var(Y)}}$

 

$-1 \leq \rho_{XY} \leq 1$을 만족합니다. $\rho_{XY}$는 $X$와 $Y$의 단위와 무관합니다.

 

공분산 $\sigma_{XY}$가 0이면 상관계수의 값도 0입니다.

'수리통계학 > 평균과 분산' 카테고리의 다른 글

확률변수의 분산  (0) 2019.10.01
확률변수의 평균  (0) 2019.09.30

댓글