공분산
확률변수 X와 Y의 값이 확률적으로 어떻게 결합되어 있는가를 나타내는 지표입니다.
X와 Y를 결합확률분포 f(x,y)를 가지는 확률변수라고 할 때, X와 Y의 공분산(covariance)은 다음과 같습니다.
Cov(X,Y)=σXY=E[(X−μX)(Y−μY)]=
∑x∑y(x−μX)(y−μY)f(x,y) (이산형)
∫∞−∞∫∞−∞(x−μX)(y−μY)f(x,y)dxdy (연속형)
X 값이 클 때 Y 값이 크고, X 값이 작을 때 Y 값이 작으면 (X−μX)(Y−μY)는 양의 값을 반대면 음의 값을 갖습니다.
X, Y가 통계적으로 독립이면 공분산은 0입니다. 역은 성립하지 않습니다.
공분산 또 다른 정리
확률변수 X와 Y의 평균이 μX와 μY이면, X와 Y의 공분산은
σXY=E(XY)−μXμY
증명) 이산형
σXY
=∑x∑y(x−μX)(y−μY)f(x,y)
=∑x∑y(xy−μXy−μYx+μXμY)f(x,y)
=∑x∑yxyf(x,y)−μX∑x∑yyf(x,y)−μY∑x∑yxf(x,y)+μXμY∑x∑yf(x,y)
μX=∑x∑yxf(x,y), μY=∑x∑yyf(x,y), ∑x∑yf(x,y)=1
σXY=E(XY)−μXμY−μYμX+μXμY=E(XY)−μXμY
연속형의 경우에는 위의 합을 적분으로 바꿔주면 됩니다.
공분산 예시(연속형)
마라톤 코스를 완주한 남자의 비율 X와 여자의 비율 Y의 결합 확률분포는 다음과 같습니다. X와 Y의 공분산을 구하세요.
f(x,y)=8xy, 0≤y≤x≤1, 그 외의 경우는 0
풀이)
주변 밀도 함수를 구하면
g(x)=4x3, 0≤x≤1, 그 외의 경우는 0
h(y)=4y(1−y2), 0≤y≤1, 그 외의 경우는 0입니다.
g(x)=∫x08xydy=[4xy2]y=xy=0=4x3, 0≤x≤1
h(y)=∫1y8xydx=[4x2y]x=1x=y=4y(1−y2), 0≤y≤1
μX=E(X)=∫104x4dx=45
μY=E(Y)=∫104y2(1−y2)dy=815
E(XY)=∫10∫1y8x2y2dxdy=49
σXY=E(XY)−μXμY=49−45⋅815=4225
상관계수
공분산은 두 확률변수 사이의 관련성을 나타내지만, σXY의 값은 X와 Y의 측정단위에 따라 달라집니다.
상관계수는 측정 단위와 무관합니다.
확률변수 X와 Y의 공분산이 σXY이고, 표준편차가 각각 σX, σY라고 합니다.
X와 Y의 상관계수는 다음과 같습니다.
ρXY=σXYσXσY=Cov(X,Y)√Var(X)√Var(Y)
−1≤ρXY≤1을 만족합니다. ρXY는 X와 Y의 단위와 무관합니다.
공분산 σXY가 0이면 상관계수의 값도 0입니다.
댓글