공분산(covariance)은 2개의 확률변수의 상관정도를 나타내는 값이다. 이 변수들의 상관관계에 따라 양수값과, 음수값으로 표현이 가능하다. 그러나, 2개의 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다.
공분산의 식은 다음과 같이 나타낼 수 있다.
일때,
또한 이를 축약하여 로 나타내기도 한다.
상관계수(Correlation coefficient)는 두 변수의 관계, 특히 선형 관계를 확인할 때 사용할 수 있는 값이다. 상관분석에서 상관관계의 정도를 나타낼때 공분산은 부적절함로 상관계수를 사용한다.
상관계수의 식은 다음과 같이 나타낼 수 있다.
[예제 5. 23]
주어진 값을 이용하여, X와 Y의 상관계수를 구하라.
위에서 설명한 상관계수의 식에 주어진 값을 대입하면
답은 -0.448
[연습문제 5.14]
두 확률변수 X와 Y의 분산은 각각 V(X)=5, V(Y)=7이고 공분산이 Cov(X, Y)=3일때 V(X+Y)을 구하라.
두 확률변수 X와 Y의 합으로 정의되는 확률변수의 분산은 다음과 같다.
위 식에 주어진 값을 대입해보면
답은 18
[연습문제 5. 15]
확률변수 X와 Y의 결합확률분포표가 다음과 같다고 하자.
(1) X와 Y의 주변확률분포를 구하라.
(2) X와 Y는 독립인가?
주변 확률분포를 봣을때 P(X∩Y)=P(X)P(Y)가 성립하므로 X와 Y는 독립이다.
[연습문제 5. 16]
3개의 푸른 공, 2개의 붉은 공, 3개의 흰 공이 들어 있는 주머니에서 임의로 2개의 공을 뽑을때, X를 푸른 공의 개수, Y를 붉은 공의 개수라고 하자. 다음 물음에 답하여라
(1)(2) 두 확률변수 X와 Y의 결합확률분포표를 작성하라. 각 확률변수의 주변확률분포를 구하라.
(3) 공분산과 상관개수를 구하라.
위에서 설명한 식에 주어진 값을 대입해보면
공분산은 -0.161, 상관계수는 -0.448
(4) 두 확률변수는 독립인가?
주변 확률분포를 봣을때 P(X∩Y)=P(X)P(Y)가 성립하지 않으므로 독립이 아니다.
[연습문제 5. 18]
확률변수 X와 Y의 결합확률분포가 다음과 같다. 다음 물음에 답하라.
(1) 확률변수 X와 Y의 주변확률분포를 구하라.
(2) P(1≤X≤2, 6≤Y≤8)을 구하라.
P(1, 6) = 0.2, P(2, 8) = 0
P(1, 8) = 0, P(2, 8) = 0.2 이므로 모두 더하면
P(1≤X≤2, 6≤Y≤8) = 0.4 이다.
(3) 공분산과 상관계수를 구하라
위에서 설명한 식에 값들을 대입해보면
답은 공분산 0, 상관계수 0 이다.
(4) 두 확률변수는 독립인가?
주변 확률분포를 봣을때 P(X∩Y)=P(X)P(Y)가 성립하지 않으므로 독립이 아니다.