본문 바로가기

Studying/자연과학

수학 상식 : 변수들의 상관관계와 상관계수

이번 포스팅에서는 서로 다른 통계적 변수들 간의 상관관계를 수치화하기 위한 개념인 상관계수 (correlation coefficient)에 대해서 짚어봅시다. 여러 개의 서로 다른 변수를 가지는 표본 혹은 확률 분포가 주어졌을 때, 상관계수를 살펴보면 이 변수들 사이에 어떠한 연관성이 있는지를 추산할 수 있게 됩니다.

 

반응형

 

상관계수를 계산하기 위해서는 관심사가 되는 변수들의 평균과 표준편차들을 먼저 계산해야 하는데요. 이러한 개념이 생소하게 느껴지신다면 시작하기에 앞서서 다음 포스팅을 읽어보시면 큰 도움이 되리라 생각합니다.

 

 

수학 상식 : 표본의 평균, 분산과 표준편차

여기서는 집단이나 표본이 주어졌을 때, 이들을 대표하는 통계적 특징 중에서 가장 기본적인 평균 (average 또는 mean), 분산 (variance) 및 표준편차 (standard deviation)의 개념과 정의에 대해서 알아봅시

swstar.tistory.com

 

구성원의 수가 매우 많거나 크기가 무한대인 모집단을 다룰 때, 변수의 확률 분포나 확률밀도함수를 통해 통계적인 특징을 살펴볼 수 있습니다. 여기에 대해서는 다음 포스팅에 더 자세한 내용이 소개되어 있습니다.

 

 

수학 상식 : 확률 분포와 확률밀도함수

이번 포스팅에서는 여러 자연현상이나 사회현상들을 통계적으로 다루는 데 있어서 필수적인 개념인 확률 (probability) 분포와 확률밀도함수 (probability density function)에 대해 알아봅시다. 이에 덧붙

swstar.tistory.com

 

구체적인 예시와 함께 이야기를 시작해볼까 합니다. 중고등학교 교과과정에는 여러 과목들이 있지만, 수학과 과학의 학업성취도 간에는 유의미한 상관관계가 있다는 인식이 널리 퍼져 있죠. 다시 말해서 어떤 학생의 수학 점수가 높다면, 아마도 과학 점수 역시 높지 않을까 하고 생각하게 되는 겁니다. 제 학창시절의 경험을 떠올려 봐도, 수학과 과학 중 하나만 잘하고 다른 건 못하는 친구는 거의 없었던 것 같습니다.

 

이렇게 서로 다른 과목의 학업성취도 간의 상관관계를 수치화하고, 이를 체계적으로 다루기 위한 개념으로 상관계수가 있습니다. 예를 들면 한 학교나 전국의 중고등학생들을 표본으로 하고, 수학 점수와 과학 점수를 변수로 해서 상관계수를 계산하는 것인데요. 상관계수의 값에 따라서 서로 다른 변수들이 얼마나 밀접한 관련이 있는지를 추산할 수 있게 되겠습니다.

 

formulae for mean, standard deviation and correlation coefficient, in terms of the probability distribution of two statistical variables

 

두 변수의 확률 분포나 확률밀도함수를 이용해서 상관계수를 구할 수 있습니다. 이 때 각 변수의 평균과 표준편차들을 먼저 계산해야 할 필요가 있고, 그 다음 상관계수를 구할 수 있게 됩니다. 앞에서 예시로 언급한 전국 중고등학생의 수학, 과학 점수의 경우 모집단의 크기가 유한합니다만, 각 과목에서 특정 점수를 받은 학생의 숫자에 비례해서 확률 분포를 상정하면 문제가 없습니다.

 

이렇게 구해진 상관계수는 칼 피어슨 (Karl Pearson)의 이름을 따서 피어슨 상관계수라고도 부릅니다. 다만 이 수학적 아이디어를 처음 고안한 사람들은 피어슨이 아닌 프랜시스 골턴 (Francis Galton)과 오구스트 브라베 (Auguste Bravais)라는 비하인드 스토리가 있다고 하는군요.

 

이렇게 구해진 상관계수는 -1 에서 1 사이의 값을 갖게 되는데요. 이 값이 0보다 크다면, 양의 상관관계가 있다고 말할 수 있습니다. 이말인즉슨 두 변수 중 하나가 높으면 다른 변수 역시 높다고 기대할 수 있다는 뜻이죠. 반면에 상관계수가 0보다 작다면, 두 변수 중 하나가 높으면 다른 하나는 낮을 가능성이 커지게 되겠습니다.

 

가장 극단적인 경우로서, 두 개의 변수 사이에 선형관계가 성립할 때 상관계수가 어떻게 주어지는지를 따져볼 수 있습니다. 두 변수 XY사이에 Y=aX+b 가 성립하면, 상수 a가 양수일때 상관계수는 1이 되고 a가 음수이면 상관계수는 -1이 됩니다. 다시 말해서 두 변수의 값을 x,y 좌표로 해서 2차원 평면 상에 찍었을 때, 표본들이 직선 상에 나열되어 있으면 상관계수가 1 또는 -1이 된다고 볼 수 있습니다. 반대로 표본들이 추세선 주변으로 넓게 퍼져 있을수록 상관계수는 0에 가까워지겠죠.

 

두 변수의 값이 독립적인 경우 상관계수는 0이 됩니다. 수학적으로 살펴보면, 두 변수의 확률 분포는 각 변수에 대한 확률 분포의 곱으로 나타나는 것과 관련이 있는데요. 예를 들면 두 개의 주사위를 던지는 상황이 있습니다. 주사위들이 서로 부딪히거나 하지 않는 이상, 첫번째와 두번째 주사위에서 각각 몇개의 눈이 나오는지는 서로 별개입니다. 정육면체 주사위를 던져서 서로 다른 갯수의 눈이 나올 확률은 6분의 1로 모두 동일하죠. 따라서 첫번째 주사위에서 3이 나오고 두번째 주사위에서 5가 나올 확률은 36분의 1이 되고, 이는 모든 조합에 대해서 동일합니다.