본문 바로가기

Studying/자연과학

수학 상식 : 표본의 평균, 분산과 표준편차

여기서는 집단이나 표본이 주어졌을 때, 이들을 대표하는 통계적 특징 중에서 가장 기본적인 평균 (average 또는 mean), 분산 (variance) 및 표준편차 (standard deviation)의 개념과 정의에 대해서 알아봅시다.

 

반응형

 

평균과 표준편차의 정의

평균에 대해서 간단히 말하자면, 주어진 집단에 소속된 멤버 중 하나를 무작위로 골라서 관심이 있는 변수의 값을 들여다봤을때 어느 정도를 기대해볼 수 있는지와 관련이 있습니다. 좀 더 구체적인 예시를 위해서 학교에 재학중인 학생들의 평균적인 학업성취도를 가늠하는 상황을 상정해 봅시다. 이를 정량적으로 살펴보는 방법이 바로 학생들의 시험 점수의 평균값을 구하는 것입니다. 산술 평균을 구하기 위해서는 모든 학생들의 점수를 더한 다음에 학생의 수로 나누면 되죠.

 

formulae for average, variance and standard deviation of a statistical variable of a given group

 

물론 시험 성적이 모든 실력을 반영하지는 못하지만, 수학이나 과학같은 과목은 정답과 오답이 정확하게 판가름나기 때문에 시험 점수로 학업성취도를 가늠하는 것은 나름 상식적인 접근이라고 생각됩니다. 다른 과목들의 경우에도, 중고등학교 교과과정에서는 일반적으로 시험 성적은 성실성과 비례하는 편입니다.

 

평균의 개념은 대학교 입시 결과에 대해 이야기할때에도 단골로 등장하죠. 입학생들의 평균 수능점수를 가지고 대학교 간의 서열을 매겨서 말싸움이 생기는 경우가 많습니다. 학교의 네임밸류가 있거나 유망한 학과일수록 입학하고자 하는 학생들이 많아서 경쟁이 치열하고, 그만큼 성적이 우수한 학생이 입시 관문을 통과하기 때문에 소위 말하는 입결의 차이가 발생하게 됩니다.

 

평균을 기준으로 변수의 값이 얼마나 폭넓게 분포되어 있는지를 수치화하기 위한 개념이 분산과 표준편차입니다. 평준화 지역의 인문계 일반고등학교의 경우, 평균 성적을 알고 있다고 해도 개별 학생들이 각 과목에서 얼마나 잘 하는지를 가늠하기는 매우 어렵습니다. 학생들의 스펙트럼이 다양하기 때문인데요. 인문, 사회계통의 과목을 잘하는 학생이 있는 반면에 수학, 과학에 타고난 학생도 있습니다. 골고루 다 잘하는 학생도 드물지만 존재하죠. 수학적으로 말하자면 성적의 편차가 크다는 것입니다.

 

분산과 표준편차가 작다면, 집단의 구성원들 대부분이 평균에 근접해 있을거라는 예상이 가능합니다. 예를 들어서 과학고등학교는 수학, 과학에 관심있고 잘하는 학생들만 모아놓은 학교죠. 그래서 이공계 과목들의 평균점수는 높은 반면에 표준편차가 작습니다.

 

앞에서는 집단의 모든 구성원들이 평등한 경우에 대해서 언급했습니다만, 멤버 별로 서로 다른 가중치를 부여해서 평균을 구하는 것도 가능한데요. 이를 두고 가중 평균 (weighted average)이라고 부릅니다. 대표적인 예시로서 무게중심 (center of mass)이 있죠. 여러 개의 물체로 이루어진 집합이 있을 때, 각 물체의 질량에 비례하는 가중치를 주고 평균 위치를 구한 것이라 할 수 있습니다.

 

여러 개의 물체가 포함된 동역학 물리 문제를 푸는데 있어서 무게중심의 개념을 상당히 유용하게 사용할 수 있습니다. 여기서 에너지, 운동량 및 각운동량의 개념이 들어가게 되는데, 이들에 대한 더 자세한 내용은 다음 포스팅에 소개되어 있습니다.

 

 

물리학 상식 : 에너지, 운동량과 각운동량

여기서는 물체의 운동을 수치화하는데 있어서 중요한 물리량들인 에너지 (energy), 운동량 (momentum) 및 각운동량 (angular momentum)에 대해 알아보도록 합시다. 이들은 고등학교 물리 교과과정에서부터

swstar.tistory.com

 

모집단과 표본

모집단의 구성원 수가 매우 많거나, 특정 확률분포를 따르는 변수를 가진 무한히 큰 모집단의 경우에는 전수조사를 통해서 통계적 특징을 파악하기 어렵습니다. 따라서 유한한 갯수의 표본을 통해서 추정을 해야 하는데요. 여기서 쟁점은 표본의 평균을 구했을 때, 그게 모집단의 확률분포가 가진 실제 평균과 얼마나 가까운가 하는 것입니다. 표본의 갯수가 많을수록 표본의 평균값이 실제 평균에 근접하리라는 예상을 할 수 있습니다.

 

예를 들어서 정육면체 주사위를 던져서 나오는 눈의 갯수의 평균값을 구해보면 3.5가 되죠. 1부터 6까지의 눈의 갯수가 나올 확률은 모두 1/6 (6분의 1)로 동일하기 때문입니다. 그런데 유한한 횟수만큼 주사위를 던져서 표본으로 나온 눈의 평균 갯수가 3.5가 된다는 보장은 없습니다. 일반적으로는 표본평균과 모집단의 평균이 다르죠. 그럼에도 불구하고 주사위를 던지는 횟수가 많아질수록 그 평균값이 3.5에 가까워지게 됩니다.

 

이를 정량적으로 살펴보는 방법으로는 표본평균의 분산과 표준편차를 계산한 뒤, 그게 표본의 갯수에 따라 어떻게 달라지는지를 보는 것이 있습니다.

 

formulae for the variance and standard deviation of the sample mean, written in terms of mean and variance of the underlying probability distribution

 

표본들의 변수 값이 서로 독립적이라는 가정 하에, 표본평균의 표준편차는 모집단의 표준편차에 비례하고 표본 갯수의 제곱근에 반비례한다는 사실을 알 수 있습니다. 앞서 언급한대로 표본이 많아질수록 표본평균이 모집단의 평균에 근접한다는 것입니다.

 

표본으로부터 모집단의 평균을 추정할 수 있다는 아이디어의 연장선상에서 분산과 표준편차에 대해서도 비슷한 방법을 쓸 수 있지 않을까 싶은데요. 다만 여기에 함정이 있습니다. 좀 더 구체적으로 말하자면, 분산을 구하기 위해서 평균을 알아야 하는데, 문제는 모집단의 평균값을 알 수 없으면 표본평균을 가져다 써야 한다는 것입니다.

 

이러한 난점을 타개하기 위해서는 표본으로부터 분산을 구할 때 특별한 보정을 해 줘야 합니다. 표본의 갯수가 N개인 경우, 표본평균으로부터 각 표본이 가진 편차의 제곱을 모두 더한 뒤에, 이를 N-1로 나눠주면 불편 추정치 (unbiased estimate)를 구할 수 있게 됩니다.

 

formulae for the unbiased estimate of sample variance and standard deviation. It is also shown that the expectation value of the unbiased variance is equal to that of the underlying probability.

 

모집단이 가진 확률 분포에 입각해서 불편 추정된 표본분산의 기대값을 구했을 때, 모집단의 분산과 동일하다는 것을 증명할 수 있습니다. 이를 두고 베셀 보정 (Bessel's correction)이라고 하며, 프리드리히 베셀 (Friedrich Bessel)에게서 그 이름을 따왔습니다.

 

크기가 매우 크거나 무한대인 모집단의 경우, 관심사가 되는 변수의 확률 분포나 확률밀도함수를 상정하면 모집단의 특징을 이해하기 쉬워집니다. 확률 분포나 확률밀도함수의 구체적인 개념과 평균, 분산 및 표준편차를 계산하는 방법에 대해 더 자세한 내용이 궁금하시다면 다음 포스팅을 참고하면 좋습니다.

 

 

수학 상식 : 확률 분포와 확률밀도함수

이번 포스팅에서는 여러 자연현상이나 사회현상들을 통계적으로 다루는 데 있어서 필수적인 개념인 확률 (probability) 분포와 확률밀도함수 (probability density function)에 대해 알아봅시다. 이에 덧붙

swstar.tistory.com

 

이번 포스팅에서는 하나의 변수에 대해서 다루었지만, 특정 모집단에 대해서 관심사가 되는 변수는 일반적으로 여러개가 있을 수 있죠. 이 때 서로 다른 변수들 간에 얼마나 밀접한 관련이 있는지에 대한 질문을 가질 수 있고, 상관계수를 통해 이를 수치화할 수 있습니다. 상관계수에 대한 더 자세한 내용은 다음 포스팅에 소개되어 있습니다.

 

 

수학 상식 : 변수들의 상관관계와 상관계수

이번 포스팅에서는 서로 다른 통계적 변수들 간의 상관관계를 수치화하기 위한 개념인 상관계수 (correlation coefficient)에 대해서 짚어봅시다. 여러 개의 서로 다른 변수를 가지는 표본 혹은 확률

swstar.tistory.com

 

표본의 갯수가 많아질수록 표본평균의 값이 모집단의 실제 평균값에 근접해서, 더 정확한 추정을 할 수 있다고 이야기했는데요. 표본의 갯수가 매우 많은 상황에서는 표본평균의 확률 분포를 특정할 수 있습니다. 중심 극한 정리에 따라 확률밀도함수의 형태를 알아낼 수 있는데, 다음 포스팅에 더 자세한 내용이 소개되어 있습니다.

 

 

수학 상식 : 표본평균의 중심 극한 정리

이번 포스팅에서는 모집단에서 유한한 갯수의 표본을 추출해서 평균값을 추정하는 상황에 대해 다뤄보겠습니다. 유한한 크기의 표준편차를 가지는 모집단이 있을 때, 표본평균의 값이 모집단

swstar.tistory.com