이번 포스팅에서는 정규 분포 (normal distribution)의 개념과, 이를 수학적으로 나타내기 위한 가우스 함수 (Gaussian function)에 대해서 알아봅시다. 가우스 함수의 통계학적인 의미와 더불어, 누적분포함수와 특성함수가 어떤 형태를 가지는지에 대해서도 짚어보겠습니다.
가우스 함수의 수학적인 특징을 이해하기 위해서는 먼저 지수함수에 대해 알아야 합니다. 평균으로부터의 편차의 제곱이 자연지수 함수의 인자로 들어가는 형태를 띠고 있기 때문인데요. 지수함수의 정의와 특징에 대한 더 자세한 내용은 다음 포스팅에 소개되어 있습니다.
연속적인 값을 가질 수 있는 변수의 확률분포를 나타내는 확률밀도함수로부터 평균이나 표준편차 등을 구하는 방법에 대해서도 알아두면 좋습니다. 뿐만 아니라 확률밀도함수로부터 누적분포함수와 특성함수를 구하면, 모집단의 통계적인 특징을 이해하는데 한층 도움이 됩니다. 여기에 대해서는 다음 포스팅에 더 자세한 내용이 소개되어 있습니다.
정규 분포와 가우스 함수는 실무에서 광범위하게 사용되는 개념입니다. 어떤 변수가 특정한 평균값과 표준편차를 가지고 있다는 것은 알지만 구체적인 확률 분포를 모르는 경우, 가우스 함수를 확률밀도함수로 하는 정규분포를 상정하는 경우가 많습니다. 확률 분포뿐만 아니라 특정 지점 주변에 에너지나 전하량 등이 몰려있는 상황을 수치화하는데 있어서도 가우스 함수가 사용되는 경우가 많죠.
가우스 함수가 범용성을 가질 수 있는 이유 중 하나는 평균과 표준편차를 알면 그 형태를 완벽하게 특정할 수 있다는 점입니다. 뿐만 아니라 변수를 세번 이상 거듭제곱한 뒤에 그 평균을 구해도 유한한 값으로 수렴을 한다는 것 역시 계산을 편리하게 해 주는 요소입니다.
가우스 함수는 평균값에서 피크를 가지고 있고, 표준편차에 비례해서 넓게 퍼져있는 형태를 띠고 있습니다. 여기서는 단일한 변수를 가진 1차원 가우스 함수를 다루고 있습니다만, 고차원 공간에서 가우스 함수를 정의하는 것도 가능합니다. 예컨대 2차원 평면의 경우, 가로 x축 위의 가우스 함수와 세로 y축 위의 가우스 함수를 곱하면, 평면 상의 특정 지점에서 피크를 가진 2차원 가우스 함수가 완성됩니다.
가우스 함수를 적분하면 정규 분포의 누적분포함수를 얻을 수 있는데요. 이를 위해서는 컴퓨터나 계산기를 동원하여 수치적인 계산을 해 줘야 합니다. 또한 여기서 가우스 오차함수 (error function)이라는 것이 등장하고, erf로 표기하죠. 가우스 오차함수 역시 수학이나 통계학이 적용되는 분야에서 다양하게 사용됩니다.
누적분포함수를 계산하고나면, 표본을 추출했을 때 변수의 값이 특정 범위 내에 있을 확률을 알 수 있습니다. 정규 분포를 따르는 변수의 값이 평균으로부터 얼마나 얼마나 동떨어져 있는지를 따졌을 때, 그 크기가 표준편차에 비해 작을 확률은 대략 68%가 되겠습니다.
비슷한 논리에 따라서 표본과 평균의 차이가 표준편차의 2배보다 작을 확률은 95%에 달하고, 표준편차의 3배보다 작을 확률은 99%를 상회한다는 것을 알 수 있습니다. 극단적 아웃라이어를 두고 흔히 3시그마 밖이라는 표현을 쓰는데요. 이는 표본과 평균의 차이가 표준편차의 3배보다도 크다는 뜻이고, 그 확률은 0.3%보다도 작습니다.
모집단이 가진 변수에 대한 확률밀도함수가 주어졌을때, 푸리에 변환을 통해 특성함수를 얻을 수 있습니다. 가우스 함수의 특성함수는 컴퓨터나 계산기 없이 해석적으로 구할 수 있는데요. 가우스 함수의 푸리에 변환은 또 다른 가우스 함수에다가 삼각함수를 곱한 형태로 주어지게 됩니다.
변수의 거듭제곱의 기대값 혹은 평균을 구하는데 있어서 이 특성함수를 유용하게 사용할 수 있습니다. 이들을 확률 분포의 모멘트 (statistical moment)라고도 이야기하는데요. 정확히 말하자면, 거듭제곱의 횟수만큼 특성함수를 미분함으로써 거듭제곱의 기대값을 구할 수 있죠. 예를 들어서 변수의 제곱의 기대값은 평균의 제곱과 표준편차의 제곱을 더한것과 같고, 이는 분산과 표준편차를 계산하기 위한 공식과도 일맥상통합니다.
모집단으로부터 표본을 추출하여 평균을 추정하는 상황에서도 정규 분포와 가우스 함수가 중요한 의미를 가집니다. 표본의 갯수가 매우 많은 상황에서는 표본평균이 특정한 값을 가질 확률이 가우스 함수에 따라서 주어지는데요. 이를 중심 극한 정리라고도 하며, 다음 포스팅에 더 자세하게 소개되어 있습니다.
컴퓨터를 이용한 시뮬레이션을 할 때 정규 분포를 따르는 변수들의 표본을 추출해야 할 때가 있습니다. 기각 샘플링을 이용한 난수생성의 예시로서 다음 포스팅에 더 자세하게 소개되어 있습니다.