본 글은 연세대 응용통계학과 강승호 교수님의 의견(블로그)을 참고하여 요약하듯이 작성하였습니다.
중심 극한 정리
간략하게 설명하면 아래와 같습니다.
모평균이 \(\mu\)이고 유한한 모분산 \(\sigma^2\)인 모집단에서 무작위로 확률변수 \(X_1,X_2,,,X_n\)을 추출하였을 때, 표본의 크기가 커짐에 따라, 표본평균의 분포는 근사적으로 평균이 \(\mu\)이고 분산이 \(\sigma^2/n\)인 정규분포로 수렴한다.
여기서 중요한 사실은 “모집단의 분포에 상관없이” 중심극한정리가 성립한다는 사실입니다.
중심 극한 정리의 의미를 더 확실하게 이해하기위해 통계학적 관점의 흐름으로 설명하였습니다.
급하신 분들은 중심극한정리 파트만 읽으셔도 충분하지만, 글의 흐름을 따라가시면서 읽으시면 더욱 이해가 잘 되실겁니다!
통계학의 목적
우리는 모집단의 특성을 알고 싶어 하고, 모집단은 연구목적에 따라 매우 다양하게 달라집니다. 그리고 모집단의 특성을 설명하는 어떤 값(흔히 모수 (parameter)라고 부름)을 알고 싶어 하는데, 모집단에 속하는 모든 개체들을 다 조사하는 전수조사를 한다면, 우리는 그 값을 알 수 있을 것입니다.
하지만 대부분의 경우, 전수조사는 시간과 비용이 너무 많이 들고 경우에 따라서는 전수조사가 불가능한 경우도 있습니다. 그래서 전수조사 대신, 모집단의 특성을 잘 대표하는 표본을 뽑아서 그 표본만을 조사하게 됩니다.
통계학이란 한 마디로 표현하면, 모집단의 특성을 잘 대표하는 표본을 뽑아서 그 표본에 있는 제한된 정보를 이용하여 미지의 값인 모집단의 특성인 모수들에 대하여 통계적 추론을 하고자 하는 학문입니다.
표본평균의 분포
하지만 문제는 표본 평균의 분포가 정규분포를 따르는 것을 어떻게 알 수 있느냐는 것입니다. 표본 평균이란 \((X_1+X_2+...+X_n)/n\) 입니다. 그러므로 각각의 \(X_1, X_2\)의 분포가 무엇이냐에 따라, 표본 평균의 분포는 달라지게 됩니다.
통계학에서는 임의 표본만을 다룹니다. 임의 표본이란 \(X_1, X_2,,,,X_n\)이 서로 독립이고 동일 분포를 따른다는 것, 즉 \(X_1, X_2,,,,X_n\)의 분포들이 모두 동일하므로, \(X_1\) 하나의 분포만을 생각해봅시다. \(X_1\)이란 모집단에서 임의로 추출되는 것이므로, \(X_1\)의 분포란 바로 모집단의 분포입니다. 이 점을 설명하기 위하여 \(X_1\)의 분포가 연속형인 경우와 이산형인 경우로 나누어서 생각해보겠습니다.
이산형인 경우에는 자료가 생성된 “상황”을 고려해보면, X1의 분포를 대체로 쉽게 알 수 있습니다. \(X_1\)이 동전을 던지는 것처럼 둘 중의 하나의 값만을 갖는 실험을 하는 상황이라면, \(X_1\)은 시행 횟수가 1인 이항 분포를 따릅니다. 그리고 만일 동전을 던져서 처음으로 앞면이 나올 때까지 뒷면이 나온 횟수가 \(X_1\)인 경우에는 \(X_1\)의 분포는 기하 분포를 따릅니다. 이렇게 \(X_1,X_2,,,,X_n\) 각각의 분포를 아는 경우, 표본 평균의 분포는 경우마다 달라지지만, 비교적 쉬운 경우도 있고, 수리적으로 아주 복잡하여 아주 알기 어려운 경우도 있게 됩니다.
반면에 연속형인 경우에는 자료가 생성된 “상황”만을 가지고, \(X_1\)의 분포를 아는 것이 쉽지 않습니다. 예를 들어 모집단에서 임의로 한 사람을 뽑아 측정한 혈압을 \(X_1\)이라고 한다면, \(X_1\)의 분포는 무엇일까요? 모집단에 고혈압인 사람이 많다면 \(X_1\)의 값이 큰 값을 가질 가능성이 많을 것입니다. 반면에 모집단에 혈압이 정상인 사람이 대부분이라면 \(X_1\)의 값은 그 정상 범위 안에 있을 가능성이 높을 것입니다. 그럼에도 불구하고 X1의 분포가 무엇인지 (즉 정규분포인지, 코쉬분포인지.. ) 명확하게 알기는 어렵습니다.
그 이유는 자명합니다. 모집단을 모두 조사해보아야만 그 분포를 알 수 있는데, 우리는 모집단을 모두 조사하는 전수조사는 시간과 비용의 문제 때문에 하지 않고, 대신 표본조사만을 하고 있기 때문입니다. 그래서 표본조사만으로는 \(X_1\)의 분포 (즉 모집단의 분포)를 알기 어렵습니다.
어떤 사람들은 100명의 표본을 뽑은 경우, 그 100명의 혈압을 히스토그램을 그려보고, 그 히스토그램이 대칭의 종모양이면, \(X_1\)의 분포가 정규분포라고 생각할 수 있지 않으냐고 말할지도 모르겠습니다. 하지만 통계학에서 대칭인 종모양의 분포는 정규분포 말고도, t 분포, 코쉬분포 등 매우 다양하므로 히스토그램만으로 \(X_1\)의 분포 (즉 모집단의 분포)를 정확하게 알 수는 없습니다. 그리고 만일 히스토그램이 종모양이 아니면 (비대칭이거나 봉오리가 두 개이거나), \(X_1\)의 분포가 정규분포가 아님은 더욱 분명해지는데, 그때 \(X_1\)의 분포가 무엇인지는 더욱 알 길이 없어집니다. \(X_1\)의 분포를 알지 못하므로, 표본 평균인 \((X_1+X_2+...+X_n)/n\)의 분포는 더욱 알 수 없게 됩니다.
이상을 정리하면 표본 평균의 분포는 알기가 어려운데, 그 이유는 표본 평균의 분포가 모집단의 분포 (즉 X1의 분포)에 의존하기 때문입니다. 그래서 표본평균의 분포를 모르니, 미지인 모평균에 대한 95% 신뢰구간을 구하는 일이 거의 불가능한 일이 되어버립니다. 그런데 이런 불가능한 일이 중심 극한 정리에 의하여 가능한 일로 바뀌게 되고, 그래서 중심 극한 정리가 중요하게 되는 것입니다.
중심 극한 정리
중심 극한 정리의 내용은 다음과 같습니다.
모평균이 \(\mu\)이고 유한한 모분산 \(\sigma^2\)인 모집단에서 무작위로 확률변수 \(X_1,X_2,,,X_n\)을 추출하였을 때, 표본의 크기(n)가 커짐에 따라, 표본 평균의 분포는 근사적으로 평균이 \(\mu\)이고 분산이 \(\sigma^2/n\)인 정규분포로 수렴한다.
여기서 중요한 사실은 “모집단의 분포에 상관없이” 중심 극한 정리가 성립한다는 사실입니다.
즉 중심 극한 정리에 필요한 조건들을 살펴보면,
- 모분산 \(\sigma^2\)이 유한해야 함 (이 조건은 확인할 길이 없지만 이론적으로 대부분의 분포에서 분산이 유한하므로 그냥 사실이라고 가정)
- 표본을 무작위로 추출해야 함 (즉, \(X_1,X_2,,,X_n\)은 독립이고 동일 분포를 따른다. 다시 말하면 표본은 임의 표본)
- 표본크기가 충분히 커야 한다는 것
이 조건들만 만족되면 “모집단의 분포에 상관없이” 표본 평균의 분포가 근사적으로 평균이 \(\mu\)이고 분산이 \(\sigma^2/n\)인 정규분포로 수렴한다는 것입니다.
결국 모집단 분포의 특성 중에 결과에 영향을 미치는 것은 오직 모평균 \(\mu\)와 모분산 \(\sigma^2\)만이며, 그 외 모집단의 분포의 다른 특징 (예를 들면, 대칭인지 아닌지 등의 여부)는 결과에 영향을 미치지 않음을 알 수 있습니다.
주의할 점
다음과 같이 중심 극한 정리를 이해했다면 다시 이해할 필요가 있다고 할 수 있습니다.
“모평균이 \(\mu\)이고 유한한 모분산 \(\sigma^2\)인 모집단에서 무작위로 확률변수 \(X_1,X_2,,,X_n\)을 추출하였을 때, 표본의 크기가 커짐에 따라, 표본의 분포는 근사적으로 평균이 \(\mu\)이고 분산이 \(\sigma^2/n\)인 정규분포로 수렴한다.”
그 이유로는 “표본 평균의 분포”라고 말하지 않고, “표본의 분포”라고 말했기 때문입니다.
이 둘은 전혀 다른 것입니다.
“표본의 분포”란 말 그대로 모집단에서 추출된 표본을 히스토그램을 그려보면, 그 히스토그램이 바로 “표본의 분포”라고 말할 수 있습니다.
반면에 “표본 평균의 분포”란 100명의 표본 추출을 500번 반복한다고 가정하면 각 시행에서 100명의 표본의 평균을 구해 500개의 표본 평균값을 얻게 되는 겁니다. 이 500개의 표본 평균값들을 히스토그램을 그리면, 이 히스토그램을 “표본 평균의 분포”라고 말할 수 있습니다. 이렇게 얻어진 히스토그램이 근사적으로 정규분포에 가까워진다는 것이 바로 중심 극한 정리의 내용입니다. 확실하게 짚고 넘어가시길 바랍니다!
Reference
https://blog.naver.com/exactmehta/80143457287
댓글