통계 책을 보다 보면 늘 등장하는 공식이 있습니다.
s2=n−11i=1∑n(Xi−Xˉ)2
"도대체 왜 n이 아니라 n-1로 나누는가?"
이 글은 이 질문을 비편향(unbiased) 관점에서 정리하는 메모입니다.
상황 설정:
- 모집단: 확률변수 X
- 평균: E[X]=μ
- 분산: Var(X)=σ2
- 표본: X1,…,Xn (i.i.d.)
우리가 하고 싶은 일은 간단합니다.
표본으로부터 "모분산 σ2"를 추정하는 좋은 추정량을 만들고 싶다.
여기서 "좋다"는 기준 중 하나가 바로 비편향(unbiased) 입니다.
- 추정량 σ^2 가 비편향이라는 말은
E[σ^2]=σ2
즉, 기댓값 기준으로 평균적으로는 맞게 추정한다는 뜻입니다.
핵심은 모평균 μ를 알고 있느냐, 모르느냐입니다.
이론적인 상황입니다.
이때 자연스러운 분산 추정량은:
σ^c2=ci=1∑n(Xi−μ)2
여기서 c는 아직 정하지 않은 상수입니다.
이 추정량이 비편향이 되려면:
E[σ^c2]=σ2
이 되어야 합니다.
계산:
E[i=1∑n(Xi−μ)2]=i=1∑nE[(Xi−μ)2]=nσ2
따라서
E[σ^c2]=c⋅nσ2
이게 σ2 와 같으려면:
c⋅nσ2=σ2⇒c=n1
즉,
σ^2=n1i=1∑n(Xi−μ)2
는 모평균을 알고 있을 때의 비편향 분산 추정량입니다.
여기서는 분모가 n 이 맞습니다.
현실에서는 대부분 이 케이스입니다.
모평균 μ 대신 표본평균
Xˉ=n1i=1∑nXi
을 쓰게 됩니다. 이때 자연스러운 형태는:
sc2=ci=1∑n(Xi−Xˉ)2
역시 비편향을 요구합니다.
E[sc2]=σ2
여기서 중요한 사실 하나:
E[i=1∑n(Xi−Xˉ)2]=(n−1)σ2
이 결과는 다음과 같은 전개로 얻어집니다.
항등식:
i=1∑n(Xi−Xˉ)2=i=1∑n(Xi−μ)2−n(Xˉ−μ)2
기대값을 취하면:
- E[∑(Xi−μ)2]=nσ2
- E[(Xˉ−μ)2]=Var(Xˉ)=σ2/n
따라서
E[∑(Xi−Xˉ)2]=nσ2−n⋅nσ2=(n−1)σ2
이제 돌아와서:
E[sc2]=c(n−1)σ2
비편향 조건 E[sc2]=σ2 를 만족시키려면:
c(n−1)σ2=σ2⇒c=n−11
그래서 우리가 아는 바로 그 공식이 나옵니다.
s2=n−11i=1∑n(Xi−Xˉ)2
즉, 모평균을 모르고 Xˉ를 쓸 때 비편향을 만들려면 분모가 n-1이어야 합니다.
여기까지 정리하면 메시지는 아주 단순합니다.
- "어디서 출발하느냐"보다 중요한 건
- 어떤 추정량을 정의했는지, 그리고
- 그 추정량이 비편향이 되도록 상수 c를 어떻게 잡았는지입니다.
요약하면:
- 모평균 μ를 아는 경우:
σ^2=n1∑(Xi−μ)2,E[σ^2]=σ2
- 모평균 μ를 모르고 표본평균 Xˉ를 사용하는 경우:
s2=n−11∑(Xi−Xˉ)2,E[s2]=σ2
각각의 분모 n, n-1은
"비편향성을 만족시키는 coefficient" 로부터 유도된 결과입니다.
조금 더 직관적인 설명을 붙이면 자유도(degrees of freedom) 이야기로 이어집니다.
잔차를 정의해 봅시다.
Ri=Xi−Xˉ
항상 다음이 성립합니다.
i=1∑nRi=i=1∑n(Xi−Xˉ)=0
즉, R1,…,Rn 은 n개처럼 보이지만
- 어느 n−1개를 알면 마지막 하나는 자동으로 결정됩니다.
- 실질적으로 독립적인 정보는
n-1개 뿐이라는 뜻입니다.
그래서:
- 평균을 한 번 추정하는 데 자유도 1개를 이미 썼고,
- 분산을 추정할 때는 자유도
n-1 에 대해 나눠줘야 합니다.
이 "자유도가 줄어든다"는 구조가
앞에서 유도한 "(n−1)σ²"와 정확히 맞아 떨어지는 지점이 Bessel 보정입니다.
- 모평균을 알고 있으면 분모는
n이 비편향.
- 모평균을 모르고 표본평균을 쓰면 분모는
n-1이 비편향.
- 두 숫자는 전개 과정에서 "우연히 나온 값"이 아니라,
비편향 조건 E[σ^2]=σ2 을 만족시키는 coefficient 로서 계산된 결과다.
이 정도까지 이해하고 있으면
"왜 n-1이냐"라는 질문은 더 이상 암기가 아니라,
"조건(비편향)을 거는 순간 자연스럽게 따라오는 구조"로 볼 수 있습니다.