왜 분모가 n-1인가?

Tech 3 min read

분산의 비편향 추정 이야기

통계 책을 보다 보면 늘 등장하는 공식이 있습니다.

s2=1n1i=1n(XiXˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2

"도대체 왜 n이 아니라 n-1로 나누는가?" 이 글은 이 질문을 비편향(unbiased) 관점에서 정리하는 메모입니다.

1. 목표: 모분산을 잘 추정하고 싶다

상황 설정:

  • 모집단: 확률변수 XX
  • 평균: E[X]=μ\mathbb{E}[X] = \mu
  • 분산: Var(X)=σ2\mathrm{Var}(X) = \sigma^2
  • 표본: X1,,XnX_1, \dots, X_n (i.i.d.)

우리가 하고 싶은 일은 간단합니다.

표본으로부터 "모분산 σ2\sigma^2"를 추정하는 좋은 추정량을 만들고 싶다.

여기서 "좋다"는 기준 중 하나가 바로 비편향(unbiased) 입니다.

  • 추정량 σ^2\hat\sigma^2 가 비편향이라는 말은 E[σ^2]=σ2\mathbb{E}[\hat\sigma^2] = \sigma^2 즉, 기댓값 기준으로 평균적으로는 맞게 추정한다는 뜻입니다.

2. 두 가지 경우를 먼저 나누자

핵심은 모평균 μ\mu를 알고 있느냐, 모르느냐입니다.

2.1. 모평균 μ\mu를 알고 있는 경우

이론적인 상황입니다. 이때 자연스러운 분산 추정량은:

σ^c2=ci=1n(Xiμ)2\hat\sigma^2_c = c \sum_{i=1}^n (X_i - \mu)^2

여기서 cc는 아직 정하지 않은 상수입니다. 이 추정량이 비편향이 되려면:

E[σ^c2]=σ2\mathbb{E}[\hat\sigma^2_c] = \sigma^2

이 되어야 합니다.

계산:

E[i=1n(Xiμ)2]=i=1nE[(Xiμ)2]=nσ2\mathbb{E}\left[\sum_{i=1}^n (X_i - \mu)^2\right] = \sum_{i=1}^n \mathbb{E}[(X_i - \mu)^2] = n\sigma^2

따라서

E[σ^c2]=cnσ2\mathbb{E}[\hat\sigma^2_c] = c \cdot n\sigma^2

이게 σ2\sigma^2 와 같으려면:

cnσ2=σ2c=1nc \cdot n\sigma^2 = \sigma^2 \quad\Rightarrow\quad c = \frac{1}{n}

즉,

σ^2=1ni=1n(Xiμ)2\boxed{ \hat\sigma^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \mu)^2 }

는 모평균을 알고 있을 때의 비편향 분산 추정량입니다. 여기서는 분모가 n 이 맞습니다.

2.2. 모평균을 모르고, 표본평균 Xˉ\bar X를 사용하는 경우

현실에서는 대부분 이 케이스입니다. 모평균 μ\mu 대신 표본평균

Xˉ=1ni=1nXi\bar X = \frac{1}{n}\sum_{i=1}^n X_i

을 쓰게 됩니다. 이때 자연스러운 형태는:

sc2=ci=1n(XiXˉ)2s^2_c = c \sum_{i=1}^n (X_i - \bar X)^2

역시 비편향을 요구합니다.

E[sc2]=σ2\mathbb{E}[s^2_c] = \sigma^2

여기서 중요한 사실 하나:

E[i=1n(XiXˉ)2]=(n1)σ2\mathbb{E}\left[\sum_{i=1}^n (X_i - \bar X)^2\right] = (n-1)\sigma^2

이 결과는 다음과 같은 전개로 얻어집니다.

  1. 항등식: i=1n(XiXˉ)2=i=1n(Xiμ)2n(Xˉμ)2\sum_{i=1}^n (X_i - \bar X)^2 = \sum_{i=1}^n (X_i - \mu)^2 - n(\bar X - \mu)^2

  2. 기대값을 취하면:

    • E[(Xiμ)2]=nσ2\mathbb{E}[\sum (X_i - \mu)^2] = n\sigma^2
    • E[(Xˉμ)2]=Var(Xˉ)=σ2/n\mathbb{E}[(\bar X - \mu)^2] = \mathrm{Var}(\bar X) = \sigma^2/n

    따라서

    E[(XiXˉ)2]=nσ2nσ2n=(n1)σ2\mathbb{E}\left[\sum (X_i - \bar X)^2\right] = n\sigma^2 - n\cdot \frac{\sigma^2}{n} = (n-1)\sigma^2

이제 돌아와서:

E[sc2]=c(n1)σ2\mathbb{E}[s^2_c] = c (n-1)\sigma^2

비편향 조건 E[sc2]=σ2\mathbb{E}[s^2_c] = \sigma^2 를 만족시키려면:

c(n1)σ2=σ2c=1n1c (n-1)\sigma^2 = \sigma^2 \quad\Rightarrow\quad c = \frac{1}{n-1}

그래서 우리가 아는 바로 그 공식이 나옵니다.

s2=1n1i=1n(XiXˉ)2\boxed{ s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2 }

즉, 모평균을 모르고 Xˉ\bar X를 쓸 때 비편향을 만들려면 분모가 n-1이어야 합니다.


3. n과 n-1의 의미

여기까지 정리하면 메시지는 아주 단순합니다.

  • "어디서 출발하느냐"보다 중요한 건
    • 어떤 추정량을 정의했는지, 그리고
    • 그 추정량이 비편향이 되도록 상수 cc를 어떻게 잡았는지입니다.

요약하면:

  • 모평균 μ\mu를 아는 경우: σ^2=1n(Xiμ)2,E[σ^2]=σ2\hat\sigma^2 = \frac{1}{n}\sum (X_i - \mu)^2, \quad \mathbb{E}[\hat\sigma^2] = \sigma^2
  • 모평균 μ\mu를 모르고 표본평균 Xˉ\bar X를 사용하는 경우: s2=1n1(XiXˉ)2,E[s2]=σ2s^2 = \frac{1}{n-1}\sum (X_i - \bar X)^2, \quad \mathbb{E}[s^2] = \sigma^2

각각의 분모 n, n-1"비편향성을 만족시키는 coefficient" 로부터 유도된 결과입니다.

4. 자유도 관점에서 보는 n-1

조금 더 직관적인 설명을 붙이면 자유도(degrees of freedom) 이야기로 이어집니다.

잔차를 정의해 봅시다.

Ri=XiXˉR_i = X_i - \bar X

항상 다음이 성립합니다.

i=1nRi=i=1n(XiXˉ)=0\sum_{i=1}^n R_i = \sum_{i=1}^n (X_i - \bar X) = 0

즉, R1,,RnR_1, \dots, R_n 은 n개처럼 보이지만

  • 어느 n1n-1개를 알면 마지막 하나는 자동으로 결정됩니다.
  • 실질적으로 독립적인 정보는 n-1개이라는 뜻입니다.

그래서:

  • 평균을 한 번 추정하는 데 자유도 1개를 이미 썼고,
  • 분산을 추정할 때는 자유도 n-1 에 대해 나눠줘야 합니다.

이 "자유도가 줄어든다"는 구조가 앞에서 유도한 "(n−1)σ²"와 정확히 맞아 떨어지는 지점이 Bessel 보정입니다.


5. 정리 한 줄

  • 모평균을 알고 있으면 분모는 n이 비편향.
  • 모평균을 모르고 표본평균을 쓰면 분모는 n-1이 비편향.
  • 두 숫자는 전개 과정에서 "우연히 나온 값"이 아니라, 비편향 조건 E[σ^2]=σ2\mathbb{E}[\hat\sigma^2] = \sigma^2 을 만족시키는 coefficient 로서 계산된 결과다.

이 정도까지 이해하고 있으면 "왜 n-1이냐"라는 질문은 더 이상 암기가 아니라, "조건(비편향)을 거는 순간 자연스럽게 따라오는 구조"로 볼 수 있습니다.

#statistics


If this writing helped, fuel the next one

Buy me a coffee