왜 분모가 n-1인가?

통계 책을 보다 보면 늘 등장하는 공식이 있습니다.

$s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2$

"도대체 왜 n이 아니라 n-1로 나누는가?" 이 글은 이 질문을 비편향(unbiased) 관점에서 정리하는 메모입니다.

1. 목표: 모분산을 잘 추정하고 싶다

상황 설정:

모집단: 확률변수 $X$
평균: $\mathbb{E}[X] = \mu$
분산: $\mathrm{Var}(X) = \sigma^2$
표본: $X_1, \dots, X_n$ (i.i.d.)

우리가 하고 싶은 일은 간단합니다.

표본으로부터 "모분산 $\sigma^2$ "를 추정하는 좋은 추정량을 만들고 싶다.

여기서 "좋다"는 기준 중 하나가 바로 비편향(unbiased) 입니다.

추정량 $\hat\sigma^2$ 가 비편향이라는 말은 $\mathbb{E}[\hat\sigma^2] = \sigma^2$ 즉, 기댓값 기준으로 평균적으로는 맞게 추정한다는 뜻입니다.

2. 두 가지 경우를 먼저 나누자

핵심은 모평균 $\mu$ 를 알고 있느냐, 모르느냐입니다.

2.1. 모평균 $\mu$ 를 알고 있는 경우

이론적인 상황입니다. 이때 자연스러운 분산 추정량은:

$\hat\sigma^2_c = c \sum_{i=1}^n (X_i - \mu)^2$

여기서 $c$ 는 아직 정하지 않은 상수입니다. 이 추정량이 비편향이 되려면:

$\mathbb{E}[\hat\sigma^2_c] = \sigma^2$

이 되어야 합니다.

계산:

$\mathbb{E}\left[\sum_{i=1}^n (X_i - \mu)^2\right] = \sum_{i=1}^n \mathbb{E}[(X_i - \mu)^2] = n\sigma^2$

따라서

$\mathbb{E}[\hat\sigma^2_c] = c \cdot n\sigma^2$

이게 $\sigma^2$ 와 같으려면:

$c \cdot n\sigma^2 = \sigma^2 \quad\Rightarrow\quad c = \frac{1}{n}$

즉,

$\boxed{ \hat\sigma^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \mu)^2 }$

는 모평균을 알고 있을 때의 비편향 분산 추정량입니다. 여기서는 분모가 n 이 맞습니다.

2.2. 모평균을 모르고, 표본평균 $\bar X$ 를 사용하는 경우

현실에서는 대부분 이 케이스입니다. 모평균 $\mu$ 대신 표본평균

$\bar X = \frac{1}{n}\sum_{i=1}^n X_i$

을 쓰게 됩니다. 이때 자연스러운 형태는:

$s^2_c = c \sum_{i=1}^n (X_i - \bar X)^2$

역시 비편향을 요구합니다.

$\mathbb{E}[s^2_c] = \sigma^2$

여기서 중요한 사실 하나:

$\mathbb{E}\left[\sum_{i=1}^n (X_i - \bar X)^2\right] = (n-1)\sigma^2$

이 결과는 다음과 같은 전개로 얻어집니다.

항등식: $\sum_{i=1}^n (X_i - \bar X)^2 = \sum_{i=1}^n (X_i - \mu)^2 - n(\bar X - \mu)^2$
기대값을 취하면:
- $\mathbb{E}[\sum (X_i - \mu)^2] = n\sigma^2$
- $\mathbb{E}[(\bar X - \mu)^2] = \mathrm{Var}(\bar X) = \sigma^2/n$
따라서

$\mathbb{E}\left[\sum (X_i - \bar X)^2\right] = n\sigma^2 - n\cdot \frac{\sigma^2}{n} = (n-1)\sigma^2$

이제 돌아와서:

$\mathbb{E}[s^2_c] = c (n-1)\sigma^2$

비편향 조건 $\mathbb{E}[s^2_c] = \sigma^2$ 를 만족시키려면:

$c (n-1)\sigma^2 = \sigma^2 \quad\Rightarrow\quad c = \frac{1}{n-1}$

그래서 우리가 아는 바로 그 공식이 나옵니다.

$\boxed{ s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2 }$

즉, 모평균을 모르고 $\bar X$ 를 쓸 때 비편향을 만들려면 분모가 n-1이어야 합니다.

3. n과 n-1의 의미

여기까지 정리하면 메시지는 아주 단순합니다.

"어디서 출발하느냐"보다 중요한 건
- 어떤 추정량을 정의했는지, 그리고
- 그 추정량이 비편향이 되도록 상수 $c$ 를 어떻게 잡았는지입니다.

요약하면:

모평균 $\mu$ 를 아는 경우: $\hat\sigma^2 = \frac{1}{n}\sum (X_i - \mu)^2, \quad \mathbb{E}[\hat\sigma^2] = \sigma^2$
모평균 $\mu$ 를 모르고 표본평균 $\bar X$ 를 사용하는 경우: $s^2 = \frac{1}{n-1}\sum (X_i - \bar X)^2, \quad \mathbb{E}[s^2] = \sigma^2$

각각의 분모 n, n-1은 "비편향성을 만족시키는 coefficient" 로부터 유도된 결과입니다.

4. 자유도 관점에서 보는 n-1

조금 더 직관적인 설명을 붙이면 자유도(degrees of freedom) 이야기로 이어집니다.

잔차를 정의해 봅시다.

$R_i = X_i - \bar X$

항상 다음이 성립합니다.

$\sum_{i=1}^n R_i = \sum_{i=1}^n (X_i - \bar X) = 0$

즉, $R_1, \dots, R_n$ 은 n개처럼 보이지만

어느 $n-1$ 개를 알면 마지막 하나는 자동으로 결정됩니다.
실질적으로 독립적인 정보는 n-1개 뿐이라는 뜻입니다.

그래서:

평균을 한 번 추정하는 데 자유도 1개를 이미 썼고,
분산을 추정할 때는 자유도 n-1 에 대해 나눠줘야 합니다.

이 "자유도가 줄어든다"는 구조가 앞에서 유도한 "(n−1)σ²"와 정확히 맞아 떨어지는 지점이 Bessel 보정입니다.

5. 정리 한 줄

모평균을 알고 있으면 분모는 n이 비편향.
모평균을 모르고 표본평균을 쓰면 분모는 n-1이 비편향.
두 숫자는 전개 과정에서 "우연히 나온 값"이 아니라, 비편향 조건 $\mathbb{E}[\hat\sigma^2] = \sigma^2$ 을 만족시키는 coefficient 로서 계산된 결과다.

이 정도까지 이해하고 있으면 "왜 n-1이냐"라는 질문은 더 이상 암기가 아니라, "조건(비편향)을 거는 순간 자연스럽게 따라오는 구조"로 볼 수 있습니다.