不偏標本分散とは、ご存知のとおり次で計算される値です。
\[s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i} - \bar{X})^2\]
\(X\)が標本の確率変数で、データ数は\(n\)です。
分母が\(n\)ではなく\(n-1\)であることは、統計を少し学んだことのある方ならほぼ知っているでしょう。この式から得られる確率変数\(s^2\)の期待値は母分散になります。これを式変形で証明するやり方を最近ようやく理解できてきたのでここにメモしておきたいと思います。
まず、平均からの偏差の平方和の期待値が分散であるという定義を利用するため定義式を書いておきます。
\[V(X) = E\{(X - \mu)^2\} = E(X^2) - \mu^2\]
母集団の平均を\(\mu\)、分散を\(\sigma^2\)とします。そこから抽出される標本\(X\)の期待値と分散は、
\[E(X) = \mu, \hspace{10pt} V(X) = \sigma^2\]
です。このもとで、\(s^2\)の期待値を計算します。
\[ \begin{eqnarray} E(s^2) &=& E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i} - \bar{X})^2) = \frac{1}{n-1}\sum_{i=1}^{n}E((X_{i} - \bar{X})^2) \\ &=& \frac{1}{n-1}\sum_{i=1}^{n}E(X_{i}^2 - 2X_{i}\bar{X} + \bar{X}^2) \\ &=& \frac{1}{n-1}\left\{\sum_{i=1}^{n}E(X_{i}^2) - 2E(\sum_{i=1}^{n}X_{i}\bar{X}) + \sum_{i=1}^{n}E(\bar{X}^2)\right\} \end{eqnarray} \]
個々の標本\(X_{i}\)は独立同一分布(i.i.d.)とするので、その期待値\(E(X_{i})\)や\(E(X_{i}^2)\)は\(i\)が異なっても同じ値になります。それを\(E(X)、E(X^2)\)と書きます。 さらに\(\sum_{i=1}^{n}X_{i}\)は\(\bar{X}\)を使って\(n\bar{X}\)と表せるので、
\[ \begin{eqnarray} &=& \frac{1}{n-1}\left\{nE(X^2) - 2E(n\bar{X}^2) + nE(\bar{X}^2)\right\} \\ &=& \frac{1}{n-1}\left\{nE(X^2) - nE(\bar{X}^2)\right\} \end{eqnarray} \]
ここで、\(E(X^2) = V(X) + \mu^2\)を使います。\(X\)の平均\(\bar{X}\)についても期待値は同じ\(\mu\)です。
\[ \begin{eqnarray} &=& \frac{1}{n-1}\left\{n(V(X) + \mu^2) - n(V(\bar{X}) + \mu^2)\right\} \\ &=& \frac{1}{n-1}\left\{nV(X) - nV(\bar{X})\right\} \end{eqnarray} \]
\(X\)の平均の分散\(V(\bar{X})\)は、\(X_{1}、X_{2}\)が独立なら\(V(X_{1}+X_{2})=V(X_1)+V(X_2)\)となるのと、定数\(c\)について\(V(cX)=c^2V(X)\)なので、
\[V(\bar{X}) = V(\frac{\sum_{i=1}^{n}{X_{i}}}{n}) = \frac{1}{n^2}\cdot nV(X) = \frac{V(X)}{n}\]
これを代入すると、
\[E(s^2)= \frac{1}{n-1}\left\{nV(X) - n(\frac{V(X)}{n})\right\}= \frac{1}{n-1}(n - 1)V(X) = V(X) = \sigma^2\]
となって、\(E(s^2) = \sigma^2\)が導かれました。
ちなみに、\(X\)の平均が0になるように移動させた\(Y=X-\mu\)を使うと\(V(Y)=E(Y^2)\)となるので、途中の\(\mu^2\)の取り扱いを省けます。そちらの方が洗練されているので参考書ではそうしている場合が多いです。