このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

有偏分散量の期待値の計算

有偏分散(biased variance)値関数は、x∈Rn に対する関数 bvar で、
[tex: mean(x) = mean*1 = mean(x_1, \,\ldots\, ,x_n) = \frac{1}{n}\sum_{i = 1}^{n}x_i ]
[tex: bvar(x) = bvar*2 = bvar(x_1, \,\ldots\, ,x_n) = \frac{1}{n}\sum_{i = 1}^{n}(x_i - mean(x))^2 ]

X(n)がn-標本変量として、bvar(X(n)) の期待値を計算する。記法を変えて、X自体がシーケンス変量でi.i.d.になっていると仮定する。したがって、bvar(X) = mean(X1, ..., Xn) が対象となる確率変数で、その定義域はΩn(抽出の空間)となる。

シーケンス空間のユークリッド的性質

直交性定理

スカラーシーケンス x∈Rn に対して、xの平均値定常シーケンスMと、xのMからの偏差シーケンス x - M は直交する。ここで、M(x) := (m(x), ..., m(x))、m(x) := mean(x)。

別な言い方をすると、xから定常空間への垂線の足がM(x)で、M(x)はすべてのケースがm(x)である定常シーケンス。垂線は一意に決まり、垂線が最短距離を与えるので、平均値定常シーケンスはxの最良な定常近似

内積 (x - M(x)|M(x)) を計算すると、(x|M(x)) - (M(x)|M(x))。


m = m(x) = mean(x) = Σxi として、

(x|M(x))
= Σxim
= mΣxi
= m×(n×m)
= n×m2

(M(x)|M(x))
= Σ(m×m)
= n×m2

(x|M(x)) - (M(x)|M(x))
= 0

ベクトルシーケンスでも、各ケースが内積を持つなら同じ計算ができる。

ピタゴラスの定理

xを任意のシーケンス、αを任意の実数として、A = (α, ..., α)(定常シーケンス)とする。また、M = M(x) = (m(x), ..., m(x)) も定常シーケンス。このとき、

  • |x - M|2 = |x - A|2 + |M - A|2
y 2 はシーケンスの内積から定義される二乗ノルムの平方。

これは、位置ベクトルで定義される三点 Pt(x), Pt(M), Pt(A) が Pt(M) を直角頂点とする直角三角形になるので成立する。

注意:すべてのケースがαである定常シーケンスをαと書くことがある。その乱用を使うと、(m = m(x) = mean(x))

  • |x - m|2 = |x - α|2 + |m - α|2

スカラーとベクトルの加減が許されることになるが、R言語では可能である。

確率変数の分散スカラーの性質

αとβはスカラーとして、スカラーと定常シーケンスを同じ記号で表す乱用を使う。いきなりこの乱用を見ると意味不明だが、関数と定数の加減は、定数を定数関数と見て普通にやっている。

  • Var[X] := E[(X - E[X])2] (定義)
  • Var[X + β] = Var[X]
  • Var[αX] = α2[X]
  • Var[X + Y] = Var[X] + Var[Y] + Cov[X, Y]
  • XとYが独立なら、Var[X + Y] = Var[X] + Var[Y]

m(x) が平均値関数として、Xはi.i.d.と仮定して、m(X) の分散を計算する。


Vra[m(X)]
= Var[1/n(X1 + ..., + Xn)]
= 1/n2Var[X1 + ..., + Xn]
// Xがi.i.d.なので、和の分散は分散の和
= 1/n2(Var[X1] + ..., + Var[Xn])
// Xがi.i.d.なので、すべての分散は等しい、それをσ2とする。
= 1/n2(n×σ2)
= σ2/n

平均量確率変数m(X)は母平均μの不偏推定量である。m(X)の分散は、nが大きくなると反比例で小さくなる。分散が小さくなれば、精度(分散の逆数)は大きくなる。つまり、平均量確率変数の分布は真値に集中する。

なお、Vra[m(X)]は、標本平均(確率変数)の誤差分散である。汎関数Var[-]をσ2[-] と書いて、さらに σ2- とも書くとする。平均に対するオーバーバー記法を使うと、 \sigma^2_{\bar{X}} 、さらに大文字小文字の区別をなくすと、 \sigma^2_{\bar{x}}、これが初等的教科書で使われている記法の背景。相当に酷い。

標本誤差に限らず、標本値空間上で定義される関数による統計量は、もとの集団の観測量と標本サイズnに依存する。標本誤差をSEと書くと、SE[X0, n] = σ2[X0]/n 。Xを標本変量の記号に使ったので、もとの観測量はX0とした。

有偏分散量の期待値の計算

v(x) := |x - m(x)|2 と定義すると、n×bvar = v となり、vは有偏分散量のn倍なので、統計値関数vから決まる確率変数の期待値を計算する。vから決まる確率変数は、v(X) = |X - m(X)|2、ここで、Xはシーケンス変量で、m(X)はスカラー変量。先に乱用により、スカラー変量(というか、むしろシングルトン変量)のときは、定常シーケンスに強制して解釈する。

まず、ピタゴラスの定理より、v(X) := |X- m(X)|2 = |X - μ|2 - |m(X) - μ|2、μはμX = E[X] で、シングルトン変量だが、シーケンスに強制する。|X - μ|2 と |m(X) - μ|2 の期待値を別々に計算する。


E[|X - μ|2]
= E[Σ(Xi - μ)2]
// Eは線形だから
= ΣE[(Xi - μ)2]
// Xは同分布だったので、μ = E[Xi]
= ΣE[(Xi - E[Xi])2]
= ΣVar[Xi]
// Xは同分布だったので Var[Xi] = σ2
= Σσ2
= n×σ2

m(X) - μ 2 は、スカラー(m(X) - μ)のn回の定常シーケンスのノルム平方だから、
m(X) - μ 2 = n×(m(X) - μ)2

E[n×(m(X) - μ)2]
= n×E[(m(X) - μ)2]
// μ = E[Xi] = E[m(X)] だから、
= n×E[(m(X) - E[m(X)])2]
= n×Var[m(X)]
// Var[m(X)] は既に計算済み、誤差分散
= n×(σ2/n)
= σ2

以上の計算から、E[v(X)] = n×σ2 - σ2 = (n - 1)σ2。n×bvar = v だったので、E[bvar(X)] = (1/n)×E[v(X)] = (n -1)/n ×σ2

*1:x_1, \,\ldots\, ,x_n

*2:x_1, \,\ldots\, ,x_n