平均と分散 - (保存用) 檜山正幸のキマイラ飼育記メモ編

平均と分散は最も基本的な概念だろうが、これさえも曖昧だったりイイカゲンだったり。

確率変数 X:Ω→R に対する期待値 E[X] は、Ω上の確率測度Pによる実可測関数Xの積分として定義できる。確率変数（random variable, RV）の空間を RV(Ω, P, R) とすると、期待値Eは、RV(Ω, P, R)→R という汎関数になる。この汎関数を平均と呼ぶことがある。

算術平均値関数mean_nは、Rⁿ→R という関数である。算術平均値関数を、確率変数Xのn-確率標本 X⁽ⁿ⁾ と結合した mean_n(X⁽ⁿ⁾) = X⁽ⁿ⁾;mean_n が算術平均量確率変数となる。

次は別物である。

期待値汎関数 E:RV(Ω, P, R)→R
算術平均値関数 mean_n:Rⁿ→R
算術平均量確率変数 mean_n(X⁽ⁿ⁾):Ωⁿ→R

これらの関係は、

算術平均値関数は、期待値汎関数への推定値関数となる。
算術平均量確率変数は、期待値汎関数への推定量確率変数となる。
算術平均量確率変数は不偏推定量である。

分散に関しても、統計汎関数、統計値関数、統計量確率変数がある。

分散汎関数 Var:RV(Ω, P, R)→R は2次中心モーメント汎関数である。
分散値関数 var_n:Rⁿ→R 算術的に定義される実効的な関数
分散量確率変数 var_n(X⁽ⁿ⁾):Ωⁿ→R 実効的統計量である。

ところが、分散値関数（実効的な許容関数）は二種ある。

bvar_n:Rⁿ→R bvar(x) = 1/nΣ(x_i - mean(x))²
uvar_n:Rⁿ→R uvar(x) = 1/(n -1)Σ(x_i - mean(x))²

bvarはbiased variance、uvarはunbiased variance。varがbvarかuvarかは何とも言えない。R言語ではuvarになっている。記号法も、s², S², $\hat{\sigma^2}$ などが使われるが、それがbvarかuvarかはハッキリしない。u, Uが使われるときが稀にあり、これはuvarを意味する。

分散値関数 bvar, uvarに対して、代入変換により bvar(X⁽ⁿ⁾), uvar(X⁽ⁿ⁾) という確率変数を考えることができる。これが分散量確率変数。大文字S²は分散量確率変数を表すことが多い。

栗原『入門』本では、s² = bvar として、 $\hat{\sigma^2}$ = uvar となっている。実際には、 $\hat{\sigma^2}$ を ${\hat{\sigma}}^2$ と書いているが、 ${\hat{\sigma}}$ が標準偏差σの推定量だから、同じこと。ただし、 $\hat{\sigma^2}$ のほうが、分散の推定量を意味し、直接的だと思う。

栗原『入門』本では、確率変数と変数、推定値関数と推定量確率変数の区別はしてない。したがって、s² が関数で、 $\hat{\sigma^2}$ が確率変数であることなどは読み取れない。つまり、

s²は、統計値関数bvarとも言えるし、s²(X⁽ⁿ⁾) という確率変数（不偏ではない推定量）とも言える。
$\hat{\sigma^2}$ = ${\hat{\sigma}}^2$ は、統計値関数uvarとも言えるし、確率変数（不偏推定量）とも言える。

まったく実に分かりにくい。