このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

平均と分散

平均と分散は最も基本的な概念だろうが、これさえも曖昧だったりイイカゲンだったり。

確率変数 X:Ω→R に対する期待値 E[X] は、Ω上の確率測度Pによる実可測関数Xの積分として定義できる。確率変数(random variable, RV)の空間を RV(Ω, P, R) とすると、期待値Eは、RV(Ω, P, R)→R という汎関数になる。この汎関数平均と呼ぶことがある。

算術平均値関数meannは、RnR という関数である。算術平均値関数を、確率変数Xのn-確率標本 X(n) と結合した meann(X(n)) = X(n);meann算術平均量確率変数となる。

次は別物である。

  1. 期待値汎関数 E:RV(Ω, P, R)→R
  2. 算術平均値関数 meann:RnR
  3. 算術平均量確率変数 meann(X(n)):ΩnR

これらの関係は、

  • 算術平均値関数は、期待値汎関数への推定値関数となる。
  • 算術平均量確率変数は、期待値汎関数への推定量確率変数となる。
  • 算術平均量確率変数は不偏推定量である。

分散に関しても、統計汎関数、統計値関数、統計量確率変数がある。

  1. 分散汎関数 Var:RV(Ω, P, R)→R2次中心モーメント汎関数である。
  2. 分散値関数 varn:RnR 算術的に定義される実効的な関数
  3. 分散量確率変数 varn(X(n)):ΩnR 実効的統計量である。

ところが、分散値関数(実効的な許容関数)は二種ある。

  • bvarn:RnR bvar(x) = 1/nΣ(xi - mean(x))2
  • uvarn:RnR uvar(x) = 1/(n -1)Σ(xi - mean(x))2

bvarはbiased variance、uvarはunbiased variance。varがbvarかuvarかは何とも言えない。R言語ではuvarになっている。記号法も、s2, S2,   \hat{\sigma^2} などが使われるが、それがbvarかuvarかはハッキリしない。u, Uが使われるときが稀にあり、これはuvarを意味する。

分散値関数 bvar, uvarに対して、代入変換により bvar(X(n)), uvar(X(n)) という確率変数を考えることができる。これが分散量確率変数。大文字S2は分散量確率変数を表すことが多い。

栗原『入門』本では、s2 = bvar として、  \hat{\sigma^2} = uvar となっている。実際には、  \hat{\sigma^2} {\hat{\sigma}}^2 と書いているが、 {\hat{\sigma}} 標準偏差σの推定量だから、同じこと。ただし、  \hat{\sigma^2} のほうが、分散の推定量を意味し、直接的だと思う。

栗原『入門』本では、確率変数と変数、推定値関数と推定量確率変数の区別はしてない。したがって、s2 が関数で、  \hat{\sigma^2} が確率変数であることなどは読み取れない。つまり、

  • s2は、統計値関数bvarとも言えるし、s2(X(n)) という確率変数(不偏ではない推定量)とも言える。
  •  \hat{\sigma^2} =  {\hat{\sigma}}^2 は、統計値関数uvarとも言えるし、確率変数(不偏推定量)とも言える。

まったく実に分かりにくい。