平均と分散
平均と分散は最も基本的な概念だろうが、これさえも曖昧だったりイイカゲンだったり。
確率変数 X:Ω→R に対する期待値 E[X] は、Ω上の確率測度Pによる実可測関数Xの積分として定義できる。確率変数(random variable, RV)の空間を RV(Ω, P, R) とすると、期待値Eは、RV(Ω, P, R)→R という汎関数になる。この汎関数を平均と呼ぶことがある。
算術平均値関数meannは、Rn→R という関数である。算術平均値関数を、確率変数Xのn-確率標本 X(n) と結合した meann(X(n)) = X(n);meann が算術平均量確率変数となる。
次は別物である。
- 期待値汎関数 E:RV(Ω, P, R)→R
- 算術平均値関数 meann:Rn→R
- 算術平均量確率変数 meann(X(n)):Ωn→R
これらの関係は、
分散に関しても、統計汎関数、統計値関数、統計量確率変数がある。
- 分散汎関数 Var:RV(Ω, P, R)→R は2次中心モーメント汎関数である。
- 分散値関数 varn:Rn→R 算術的に定義される実効的な関数
- 分散量確率変数 varn(X(n)):Ωn→R 実効的統計量である。
ところが、分散値関数(実効的な許容関数)は二種ある。
- bvarn:Rn→R bvar(x) = 1/nΣ(xi - mean(x))2
- uvarn:Rn→R uvar(x) = 1/(n -1)Σ(xi - mean(x))2
bvarはbiased variance、uvarはunbiased variance。varがbvarかuvarかは何とも言えない。R言語ではuvarになっている。記号法も、s2, S2, などが使われるが、それがbvarかuvarかはハッキリしない。u, Uが使われるときが稀にあり、これはuvarを意味する。
分散値関数 bvar, uvarに対して、代入変換により bvar(X(n)), uvar(X(n)) という確率変数を考えることができる。これが分散量確率変数。大文字S2は分散量確率変数を表すことが多い。
栗原『入門』本では、s2 = bvar として、 = uvar となっている。実際には、 を と書いているが、 が標準偏差σの推定量だから、同じこと。ただし、 のほうが、分散の推定量を意味し、直接的だと思う。
栗原『入門』本では、確率変数と変数、推定値関数と推定量確率変数の区別はしてない。したがって、s2 が関数で、 が確率変数であることなどは読み取れない。つまり、
まったく実に分かりにくい。