このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

なるほどワカラン、統計量

「統計量」も定義がない(あってもうまく適用ができない)言葉。

今まで、「確率変数」と「単なる関数」の2つの意味で考えてきたが、それだけでは十分には説明できないようだ。次のような区別が必要そう。

  • 統計値関数:RnR という関数(部分関数でも可)。
  • 統計量確率変数、統計変量:母集団上で定義された確率変数
  • 代数的統計量: 代数確率空間(確率代数)による定義
  • 統計量汎関数: 分布全体の(多くは無限次元)ベクトル空間で定義されたR汎関数

fがRnR という関数のとき、f(x)とf(X)で単なる関数と確率変数を区別できる。

まず、コルモゴロフ確率空間に対して基本観測量と呼ばれる幾つか(通常は有限個)の確率変数を考えて、これをモデル=母集団と考える。母集団Uに対して、U上のR値確率変数の全体を Obs(U) として観測量の代数(掛け算ができるベクトル空間)とする。Obs(U) は自由に代数演算(足し算、実スカラー倍、掛け算)ができて、期待値トレースが存在する。

可換バナッハ環Obs(U)の部分代数である代数的統計量の代数を次のように定義する。

  1. 基本変量は代数的統計量である。
  2. 代数的統計量の和とスカラー倍、積は代数的統計量である。
  3. 代数的統計量の期待値スカラー単位元に掛けたものは代数的統計量である。
  4. 代数的統計量の列が収束するとき、その極限も代数的統計量である。

Obs(U)は、測度空間Uに載るすべての観測量からなる代数だが、現実的に観測可能で興味の対象となる観測量はそれほど多くない。実質的な観測量の部分代数が代数的統計量の代数になる。この定義だと、「統計」という形容詞がほとんど無意味だが、平均、分散、標準偏差などは、実際に代数的統計量になっている。

スカラー(代数的)統計量は、可換環としての単位元1のスカラー倍になっている代数的統計量。ほんもののスカラーR値)としてスカラー統計量を抜き出すには期待値トレースを取ればよい。

以上の議論は、コルモゴロフ確率空間から出発しなくても、可換バナッハ環があれば出来る。ノルムと極限は入るが、統計量が代数的に定義可能となる。

分布をベースにした定義

まず、分布は有界測度のことで、Rnに前送りで得られたと想定している測度だ。Rn上に分布(前送り測度)を考えて、分布の空間をモデルが埋め込まれる先のアンビエント空間と考える。

統計量は、モデルに対して定義されるが、モデルはアンビエント空間に入るので、アンビエント空間(多くは無限次元ベクトル空間)上で統計量を考える。この意味での統計量は、分布の空間(関数空間と考えてもよい)の上の必ずしも線形ではない汎関数となる。例えば、分布が密度関数fで定義されているなら、Mean[f] := ∫xf(x)dx は統計量汎関数となる。