このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

モデルの定義もない:しょうがないからとりあえず統計フレームを定義する

確率モデルとか統計モデルも頻繁に使われる概念だけど、いったい何のことだ? 定義なしに言葉を使う文化にはどうにも馴染めない。定義が色々あるのは慣れているが、全然ないのは慣れてない。

暫定的にでも叩き台の定義がないとしょうがないので、でっち上げてみる。統計モデルというには単純化し過ぎてるから、統計フレームとか呼んでおく。統計フレームは (X, (x1, V1), ... (xn, Vn)) の形で、

  1. Xは測度空間 X = (X, ΣX, μX)、台集合と測度空間を同じ記号で表す(記号の乱用)。μXの添字Xは適宜省略する。
  2. i = 1, ..., n に関して、Vi = (Vi, ΣVi) は可測空間。
  3. i = 1, ..., n に関して、xi:X→Vi は可測写像

測度空間Xの台集合X(同じ記号だが概念的には別)を集団と呼ぶ。文脈と気分により母集団とも呼ぶ。集団Xの要素を個体、ケース、実体、点などと呼ぶ。これらの呼び名は気分的・心理的なもので、形式的な区別はなく同義語/別名として扱う

xi:X→Vi変量と呼ぶ。iは番号だが実用上は名前で識別してもよい。Viを変量の値空間と呼ぶ。値空間は構造を持つことがある。例えば:

  • 順序集合
  • R上のアフィン空間
  • R上のベクトル空間
  • R上のヒルベルト・ベクトル空間
  • R上の完備ノルム空間

当然に、値空間の構造を仮定して議論することがある。

変量xi(可測写像)に対して、μi := (xi)*(μ) と定義すると、μiはVi上の測度(μの像測度)となる。測度μiを、変量xi分布と呼ぶ。μ自体を分布と呼ぶこともあり、このときは集団(それ自体の)の分布と呼ぶ。集団の分布=元の測度。変量の分布=像測度

n個の変量を持つ統計フレームでは、n個の分布が出てきて、それらは集団の分布(元の測度)の像測度になっている。たいていの説明では、統計フレームが明示的に定時されない。例えば、本[2]のポアソン分布の説明で、「馬に蹴られて死ぬ」例が出てくるが、統計フレームがサッパリ分からない。台集合Xが何であって、いかなる変量を想定するのかも書いてない。

統計フレームは統計モデル(というもんがあるとして)以前の枠組みだ。統計フレームの直積、直和、族、射などについても考える必要があるが、まだ分からない所が多い。