モデルの定義もない:しょうがないからとりあえず統計フレームを定義する
確率モデルとか統計モデルも頻繁に使われる概念だけど、いったい何のことだ? 定義なしに言葉を使う文化にはどうにも馴染めない。定義が色々あるのは慣れているが、全然ないのは慣れてない。
暫定的にでも叩き台の定義がないとしょうがないので、でっち上げてみる。統計モデルというには単純化し過ぎてるから、統計フレームとか呼んでおく。統計フレームは (X, (x1, V1), ... (xn, Vn)) の形で、
- Xは測度空間 X = (X, ΣX, μX)、台集合と測度空間を同じ記号で表す(記号の乱用)。μXの添字Xは適宜省略する。
- i = 1, ..., n に関して、Vi = (Vi, ΣVi) は可測空間。
- i = 1, ..., n に関して、xi:X→Vi は可測写像。
測度空間Xの台集合X(同じ記号だが概念的には別)を集団と呼ぶ。文脈と気分により母集団とも呼ぶ。集団Xの要素を個体、ケース、実体、点などと呼ぶ。これらの呼び名は気分的・心理的なもので、形式的な区別はなく同義語/別名として扱う。
xi:X→Viを変量と呼ぶ。iは番号だが実用上は名前で識別してもよい。Viを変量の値空間と呼ぶ。値空間は構造を持つことがある。例えば:
- 順序集合
- R上のアフィン空間
- R上のベクトル空間
- R上のヒルベルト・ベクトル空間
- R上の完備ノルム空間
当然に、値空間の構造を仮定して議論することがある。
変量xi(可測写像)に対して、μi := (xi)*(μ) と定義すると、μiはVi上の測度(μの像測度)となる。測度μiを、変量xiの分布と呼ぶ。μ自体を分布と呼ぶこともあり、このときは集団(それ自体の)の分布と呼ぶ。集団の分布=元の測度。変量の分布=像測度。
n個の変量を持つ統計フレームでは、n個の分布が出てきて、それらは集団の分布(元の測度)の像測度になっている。たいていの説明では、統計フレームが明示的に定時されない。例えば、本[2]のポアソン分布の説明で、「馬に蹴られて死ぬ」例が出てくるが、統計フレームがサッパリ分からない。台集合Xが何であって、いかなる変量を想定するのかも書いてない。
統計フレームは統計モデル(というもんがあるとして)以前の枠組みだ。統計フレームの直積、直和、族、射などについても考える必要があるが、まだ分からない所が多い。