サンプリング構造
言及されない重要な構造には、
- 変量(変数、観測量、項目、カラム、属性、特徴量、特性)
- 母集団
- サンプル(標本)
がある。これらはほんとに重要だと思うが、なぜ重要概念が説明されないのか - 檜山正幸のキマイラ飼育記 メモ編 の事情で通常はサラリと適当な説明で済まされる。
変量は基本的に可測写像。ただし、域には有界測度を仮定する。前送り測度が、その変量の分布。前送りではなくても分布と呼ぶことはある。分布=測度。
母集団は測度空間+変量。変量がひとつなら単変量母集団、複数なら多変量母集団。多変量の直積に組んだ値の空間を特徴空間(feature spece)と呼ぶことがある。母集団の台集合の要素は個体、観測、ケース、レコード、事件(happening)など。個体は、サンプリングの添字ともみなされる。
母集団は必ず測度と変量(単一または複数)を伴う! こう仮定しないと多くの用語・概念が解釈不能。変量の値の空間は多くの場合R、そうでないと解釈や計算が不可能なときが多い。ただし、R以外もあるにはある。以下、すべての変量(観測量)はR値、つまり数変量(numeric variable)。
U = (U, ΣU, μ, X) が母集団のとき、n-サンプリングやサンプリング系を構成できる。
- Un はUのnベキだが、n-サンプリングを定義する。
- U* はUのクリーネスター。実際は、和はないので、{0, 1, 2, ...}で添字付けられた測度空間の圏における図式(関手)。
- U∞ はUの無限ベキ。極限定理のために必要。
U = (U, ΣU, μ, X) に対して、
- Un = (Un, (ΣU)n, μn, X(n))
μn は、測度のテンソル積で、台集合は直積となる。変量のベキX(n)は、Un→Rn の形となる。Xの自分自身との独立性から、
- <X, ..., X>:U→Rn
が変量のベキX(n)と同じ分布となる。よって、デカルトタプル<X, ..., X>をベキの代わりに使える。これ、ものすごく重要だが、触れられてもいない。
U*は、Un達を射影と変数の置換から生成される図式を表す。図式は関手と解釈されて、射影極限を考えることができる。図式U*の射影極限がU∞。
U*とU∞を一緒にした図式(関手)をサンプリング系と呼ぶことにする。サンプリング系は次のものを含む。
- 各nに対するnサンプルUn
- 無限サンプルU∞
- U∞も含めて射影と変数の交換の射
統計値と統計量の区別はないようだが、無理に定義するなら、
- f:Rn→R が統計値
- Rnに値を取る変量と f:Rn→R の結合が統計量、確率変数
母集団は変量を備えた概念なので、「変量の×××」の代わりに「母集団の×××」が使われる。
- 母集団の分布=変量の分布=R上の密度関数
- 母集団の平均=変量の平均=測度による変量の積分
- 母集団の統計値=変量の統計値=単なる関数
- 母集団の統計量=変量の統計量=確率変数
母集団のパラメータは、変量のパラメータというより、分布のパラメータであり、同じ分布を持つ母集団は同一視される傾向がある。例えば、「平均と分散が同じ正規母集団は同じ」とみなす。結果、母集団の族(類)を同値関係で割ったものとパラメータ空間が同一視される。
母集団の族はモデルの族とも言える(そのほうが適切)なので、モデルの族とパラメータ空間が同一視される。この同一視も重要だが触れられない。明示的な説明の代わりに天下りやスリカエが使われる。