このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

サンプリング構造

言及されない重要な構造には、

  • 変量(変数、観測量、項目、カラム、属性、特徴量、特性)
  • 母集団
  • サンプル(標本)

がある。これらはほんとに重要だと思うが、なぜ重要概念が説明されないのか - 檜山正幸のキマイラ飼育記 メモ編 の事情で通常はサラリと適当な説明で済まされる。

変量は基本的に可測写像。ただし、域には有界測度を仮定する。前送り測度が、その変量の分布。前送りではなくても分布と呼ぶことはある。分布=測度。

母集団は測度空間+変量。変量がひとつなら単変量母集団、複数なら多変量母集団。多変量の直積に組んだ値の空間を特徴空間(feature spece)と呼ぶことがある。母集団の台集合の要素は個体、観測、ケース、レコード、事件(happening)など。個体は、サンプリングの添字ともみなされる。

母集団は必ず測度と変量(単一または複数)を伴う! こう仮定しないと多くの用語・概念が解釈不能。変量の値の空間は多くの場合R、そうでないと解釈や計算が不可能なときが多い。ただし、R以外もあるにはある。以下、すべての変量(観測量)はR値、つまり数変量(numeric variable)。

U = (U, ΣU, μ, X) が母集団のとき、n-サンプリングやサンプリング系を構成できる。

  • Un はUのnベキだが、n-サンプリングを定義する。
  • U* はUのクリーネスター。実際は、和はないので、{0, 1, 2, ...}で添字付けられた測度空間の圏における図式(関手)。
  • U はUの無限ベキ。極限定理のために必要。

U = (U, ΣU, μ, X) に対して、

  • Un = (Un, (ΣU)\otimesn, μ\otimesn, X(n))

μ\otimesn は、測度のテンソル積で、台集合は直積となる。変量のベキX(n)は、UnRn の形となる。Xの自分自身との独立性から、

  • <X, ..., X>:U→Rn

が変量のベキX(n)と同じ分布となる。よって、デカルトタプル<X, ..., X>をベキの代わりに使える。これ、ものすごく重要だが、触れられてもいない。

U*は、Un達を射影と変数の置換から生成される図式を表す。図式は関手と解釈されて、射影極限を考えることができる。図式U*の射影極限がU

U*とUを一緒にした図式(関手)をサンプリング系と呼ぶことにする。サンプリング系は次のものを含む。

  • 各nに対するnサンプルUn
  • 無限サンプルU
  • Uも含めて射影と変数の交換の射

統計値と統計量の区別はないようだが、無理に定義するなら、

  • f:RnR が統計値
  • Rnに値を取る変量と f:RnR の結合が統計量、確率変数

母集団は変量を備えた概念なので、「変量の×××」の代わりに「母集団の×××」が使われる。

  • 母集団の分布=変量の分布=R上の密度関数
  • 母集団の平均=変量の平均=測度による変量の積分
  • 母集団の統計値=変量の統計値=単なる関数
  • 母集団の統計量=変量の統計量=確率変数

母集団のパラメータは、変量のパラメータというより、分布のパラメータであり、同じ分布を持つ母集団は同一視される傾向がある。例えば、「平均と分散が同じ正規母集団は同じ」とみなす。結果、母集団の族(類)を同値関係で割ったものとパラメータ空間が同一視される。

母集団の族はモデルの族とも言える(そのほうが適切)なので、モデルの族とパラメータ空間が同一視される。この同一視も重要だが触れられない。明示的な説明の代わりに天下りやスリカエが使われる。