サンプリング関手
カルバートソン/スターツが、どうして「モデル分布族」を「標本分布」と呼ぶのか?(サンプリング - 檜山正幸のキマイラ飼育記 メモ編) 不思議だったが、次のような事情かも知れない。
- パラメトリック・モデル分布族とは、パラメータ空間=仮説空間の各点にデータ空間(=値空間=標本空間)の確率分布を対応させる。
- 標本分布とは、サンプラー空間の各点にデータ空間の確率分布を対応させる。
- どちらも、インデックス空間(パラメータ空間またはサンプラー空間)にデータ空間の確率分布を対応させる。
- 同じ呼び名でもいいだろう。
問題となるのはサンプラー空間だが。S = {{1}, {1, 2}, {1, 2, 3}} とかがその例。{1}は1回だけのデータ抽出、{1, 2}は2回のデータ抽出、{1, 2, 3}は3回のデータ抽出。それぞれに、「標本空間+確率分布=確率空間」が対応している。Dを1回抽出のデータ空間とすると、
- S({1}) = (D, ΣD, μD)
- S({1, 2}) = (D×D, ΣDΣD, μDμD)
- S({1, 2, 3}) = (D×D×D, ΣDΣDΣD, μDμDμDμD)
S(-)は確率空間を対応させるが、定義域のSは単なる集合ではなくて、{1}⊆{1, 2}⊆{1, 2, 3} という順序集合、Sは反変関手とみなせる。Sの射影極限も考えることができる。
インデックス空間が離散集合でも直積としての射影極限があり、それが積確率空間となる。つまり、標本分布は、サンプラー圏からの関手であり。その(射影)極限が問題になる。パラメトリック・モデルも、パラメータ空間を離散圏とみなしての関手であり、台が同一なものとなる。
要するに、サンプラー圏から確率空間の圏への関手であるサンプリング関手の一般論が必要なんだろう。