サンプリング - (保存用) 檜山正幸のキマイラ飼育記メモ編

標本空間のサンプルの話は今は置いとく。

『統計数学』p.72では、確率標本という言葉を使っているが、おそらくはrandom sample(ing)だろう。

http://stats.stackexchange.com/questions/99126/are-random-sample-and-iid-random-variable-synonyms

基本的には、I.I.D.確率変数列＝確率標本でいいだろう。

さて、カルバートソン／スターツ（Culbertson, Sturtz）の https://arxiv.org/pdf/1205.1488 でsampling distribution（標本分布）という言葉を使っている。

https://en.wikipedia.org/wiki/Sampling_distribution

↑とは意味がが全然違うような、、、

http://www.econ.kyoto-u.ac.jp/~morimune/INTRO=STAT/2cdCh4-Stat.PDF

↑は教育的だが、これとも話が違う。

カルバートソン／スターツの https://arxiv.org/pdf/1205.1488 は記号と言葉の選び方が不適切で読みにくい論文だ。

一般にベイズ推論では、仮説（hypothesis）と証拠（evidence）という言葉が使われていて（e.g. https://en.wikipedia.org/wiki/Bayesian_inference）、仮説の確率（Probability of a hypothesis）なんて概念があるから、カルバートソン／スターツの「仮説の空間」（hypothesis space）はパラメータの空間のように思える。

カルバートソン／スターツの「標本分布」は、仮説空間＝パラメータ空間からデータの空間への確率核（単に「条件付き確率」と呼んでいる）のようだから、どうもパラメトリックモデルを「標本分布」と呼んでいるようだ。ほとんどワケワカな用語法。データ空間の分布が証拠に相当するのか？

別な論文 https://arxiv.org/pdf/1601.02593.pdf の記法は標準的で、だいぶマシな書き方になっている。

それとまた別な論文 https://arxiv.org/pdf/1312.1445.pdf では

The sampling distribution S and inference map I are often written as P_D∣H and P_H∣D, respectively, (誤記修正 by 檜山)

と書いてあるので、S(x|θ) = P_D∣H(x|θ) の意味とすると、パラメータθごとの分布 S(-|θ) を与えているので、パラメトリックモデルだろう、やっぱり。どこから「サンプリング分布」が出てきたのか謎。

https://arxiv.org/pdf/1312.1445.pdf のp.6第2章から、p.25までの20ページのほうが https://arxiv.org/pdf/1205.1488 より幾分か改善されているようだ。