パラメトリックモデルと条件付き確率 - (保存用) 檜山正幸のキマイラ飼育記メモ編

条件付き確率を P(A|B) と書く。これは、Bが起こった前提でのAの確率で、

P(A|B) = P(A∩B)/P(B)

この定義は何の不思議もない。だが、pを確率モデル〈統計モデル〉として、条件付き確率 p(x|θ) を使うことがある。

pはパラメトリックモデル
xはデータ（またはサンプル／観測／測定結果）の空間X上の変数
θはパラメータの空間Θ上の変数

さてさてさて、なんだこれは？

まず、モデルは古典でもベイズでも p:Θ→PDist(X) という写像。PDist(-)は、位相測度空間（標準測度付き位相可測空間）上の確率分布の空間。確率分布と確率測度は同義。

PDist(X) は測度のなかでも密度表現可能なもの（標準測度に関して絶対連続）に限定すると、PDist(X) $\stackrel{\sim}{=}$ PDensity(X)。相互変換を、

density:PDis(X)→PDensity(X)
Γ:PDensity(X)→PDis(X)

とする。p:Θ→PDist(X), density:PDist(X)→PDensity(X) だから、f = p;desity とすると、f:Θ→PDensity(X) となる。この密度値のモデルに関して、

f(θ)(x) = f_θ(x) = f(x|θ)

と書く。f(x|θ) は、パラメータがθと固定された条件下でのf(- |θ)という密度関数なので、条件付き密度関数≒条件付き確率測度＝条件付き確率と言えなくもない。

次に、pが分布＝測度のときだが、p(θ)(x) に意味がない。なぜなら、p(θ)の引数はXの点ではなくてΣ_Xの要素である可測集合だから。Xが有限なら、

p(θ)({x}) = p_θ({x}) = p({x}|θ)

あるいは、xは点変数ではなくて、微小領域（微小可測写像）を表す測度論的微分形式の形式的微分変数と考えることはできる。

p(θ)(dx) = p_θ(dx) = p(dx|θ)

いずれにしても、普通の変数 x:X が p(x|θ) として入るはずがない。が、普通に使っている記法。ヒドイ。

密度関数としては、f(x|θ) = f_θ(x) = f(θ)(x) = λθ.λx.f(θ, x) でいちおうは合理化できる。pに関しては、p(dx|θ) の微分変数を単にxと書いていると解釈しよう。

結局、パラメトリックモデルは、ベイズでも古典でも、測度的積分核（ライプニッツの微分記法とアインシュタインの総和規約を測度に使ってみる - 檜山正幸のキマイラ飼育記）になっている。測度的積分核とは、マルコフ核＝確率写像＝確率関係だから、モデルはStochの射そのもの。

また、例によって母集団構造（確率変数＝変数＝変量＝単なる関数の族）は忘れさられるので、確率変数の分布＝データの分布であり、もともとが母集団の値空間だったものがデータ空間＝観測空間＝サンプル空間と呼ばれる。その要素は当然に、データ／観測／サンプルと呼ばれる。

データ空間＝観測空間＝サンプル空間＝実現値空間からパラメータ空間への単なる写像が推定子。確率変数も単なる写像だし、推定子も単なる写像。「推定子は確率変数だ」は、「単なる写像は単なる写像だ」と言っているだけ。

我々の枠組みでは、単なる写像＝非確率的写像＝確率変数だから、どんな単なる写像でも確率変数である。「単なる写像は分布しないが、確率変数は分布する」とかは嘘八百である。

もし確率変数が分布するなら、単なる写像も分布する。
もし単なる写像が分布しないなら、確率変数も分布しない。
なぜなら、単なる写像と確率変数は完全に同義だから。

通常、確率変数の域には確率測度があるとされるが、確率測度が固定されてなくても、確率測度の集合があればよい。それはジリィ・モナドで与えられている。よって、ジリィ・モナドから適当な確率測度を取れば、前送りできる。「前送りする」行為を「分布する」と言っているので、いかなる単なる関数でも、分布する（確率測度を前送りする）ことはできる。

こう考えると、「は分布する」より「を分布させる」のほうがまだマシ。

× 確率変数は分布する。
○ 確率変数は（確率測度を）分布させる（前送りする）。