観測点と観測多様体のユニバースへの埋め込み - (保存用) 檜山正幸のキマイラ飼育記メモ編

難しいのはしょうがないが、難しさがハッキリとしてないのは辛い。心情的に辛い。

データを分布（経験分布、観測分布）と考えて、分布全体の空間に埋め込んでそれを観測点と呼ぶ -- これはいいと思ったが、やはりハッキリしない。

http://www.ism.ac.jp/~eguchi/pdf/tenkai4.pdf にコントラスト関数が出てくるが、これは、モデル多様体と観測多様体の直積で定義されるものではないか、という気がする。モデル多様体と観測多様体を重ね合わせるメカニズムがあるから、単一多様体上の関数のように見えるんでは？

いずれにしても、観測実現値＝標本実現値＝データ点に対して分布を対応付ける写像が必要だ。あるいは逆に、モデル点（分布）に対してデータ点を対応付ける写像。しかし、モデル点→データ点は、写像というより確率関係（マルコフ核、マルコフ射）だろう。あるモデルが生成するデータ（標本値）の分布として確率関係がある。一方で、データ点→モデル点という確率関係がある。これは、特定データを発生させる可能性があるモデルの分布。モデルの分布（モデル空間上の密度関数）は、単一ピークを持つ滑らかな関数だから最大値を求めることができて、それが「もっともありそうなモデル」となる。

モデル多様体Mとして正規分布族（2パラメータ族）を使うとして、モデル点→データ点は、データ点のサイズがあるから、それをnとして、M→Rⁿ の確率関係（マルコフ核）、つまり、f: (m, x) ｜→ 密度値という密度関数（密度核）で、λx.f(m, x) がRⁿ上の（つまり独立変数がxの）密度関数となるもの。

データ点→モデル点は、Rⁿ→M という確率関係（マルコフ核）だが、Mがパラメータ空間Θを持つなら、Rⁿ→Θ という確率関係とみてよい。サイズnデータ点（サイズnの標本実現値）dを決めるごとに、Θ上の確率分布が決まる。

データ点（Rⁿと思ってよい）とモデル点（Θの点と同一視してよい）を共通に入れる空間をSとする。Sはある種のユニバースだ。データ点をユニバースSに写像する方法をDとする。モデル点をユニバースに埋め込む方法をMとする（多様体Mと同じ記号）。

D(Rⁿ)とM（Θ)がS内でどのような形状と位置関係になるか？これが重要だ。情報幾何によれば、ユニバースSには直交葉層構造が入り、モデルM(Θ)はその葉の一枚として埋め込めるはず。モデル多様体の一点mに対する直交補空間は双対葉層構造（むしろ補葉層構造）の直交葉空間となる。

Nが大きいとき、D_N:R^N→S がモデル多様体M(Θ)に”近くなる”という議論があるが、これは正確にはどういうことだろうか。D₀, D₁, D₂, D₃, ... という列が、M = M(Θ) に近付く、のだろうが「近付く」をどう定義するのか。

D_iの定義域はすべて異なる（dom(D_i) = Rⁱ）。異なる定義域に属する写像が近付くとは？最終的に、D_∞:R^∞→S となりそうだが、この写像D_∞は定義可能か？定義可能だとして、D_∞とM:Θ→S はどういう関係か？ D_∞とMは一致するはずだが、このまま「一致」の意味が分からない。

まとめれば：近似する、収束する、一致するを頻繁に使うのだが、ほとんど定義されてない。