観測点と観測多様体のユニバースへの埋め込み
難しいのはしょうがないが、難しさがハッキリとしてないのは辛い。心情的に辛い。
データを分布(経験分布、観測分布)と考えて、分布全体の空間に埋め込んでそれを観測点と呼ぶ -- これはいいと思ったが、やはりハッキリしない。
http://www.ism.ac.jp/~eguchi/pdf/tenkai4.pdf にコントラスト関数が出てくるが、これは、モデル多様体と観測多様体の直積で定義されるものではないか、という気がする。モデル多様体と観測多様体を重ね合わせるメカニズムがあるから、単一多様体上の関数のように見えるんでは?
いずれにしても、観測実現値=標本実現値=データ点 に対して分布を対応付ける写像が必要だ。あるいは逆に、モデル点(分布)に対してデータ点を対応付ける写像。しかし、モデル点→データ点は、写像というより確率関係(マルコフ核、マルコフ射)だろう。あるモデルが生成するデータ(標本値)の分布として確率関係がある。一方で、データ点→モデル点という確率関係がある。これは、特定データを発生させる可能性があるモデルの分布。モデルの分布(モデル空間上の密度関数)は、単一ピークを持つ滑らかな関数だから最大値を求めることができて、それが「もっともありそうなモデル」となる。
モデル多様体Mとして正規分布族(2パラメータ族)を使うとして、モデル点→データ点は、データ点のサイズがあるから、それをnとして、M→Rn の確率関係(マルコフ核)、つまり、f: (m, x) |→ 密度値 という密度関数(密度核)で、λx.f(m, x) がRn上の(つまり独立変数がxの)密度関数となるもの。
データ点→モデル点は、Rn→M という確率関係(マルコフ核)だが、Mがパラメータ空間Θを持つなら、Rn→Θ という確率関係とみてよい。サイズnデータ点(サイズnの標本実現値)dを決めるごとに、Θ上の確率分布が決まる。
データ点(Rnと思ってよい)とモデル点(Θの点と同一視してよい)を共通に入れる空間をSとする。Sはある種のユニバースだ。データ点をユニバースSに写像する方法をDとする。モデル点をユニバースに埋め込む方法をMとする(多様体Mと同じ記号)。
D(Rn)とM(Θ)がS内でどのような形状と位置関係になるか? これが重要だ。情報幾何によれば、ユニバースSには直交葉層構造が入り、モデルM(Θ)はその葉の一枚として埋め込めるはず。モデル多様体の一点mに対する直交補空間は双対葉層構造(むしろ補葉層構造)の直交葉空間となる。
Nが大きいとき、DN:RN→S がモデル多様体M(Θ)に”近くなる”という議論があるが、これは正確にはどういうことだろうか。D0, D1, D2, D3, ... という列が、M = M(Θ) に近付く、のだろうが「近付く」をどう定義するのか。
Diの定義域はすべて異なる(dom(Di) = Ri)。異なる定義域に属する写像が近付くとは? 最終的に、D∞:R∞→S となりそうだが、この写像D∞は定義可能か?定義可能だとして、D∞とM:Θ→S はどういう関係か? D∞とMは一致するはずだが、このまま「一致」の意味が分からない。
まとめれば: 近似する、収束する、一致するを頻繁に使うのだが、ほとんど定義されてない。