このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

観測点と観測多様体のユニバースへの埋め込み

難しいのはしょうがないが、難しさがハッキリとしてないのは辛い。心情的に辛い。

データを分布(経験分布、観測分布)と考えて、分布全体の空間に埋め込んでそれを観測点と呼ぶ -- これはいいと思ったが、やはりハッキリしない。

http://www.ism.ac.jp/~eguchi/pdf/tenkai4.pdfコントラスト関数が出てくるが、これは、モデル多様体と観測多様体の直積で定義されるものではないか、という気がする。モデル多様体と観測多様体を重ね合わせるメカニズムがあるから、単一多様体上の関数のように見えるんでは?

いずれにしても、観測実現値=標本実現値=データ点 に対して分布を対応付ける写像が必要だ。あるいは逆に、モデル点(分布)に対してデータ点を対応付ける写像。しかし、モデル点→データ点は、写像というより確率関係(マルコフ核、マルコフ射)だろう。あるモデルが生成するデータ(標本値)の分布として確率関係がある。一方で、データ点→モデル点という確率関係がある。これは、特定データを発生させる可能性があるモデルの分布。モデルの分布(モデル空間上の密度関数)は、単一ピークを持つ滑らかな関数だから最大値を求めることができて、それが「もっともありそうなモデル」となる。

モデル多様体Mとして正規分布族(2パラメータ族)を使うとして、モデル点→データ点は、データ点のサイズがあるから、それをnとして、M→Rn の確率関係(マルコフ核)、つまり、f: (m, x) |→ 密度値 という密度関数(密度核)で、λx.f(m, x) がRn上の(つまり独立変数がxの)密度関数となるもの。

データ点→モデル点は、Rn→M という確率関係(マルコフ核)だが、Mがパラメータ空間Θを持つなら、Rn→Θ という確率関係とみてよい。サイズnデータ点(サイズnの標本実現値)dを決めるごとに、Θ上の確率分布が決まる。

データ点(Rnと思ってよい)とモデル点(Θの点と同一視してよい)を共通に入れる空間をSとする。Sはある種のユニバースだ。データ点をユニバースSに写像する方法をDとする。モデル点をユニバースに埋め込む方法をMとする(多様体Mと同じ記号)。

D(Rn)とM(Θ)がS内でどのような形状と位置関係になるか? これが重要だ。情報幾何によれば、ユニバースSには直交葉層構造が入り、モデルM(Θ)はその葉の一枚として埋め込めるはず。モデル多様体の一点mに対する直交補空間は双対葉層構造(むしろ補葉層構造)の直交葉空間となる。

Nが大きいとき、DN:RN→S がモデル多様体M(Θ)に”近くなる”という議論があるが、これは正確にはどういうことだろうか。D0, D1, D2, D3, ... という列が、M = M(Θ) に近付く、のだろうが「近付く」をどう定義するのか。

Diの定義域はすべて異なる(dom(Di) = Ri)。異なる定義域に属する写像が近付くとは? 最終的に、D:R→S となりそうだが、この写像Dは定義可能か?定義可能だとして、DとM:Θ→S はどういう関係か? DとMは一致するはずだが、このまま「一致」の意味が分からない。

まとめれば: 近似する、収束する、一致するを頻繁に使うのだが、ほとんど定義されてない