データ
データに関しての確認事項。
- 観測量=確率変数
- 観測値の空間=確率変数の値の集合、ベクトル空間とは限らない!
- データ=繰り返し観測の実現値=データ点
- データ空間=観測値の空間の直積の直和=クリーネスター
- 統計値関数=データ空間上の任意の関数
- 統計量=統計値関数を観測量または観測標本(確率標本、標本変数)と結合したもの。
- 観測分布=経験分布 分布空間の点なので、観測点とも呼ぶ。
- 観測多様体=データ多様体 分布空間内の観測点の集まり
観測値空間(人により標本空間)をVとして、D := V*= I + V + V2 + ... がデータ空間。V上の分布の空間をDist(V)とすると、経験分布は、D→Dist(V) という写像で定義される。頻度主義では、I→Dist(V) は定義されないが、ベイジアンなら I→Dist(V) は事前確率分布(主観確率分布)として意味を持つ。
M⊆Dist(V) をパラメータフリーなモデル多様体として、D×M→R で適当な条件を満たすものが尤度関数。尤度関数の定義域 f:D×M は、経験分布としての埋め込みにより、Dist(V)×Dist(V) に埋め込める。
Dist(V)内で、データ(Dの要素)の経験分布(Dist(V)の要素)とモデルの分布(Mの要素)を比較するのが情報幾何的な議論。