このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

データ

データに関しての確認事項。

  • 観測量=確率変数
  • 観測値の空間=確率変数の値の集合、ベクトル空間とは限らない!
  • データ=繰り返し観測の実現値=データ点
  • データ空間=観測値の空間の直積の直和=クリーネスタ
  • 統計値関数=データ空間上の任意の関数
  • 統計量=統計値関数を観測量または観測標本(確率標本、標本変数)と結合したもの。
  • 観測分布=経験分布 分布空間の点なので、観測点とも呼ぶ。
  • 観測多様体=データ多様体 分布空間内の観測点の集まり

観測値空間(人により標本空間)をVとして、D := V*= I + V + V2 + ... がデータ空間。V上の分布の空間をDist(V)とすると、経験分布は、D→Dist(V) という写像で定義される。頻度主義では、I→Dist(V) は定義されないが、ベイジアンなら I→Dist(V) は事前確率分布(主観確率分布)として意味を持つ。

M⊆Dist(V) をパラメータフリーなモデル多様体として、D×M→R で適当な条件を満たすものが尤度関数。尤度関数の定義域 f:D×M は、経験分布としての埋め込みにより、Dist(V)×Dist(V) に埋め込める。

Dist(V)内で、データ(Dの要素)の経験分布(Dist(V)の要素)とモデルの分布(Mの要素)を比較するのが情報幾何的な議論。