このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

データ 2

データ空間 D = V* = I + V + V2 + ... を分布の空間Dist(V)に埋め込むことは非常に重要。全データ空間の部分集合A⊆Dを考えることもある。

dist:D→Dist(V) を観測分布=経験分布を得る関数とする。distを正確に記述しないと、そこから先の議論ができない。Vが離散集合なら、観測データ d∈D に対して、値vごとの度数 f(v, d) が重要で、vを動かすと度数分布になる。データサイズnで割れば相対度数分布が得られる。

データdにおける度数関数 v|→f(v, d) は、d |→ λv:V.f(v, d) という関数とみられる。さらに、λv:V.f(v, d) から、Σ(f(v, d)δv (δはδ分布)として、経験分布が得られる。

値の空間Vが離散でない場合は、適合な区間(階級)に切っての度数を使って、f(I, d)χI という区間ごとの度数分布(ヒストグラム)を作って経験分布を作る。区間分割を固定すれば、経験分布は、単関数(ステップ関数)として分布の空間に埋め込まれる。

記述統計における度数分布表、ヒストグラム作成は、観測データから経験分布を作成する手順だった。区間のインジケータ関数χI有理数による相対度数という換算的な枠組みで、可測関数を近似する。

値空間(観測量空間)Vの分割ごとに、経験分布の作成法 dist:D→Dist(V) が定義される。極限や収束は、データ空間のデータサイズnの∞方向と、値の空間Vの分割からなる有向系の両方がからんでいる。