データ 2 - (保存用) 檜山正幸のキマイラ飼育記メモ編

データ空間 D = V^* = I + V + V² + ... を分布の空間Dist(V)に埋め込むことは非常に重要。全データ空間の部分集合A⊆Dを考えることもある。

dist:D→Dist(V) を観測分布＝経験分布を得る関数とする。distを正確に記述しないと、そこから先の議論ができない。Vが離散集合なら、観測データ d∈D に対して、値vごとの度数 f(v, d) が重要で、vを動かすと度数分布になる。データサイズnで割れば相対度数分布が得られる。

データdにおける度数関数 v｜→f(v, d) は、d |→ λv:V.f(v, d) という関数とみられる。さらに、λv:V.f(v, d) から、Σ(f(v, d)δ_v （δはδ分布）として、経験分布が得られる。

値の空間Vが離散でない場合は、適合な区間（階級）に切っての度数を使って、f(I, d)χ_I という区間ごとの度数分布（ヒストグラム）を作って経験分布を作る。区間分割を固定すれば、経験分布は、単関数（ステップ関数）として分布の空間に埋め込まれる。

記述統計における度数分布表、ヒストグラム作成は、観測データから経験分布を作成する手順だった。区間のインジケータ関数χ_Iと有理数による相対度数という換算的な枠組みで、可測関数を近似する。

値空間（観測量空間）Vの分割ごとに、経験分布の作成法 dist:D→Dist(V) が定義される。極限や収束は、データ空間のデータサイズnの∞方向と、値の空間Vの分割からなる有向系の両方がからんでいる。