データ 2
データ空間 D = V* = I + V + V2 + ... を分布の空間Dist(V)に埋め込むことは非常に重要。全データ空間の部分集合A⊆Dを考えることもある。
dist:D→Dist(V) を観測分布=経験分布を得る関数とする。distを正確に記述しないと、そこから先の議論ができない。Vが離散集合なら、観測データ d∈D に対して、値vごとの度数 f(v, d) が重要で、vを動かすと度数分布になる。データサイズnで割れば相対度数分布が得られる。
データdにおける度数関数 v|→f(v, d) は、d |→ λv:V.f(v, d) という関数とみられる。さらに、λv:V.f(v, d) から、Σ(f(v, d)δv (δはδ分布)として、経験分布が得られる。
値の空間Vが離散でない場合は、適合な区間(階級)に切っての度数を使って、f(I, d)χI という区間ごとの度数分布(ヒストグラム)を作って経験分布を作る。区間分割を固定すれば、経験分布は、単関数(ステップ関数)として分布の空間に埋め込まれる。
記述統計における度数分布表、ヒストグラム作成は、観測データから経験分布を作成する手順だった。区間のインジケータ関数χIと有理数による相対度数という換算的な枠組みで、可測関数を近似する。
値空間(観測量空間)Vの分割ごとに、経験分布の作成法 dist:D→Dist(V) が定義される。極限や収束は、データ空間のデータサイズnの∞方向と、値の空間Vの分割からなる有向系の両方がからんでいる。