観測分布とヒストグラム - (保存用) 檜山正幸のキマイラ飼育記メモ編

観測分布というものを考える。データ＝観測値＝観測なので、データ分布、観測値分布と言っても同じ、しかし標本分布は別な意味（統計値、統計量の分布）で使われているのでダメ。

変量 X:Ω→V があるとき、I-観測値とは V^I の要素で、抽出 α:I→Ω によりα;Xとして生成されたことを暗黙に仮定している。抽出のインデックス集合Iは、確率空間の標本点空間になっていて、確率空間 (I, γ) がある。I-観測データ x∈V^I は、x:I→V なので、確率空間 (I, γ) 上の変量（確率変数）になっている。確率変数には分布（前送り測度）が定義できるので、x_*(γ) = γ_x は値空間V上の分布（確率測度）になる。

以上の手順によって、データ＝観測値＝I上の変量 x に対して定義されるV上の分布（確率測度）を、xの観測分布＝データ分布と呼ぶ。

odist(x) := x_*(γ) とすると、odist:V^I→Dist(V) となる。Dist(V)は、可測空間V上のすべての確率測度の集合。

Disv(V)は、任意の分布（確率測度）を含む空間なので大き過ぎて扱いにくい。小さな空間を考える。

分布の空間

(V, ν) を滑らかな多様体になっている測度空間とする。Vは値の空間で、位相のボレルσ代数で可測空間になっている。νはボレルσ代数上の測度だが、固定された標準測度として扱う。

L¹(V, ν) を、測度νに関して絶対値可積分な関数の全体からなる関数空間とする。C(V) は、Vの位相に関して連続な実数値関数の全体からなる関数空間とする。C^∞(V) は滑らかな実数値関数全体からなる関数空間とする。

L¹C(V, ν) := L¹(V, ν)∩C(V)
L¹C^∞(V, ν) := L¹(V, ν)∩C^∞(V)

分布μが、標準測度νに対して絶対連続なら、ラドン／ニコディムの定理から微分 dμ/dx = f が存在して、f∈L¹(V, ν)。絶対連続、つまり密度関数が存在して、密度関数がL¹(V, ν)に入るような測度（分布）をL¹分布と呼ぶ。

同様に、密度関数がL¹C(V, ν)に入る分布をC分布、密度関数がL¹C^∞(V, ν)に入る分布をC^∞分布と呼ぶ。

連続分布という言葉は、L¹分布かC分布か判然としないので、連続分布とは言わないことにする。L¹分布を絶対連続分布とは言う。通常は、連続分布＝絶対連続分布である。

離散分布の埋め込み

抽出のインデックス集合Iが I = {1, ..., n} の場合を考える。このとき、n-観測値空間＝n-データ空間＝n-標本値空間は Vⁿ となる。抽出α:{1, ..., n}→Ω により誘導される標本集団 ({1, ..., n}, γ, α;X} では、({1, ..., n}, γ)が有限離散確率空間となっており、有限離散変量 α;X:{1, ..., n}→V がデータ＝観測値となっている。

データ＝観測値を変量＝確率変数とみなしての前送り測度は、値の空間V上の離散測度になる。離散測度は、標準測度νに対して絶対連続ではない（特異になる）ので、L¹測度（分布）ではない。当然に、C測度でもC^∞測度でもない。

V上の離散測度である観測分布は、そのままではラドン／ニコディム微分（導関数）を使った密度表現の枠組みには乗らない。そこで、ヒストグラムの空間を中間に置いて連絡する。

その前に、離散測度を密度関数の空間に直接埋め込む方法を述べる。

柱体関数による埋め込み

変量の値の空間Vはベクトル空間だとする。0ベクトルを含んで測度が正数εである集合Bを考える。Bを底面と呼ぶ。ベクトルx∈Vに対して、B + x は集合の平行移動を表す。

a∈Vに対するディラック測度δ_aがあるとき、L¹関数であるβ_aを次のように定義する。

β_a := (1/ε)χ_{(B + a)}

χ_{(B + a)}は、集合(B + a)のインジケーター関数である。β_aは集合(B + a)を台として、積分可能で積分値は1になる。

δ_a|→β_a が埋め込み。ディラック測度の線形結合に対しては、定義を線形に拡張すればよい。

柱体関数による埋め込みはL¹への埋め込みになる。

錐体関数による埋め込み

柱体関数と同様だが、底面Bには、0を中心とする円（球面）や正矩形などを使う。グラフが錐体になるような関数を作って、積分値が1になるように調整する。調整方法は底面の形によるが、正矩形なら簡単。

錐体関数による埋め込みはL¹Cへの埋め込みになる。

正規分布による埋め込み

正規分布の密度関数を使う。δ_aに対して平均がaで分散が十分に小さい（多次元）正規分布密度関数を使って埋め込む。

正規分布による埋め込みはL¹C^∞への埋め込みになる。

ヒストグラム

測度空間(V, ν)のビン分割とは、添字族 (B_j, b_j) （j∈J）で、次の条件を満たすもの。

Jは高々可算
B_j達は互いに交わらない。
B_j達はVを被覆する。
b_j∈B_j
0 ＜ ν(B_j) ＜ +∞

通常の用語法との対応

j∈J ビン番号／階級番号
B_j j番目のビン／階級
ν(B_j) ビン幅／階級幅
b_j 階級値

測度空間(V, ν)上にビン分割 Δ = (B_j, b_j) j∈J が与えられている状況で、Δ上のヒストグラムは、各ビン B_j のインジケーター関数の線形結合で与えられる関数のこと。ヒストグラムは、測度空間上の単関数になる。ビン分割が有限分割のときは、ヒストグラムの全体は有限次元ベクトル空間になる。

測度空間(V, ν)のビン分割Δに関するヒストグラムの全体を H(V, ν, Δ) とする。ビン分割がなんであっても、H(V, ν, Δ) ⊆ L¹(V, ν)。したがって、ヒストグラムは、正規化すればV上の分布（確率測度）を定義する。

DiscDist(V) をV上の離散分布（可算無限でもよい）とする。離散分布は、ディラック分布（点測度）δ_aの高々可算の線形結合なので、δ_aのヒストグラム化が定義できれば、DiscDist(V)→H(V, Δ)（測度の表記は省略）が定義できる。

h(δ_a) = Σ(j∈J | δ_a(B_j)χ[B_j])

χ[B_j] はインジケーター関数。ビン分割ではビンが重なることはないので、唯一つだけのB_jでの値が1になる。線形に拡張してhを定義すれば、h:DiscDist(V)→H(V, Δ)。定義の仕方を見ると、h:Dist(V)→H(V, Δ) が分かる。つまり、任意の測度のヒストグラム近似が可能である。

L¹密度関数があるとき、それを測度だと思ってヒストグラム近似を行えば、L¹→H(Δ) が定義できるが、密度関数を関数として近似（射影）することもできる。

fをV上の関数として、

k(f) = Σ(j∈J | f(b_j)χ[B_j])

ビン分割の添字集合Jに対して、H(Δ) $\stackrel{\sim}{=}$ R^J、特にJが有限ならば、H(Δ)は有限次元ベクトル空間。ヒストグラム空間H(Δ)は、測度や密度の有限近似（あるいは高々可算近似）に使える。