観測分布とヒストグラム
観測分布というものを考える。データ=観測値=観測なので、データ分布、観測値分布と言っても同じ、しかし標本分布は別な意味(統計値、統計量の分布)で使われているのでダメ。
変量 X:Ω→V があるとき、I-観測値とは VI の要素で、抽出 α:I→Ω によりα;Xとして生成されたことを暗黙に仮定している。抽出のインデックス集合Iは、確率空間の標本点空間になっていて、確率空間 (I, γ) がある。I-観測データ x∈VI は、x:I→V なので、確率空間 (I, γ) 上の変量(確率変数)になっている。確率変数には分布(前送り測度)が定義できるので、x*(γ) = γx は値空間V上の分布(確率測度)になる。
以上の手順によって、データ=観測値=I上の変量 x に対して定義されるV上の分布(確率測度)を、xの観測分布=データ分布と呼ぶ。
odist(x) := x*(γ) とすると、odist:VI→Dist(V) となる。Dist(V)は、可測空間V上のすべての確率測度の集合。
Disv(V)は、任意の分布(確率測度)を含む空間なので大き過ぎて扱いにくい。小さな空間を考える。
分布の空間
(V, ν) を滑らかな多様体になっている測度空間とする。Vは値の空間で、位相のボレルσ代数で可測空間になっている。νはボレルσ代数上の測度だが、固定された標準測度として扱う。
L1(V, ν) を、測度νに関して絶対値可積分な関数の全体からなる関数空間とする。C(V) は、Vの位相に関して連続な実数値関数の全体からなる関数空間とする。C∞(V) は滑らかな実数値関数全体からなる関数空間とする。
- L1C(V, ν) := L1(V, ν)∩C(V)
- L1C∞(V, ν) := L1(V, ν)∩C∞(V)
分布μが、標準測度νに対して絶対連続なら、ラドン/ニコディムの定理から微分 dμ/dx = f が存在して、f∈L1(V, ν)。絶対連続、つまり密度関数が存在して、密度関数がL1(V, ν)に入るような測度(分布)をL1分布と呼ぶ。
同様に、密度関数がL1C(V, ν)に入る分布をC分布、密度関数がL1C∞(V, ν)に入る分布をC∞分布と呼ぶ。
連続分布という言葉は、L1分布かC分布か判然としないので、連続分布とは言わないことにする。L1分布を絶対連続分布とは言う。通常は、連続分布=絶対連続分布である。
離散分布の埋め込み
抽出のインデックス集合Iが I = {1, ..., n} の場合を考える。このとき、n-観測値空間=n-データ空間=n-標本値空間は Vn となる。抽出α:{1, ..., n}→Ω により誘導される標本集団 ({1, ..., n}, γ, α;X} では、({1, ..., n}, γ)が有限離散確率空間となっており、有限離散変量 α;X:{1, ..., n}→V がデータ=観測値となっている。
データ=観測値を変量=確率変数とみなしての前送り測度は、値の空間V上の離散測度になる。離散測度は、標準測度νに対して絶対連続ではない(特異になる)ので、L1測度(分布)ではない。当然に、C測度でもC∞測度でもない。
V上の離散測度である観測分布は、そのままではラドン/ニコディム微分(導関数)を使った密度表現の枠組みには乗らない。そこで、ヒストグラムの空間を中間に置いて連絡する。
その前に、離散測度を密度関数の空間に直接埋め込む方法を述べる。
柱体関数による埋め込み
変量の値の空間Vはベクトル空間だとする。0ベクトルを含んで測度が正数εである集合Bを考える。Bを底面と呼ぶ。ベクトルx∈Vに対して、B + x は集合の平行移動を表す。
a∈Vに対するディラック測度δaがあるとき、L1関数であるβaを次のように定義する。
- βa := (1/ε)χ(B + a)
χ(B + a)は、集合(B + a)のインジケーター関数である。βaは集合(B + a)を台として、積分可能で積分値は1になる。
δa|→βa が埋め込み。ディラック測度の線形結合に対しては、定義を線形に拡張すればよい。
柱体関数による埋め込みはL1への埋め込みになる。
錐体関数による埋め込み
柱体関数と同様だが、底面Bには、0を中心とする円(球面)や正矩形などを使う。グラフが錐体になるような関数を作って、積分値が1になるように調整する。調整方法は底面の形によるが、正矩形なら簡単。
錐体関数による埋め込みはL1Cへの埋め込みになる。
正規分布による埋め込み
正規分布の密度関数を使う。δaに対して平均がaで分散が十分に小さい(多次元)正規分布密度関数を使って埋め込む。
正規分布による埋め込みはL1C∞への埋め込みになる。
ヒストグラム
測度空間(V, ν)のビン分割とは、添字族 (Bj, bj) (j∈J)で、次の条件を満たすもの。
- Jは高々可算
- Bj達は互いに交わらない。
- Bj達はVを被覆する。
- bj∈Bj
- 0 < ν(Bj) < +∞
通常の用語法との対応
- j∈J ビン番号/階級番号
- Bj j番目のビン/階級
- ν(Bj) ビン幅/階級幅
- bj 階級値
測度空間(V, ν)上にビン分割 Δ = (Bj, bj) j∈J が与えられている状況で、Δ上のヒストグラムは、各ビン Bj のインジケーター関数の線形結合で与えられる関数のこと。ヒストグラムは、測度空間上の単関数になる。ビン分割が有限分割のときは、ヒストグラムの全体は有限次元ベクトル空間になる。
測度空間(V, ν)のビン分割Δに関するヒストグラムの全体を H(V, ν, Δ) とする。ビン分割がなんであっても、H(V, ν, Δ) ⊆ L1(V, ν)。したがって、ヒストグラムは、正規化すればV上の分布(確率測度)を定義する。
DiscDist(V) をV上の離散分布(可算無限でもよい)とする。離散分布は、ディラック分布(点測度)δaの高々可算の線形結合なので、δaのヒストグラム化が定義できれば、DiscDist(V)→H(V, Δ)(測度の表記は省略)が定義できる。
- h(δa) = Σ(j∈J | δa(Bj)χ[Bj])
χ[Bj] はインジケーター関数。ビン分割ではビンが重なることはないので、唯一つだけのBjでの値が1になる。線形に拡張してhを定義すれば、h:DiscDist(V)→H(V, Δ)。定義の仕方を見ると、h:Dist(V)→H(V, Δ) が分かる。つまり、任意の測度のヒストグラム近似が可能である。
L1密度関数があるとき、それを測度だと思ってヒストグラム近似を行えば、L1→H(Δ) が定義できるが、密度関数を関数として近似(射影)することもできる。
fをV上の関数として、
- k(f) = Σ(j∈J | f(bj)χ[Bj])
ビン分割の添字集合Jに対して、H(Δ)RJ、特にJが有限ならば、H(Δ)は有限次元ベクトル空間。ヒストグラム空間H(Δ)は、測度や密度の有限近似(あるいは高々可算近似)に使える。