このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

観測分布とヒストグラム

観測分布というものを考える。データ=観測値=観測なので、データ分布、観測値分布と言っても同じ、しかし標本分布は別な意味(統計値、統計量の分布)で使われているのでダメ。

変量 X:Ω→V があるとき、I-観測値とは VI の要素で、抽出 α:I→Ω によりα;Xとして生成されたことを暗黙に仮定している。抽出のインデックス集合Iは、確率空間の標本点空間になっていて、確率空間 (I, γ) がある。I-観測データ x∈VI は、x:I→V なので、確率空間 (I, γ) 上の変量(確率変数)になっている。確率変数には分布(前送り測度)が定義できるので、x*(γ) = γx は値空間V上の分布(確率測度)になる。

以上の手順によって、データ=観測値=I上の変量 x に対して定義されるV上の分布(確率測度)を、xの観測分布データ分布と呼ぶ。

odist(x) := x*(γ) とすると、odist:VI→Dist(V) となる。Dist(V)は、可測空間V上のすべての確率測度の集合。

Disv(V)は、任意の分布(確率測度)を含む空間なので大き過ぎて扱いにくい。小さな空間を考える。

分布の空間

(V, ν) を滑らかな多様体になっている測度空間とする。Vは値の空間で、位相のボレルσ代数で可測空間になっている。νはボレルσ代数上の測度だが、固定された標準測度として扱う。

L1(V, ν) を、測度νに関して絶対値可積分な関数の全体からなる関数空間とする。C(V) は、Vの位相に関して連続な実数値関数の全体からなる関数空間とする。C(V) は滑らかな実数値関数全体からなる関数空間とする。

  • L1C(V, ν) := L1(V, ν)∩C(V)
  • L1C(V, ν) := L1(V, ν)∩C(V)

分布μが、標準測度νに対して絶対連続なら、ラドン/ニコディムの定理から微分 dμ/dx = f が存在して、f∈L1(V, ν)。絶対連続、つまり密度関数が存在して、密度関数がL1(V, ν)に入るような測度(分布)をL1分布と呼ぶ。

同様に、密度関数がL1C(V, ν)に入る分布をC分布、密度関数がL1C(V, ν)に入る分布をC分布と呼ぶ。

連続分布という言葉は、L1分布かC分布か判然としないので、連続分布とは言わないことにする。L1分布を絶対連続分布とは言う。通常は、連続分布=絶対連続分布である。

離散分布の埋め込み

抽出のインデックス集合Iが I = {1, ..., n} の場合を考える。このとき、n-観測値空間=n-データ空間=n-標本値空間は Vn となる。抽出α:{1, ..., n}→Ω により誘導される標本集団 ({1, ..., n}, γ, α;X} では、({1, ..., n}, γ)が有限離散確率空間となっており、有限離散変量 α;X:{1, ..., n}→V がデータ=観測値となっている。

データ=観測値を変量=確率変数とみなしての前送り測度は、値の空間V上の離散測度になる。離散測度は、標準測度νに対して絶対連続ではない(特異になる)ので、L1測度(分布)ではない。当然に、C測度でもC測度でもない。

V上の離散測度である観測分布は、そのままではラドン/ニコディム微分導関数)を使った密度表現の枠組みには乗らない。そこで、ヒストグラムの空間を中間に置いて連絡する。

その前に、離散測度を密度関数の空間に直接埋め込む方法を述べる。

柱体関数による埋め込み

変量の値の空間Vはベクトル空間だとする。0ベクトルを含んで測度が正数εである集合Bを考える。Bを底面と呼ぶ。ベクトルx∈Vに対して、B + x は集合の平行移動を表す。

a∈Vに対するディラック測度δaがあるとき、L1関数であるβaを次のように定義する。

  • βa := (1/ε)χ(B + a)

χ(B + a)は、集合(B + a)のインジケーター関数である。βaは集合(B + a)を台として、積分可能で積分値は1になる。

δa|→βa が埋め込み。ディラック測度の線形結合に対しては、定義を線形に拡張すればよい。

柱体関数による埋め込みはL1への埋め込みになる。

錐体関数による埋め込み

柱体関数と同様だが、底面Bには、0を中心とする円(球面)や正矩形などを使う。グラフが錐体になるような関数を作って、積分値が1になるように調整する。調整方法は底面の形によるが、正矩形なら簡単。

錐体関数による埋め込みはL1Cへの埋め込みになる。

正規分布による埋め込み

正規分布の密度関数を使う。δaに対して平均がaで分散が十分に小さい(多次元)正規分布密度関数を使って埋め込む。

正規分布による埋め込みはL1Cへの埋め込みになる。

ヒストグラム

測度空間(V, ν)のビン分割とは、添字族 (Bj, bj) (j∈J)で、次の条件を満たすもの。

  1. Jは高々可算
  2. Bj達は互いに交わらない。
  3. Bj達はVを被覆する。
  4. bj∈Bj
  5. 0 < ν(Bj) < +∞

通常の用語法との対応

  • j∈J ビン番号/階級番号
  • Bj j番目のビン/階級
  • ν(Bj) ビン幅/階級幅
  • bj 階級値

測度空間(V, ν)上にビン分割 Δ = (Bj, bj) j∈J が与えられている状況で、Δ上のヒストグラムは、各ビン Bj のインジケーター関数の線形結合で与えられる関数のこと。ヒストグラムは、測度空間上の単関数になる。ビン分割が有限分割のときは、ヒストグラムの全体は有限次元ベクトル空間になる。

測度空間(V, ν)のビン分割Δに関するヒストグラムの全体を H(V, ν, Δ) とする。ビン分割がなんであっても、H(V, ν, Δ) ⊆ L1(V, ν)。したがって、ヒストグラムは、正規化すればV上の分布(確率測度)を定義する。

DiscDist(V) をV上の離散分布(可算無限でもよい)とする。離散分布は、ディラック分布(点測度)δaの高々可算の線形結合なので、δaヒストグラム化が定義できれば、DiscDist(V)→H(V, Δ)(測度の表記は省略)が定義できる。

  • h(δa) = Σ(j∈J | δa(Bj)χ[Bj])

χ[Bj] はインジケーター関数。ビン分割ではビンが重なることはないので、唯一つだけのBjでの値が1になる。線形に拡張してhを定義すれば、h:DiscDist(V)→H(V, Δ)。定義の仕方を見ると、h:Dist(V)→H(V, Δ) が分かる。つまり、任意の測度のヒストグラム近似が可能である。

L1密度関数があるとき、それを測度だと思ってヒストグラム近似を行えば、L1→H(Δ) が定義できるが、密度関数を関数として近似(射影)することもできる。

fをV上の関数として、

  • k(f) = Σ(j∈J | f(bj)χ[Bj])

ビン分割の添字集合Jに対して、H(Δ)\stackrel{\sim}{=}RJ、特にJが有限ならば、H(Δ)は有限次元ベクトル空間。ヒストグラム空間H(Δ)は、測度や密度の有限近似(あるいは高々可算近似)に使える。