離散分布を指数分布族に、1次元の例 - (保存用) 檜山正幸のキマイラ飼育記メモ編

ちょっとした計算も追えなかった。理由は、例によって用語法／記号法。

まず、

確率変数xは、離散確率変数 x = 0, 1, ..., n とする。

「確率変数」と書いてあったら、「確率を考えるな！」というメッセージだと思ったほうが良い。解釈すると；なんらかの確率測度空間Uがあるとして、本来の確率変数（可測関数） X:U→R があるのだが、

Xのとり得る値は、{0, 1, ..., n} である。よって、Xが実数値であることは忘れよ！ あるいは、最初から実数値ではなかった（X:U→{0, 1, ..., n}）と思え。
確率変数Xや背後の確率測度空間は忘れよ！ 確率変数xとは、有限集合{0, 1, ..., n}の上を走る単なる変数だ。

と、こうなる。

こらから、n = 1 として、「離散確率変数 x = 0, 1 とする。」

確率変数の話だから、確率のことは一切忘れなくてはならない。もはや、確率とは何の関係もないのだ。

集合 {0, 1} 上の分布の空間を考える。まずは、R^{{0, 1}} を考える。これは、任意の値（負も許す）を取る測度の空間と考えることができる。しかし、（確率とは関係ないが）次の条件を付ける。(p₀, p₁)∈R^{{0, 1}} として：

p₀ ≧ 0, p₁ ≧ 0 （非負性）
p₀ + p₁ = 0 （正規性）

次の記号を導入する。

Δⁿ = {(x₀, ..., x_n)∈Rⁿ⁺¹ | x_i ≧ 0、Σx_i = 1}
Lⁿ = {(x₁, ..., x_n)∈Rⁿ | x_i ≧ 0、Σx_i ≦ 1}

ΔⁿとLⁿは同型だが、添字の使い方と制約が違っている。外の空間の次元が1つ違う。どちらを使うか、区別しないことが多いので文脈で判断。

「離散確率変数 x = 0, 1 とする。」なら、対応する分布はベルヌーイ分布となる。「離散確率変数 x = 0, 1 の分布の空間」＝「ベルヌーイ分布の空間」。ベルヌーイ分布は、p₀δ₀ + p₁δ₁ と書ける。δ密度は連続でなくて離散の場合も使う。2つのδ密度は、ベルヌーイ分布の空間の標準基底だが、制約がかかるので次元は2ではなくて1。

ベルヌーイ分布の空間のパラメータ空間は、Δ¹⊆R²、またはL¹⊆R¹。ここでは、Δ¹⊆R² を使う。パラメータは、p₀とp₁の2つだが、制約がかかっている。

L¹⊆R¹ をパラメータに使うときは、p∈L¹ とする。(p₀, p₁)とpの相互変換は、

(p₀, p₁) |→ p₁
p |→ (1 - p, p)

さらに、次も導入する。

Δⁿ_○ = {(x₀, ..., x_n)∈Rⁿ⁺¹ | x_i ＞ 0、Σx_i = 1}
Lⁿ_○ = {(x₁, ..., x_n)∈Rⁿ | x_i ＞ 0、Σx_i ＜ 1}

不等号にイコールが入らないので、位相的な内部になる。

明示的に書いてないのだが、どうも、離散分布の標準パラメータ空間は、Δⁿ_○らしい。等号が入ると、より次元が低い空間に退化するので別に扱うらしい。台が退化しないという意味で非退化分布とでも言うべきか？明示的な言葉もないような気がする。

Sⁿを「離散確率変数 x = 0, 1, ..., n の分布の空間」とすると、どうも Sⁿ $\stackrel{\sim}{=}$ Δⁿ_○ で、Δⁿ_○を標準パラメータ空間として使うようだ。

ここまで読み解くのにもエライ時間がかかる。

次に、(q, θ)∈区間(0, 1)×R を考える。区間(0, 1)×R を新しいパラメータ空間として、(q, θ) をその空間を走るパラメータ変数とする。(q, θ) と (p₀, p₁) との関係は、

q = p₀
θ = log(p₁/p_p)

で与える。q = q(p₀, p₁), θ = θ(p₀, p₁) という伝統記法を使うと、関数としての(q, θ)は、Δ¹_○→区間(0, 1)×R、もとの空間が次元が1なので、像も次元が1。qとθは独立ではない。(q, θ)空間の次元が1の部分多様体となる。

Θ = {(q, θ)∈区間(0, 1)×R | q = q(p₀, p₁), θ = θ(p₀, p₁)、(p₀, p₁)∈Δ¹_○}

つまり、Θは、関数としての(q, θ)の像である空間。Θ $\stackrel{\sim}{=}$ Δ¹_○ であり、可逆な微分可能写像で互いに移りあえる。Θは2パラメータで表現されているが、実際は1次元。

p(x, (q, θ)) を、{0, 1}×区間(0, 1)×R→R として定義する。

p(x, (q, θ)) = exp(θx - log(q))

qは独立ではないので、q = q(θ) とすると、

p(x, θ) = exp(θx - log(q(θ)))

と書ける。x = 0, 1なので、

p(0, θ) = exp(- log(q(θ)))

p(1, θ) = exp(θ - log(q(θ)))

p:Θ→S¹ と考えると、ベルヌーイ分布の空間のパラメータ表示となる。Θ $\stackrel{\sim}{=}$ Δ¹_○ なので、標準パラメータ表示と相互変換が出来る。

内在的理由が分からないのだが、θによるパラメータ表示が自然なものらしい。1次元多様体S¹（円周ではない）の幾何構造は、θ座標（パラメータ表示の逆写像）で表現されるらしい。