離散分布を指数分布族に、1次元の例
ちょっとした計算も追えなかった。理由は、例によって用語法/記号法。
まず、
- 確率変数xは、離散確率変数 x = 0, 1, ..., n とする。
「確率変数」と書いてあったら、「確率を考えるな!」というメッセージだと思ったほうが良い。解釈すると; なんらかの確率測度空間Uがあるとして、本来の確率変数(可測関数) X:U→R があるのだが、
- Xのとり得る値は、{0, 1, ..., n} である。よって、Xが実数値であることは忘れよ! あるいは、最初から実数値ではなかった(X:U→{0, 1, ..., n})と思え。
- 確率変数Xや背後の確率測度空間は忘れよ! 確率変数xとは、有限集合{0, 1, ..., n}の上を走る単なる変数だ。
と、こうなる。
こらから、n = 1 として、「離散確率変数 x = 0, 1 とする。」
確率変数の話だから、確率のことは一切忘れなくてはならない。もはや、確率とは何の関係もないのだ。
集合 {0, 1} 上の分布の空間を考える。まずは、R{0, 1} を考える。これは、任意の値(負も許す)を取る測度の空間と考えることができる。しかし、(確率とは関係ないが)次の条件を付ける。(p0, p1)∈R{0, 1} として:
- p0 ≧ 0, p1 ≧ 0 (非負性)
- p0 + p1 = 0 (正規性)
次の記号を導入する。
- Δn = {(x0, ..., xn)∈Rn+1 | xi ≧ 0、Σxi = 1}
- Ln = {(x1, ..., xn)∈Rn | xi ≧ 0、Σxi ≦ 1}
ΔnとLnは同型だが、添字の使い方と制約が違っている。外の空間の次元が1つ違う。どちらを使うか、区別しないことが多いので文脈で判断。
「離散確率変数 x = 0, 1 とする。」なら、対応する分布はベルヌーイ分布となる。「離散確率変数 x = 0, 1 の分布の空間」=「ベルヌーイ分布の空間」。ベルヌーイ分布は、p0δ0 + p1δ1 と書ける。δ密度は連続でなくて離散の場合も使う。2つのδ密度は、ベルヌーイ分布の空間の標準基底だが、制約がかかるので次元は2ではなくて1。
ベルヌーイ分布の空間のパラメータ空間は、Δ1⊆R2、またはL1⊆R1。ここでは、Δ1⊆R2 を使う。パラメータは、p0とp1の2つだが、制約がかかっている。
L1⊆R1 をパラメータに使うときは、p∈L1 とする。(p0, p1)とpの相互変換は、
- (p0, p1) |→ p1
- p |→ (1 - p, p)
さらに、次も導入する。
- Δn○ = {(x0, ..., xn)∈Rn+1 | xi > 0、Σxi = 1}
- Ln○ = {(x1, ..., xn)∈Rn | xi > 0、Σxi < 1}
不等号にイコールが入らないので、位相的な内部になる。
明示的に書いてないのだが、どうも、離散分布の標準パラメータ空間は、Δn○らしい。等号が入ると、より次元が低い空間に退化するので別に扱うらしい。台が退化しないという意味で非退化分布とでも言うべきか? 明示的な言葉もないような気がする。
Snを「離散確率変数 x = 0, 1, ..., n の分布の空間」とすると、どうも Sn Δn○ で、Δn○を標準パラメータ空間として使うようだ。
ここまで読み解くのにもエライ時間がかかる。
次に、(q, θ)∈区間(0, 1)×R を考える。区間(0, 1)×R を新しいパラメータ空間として、(q, θ) をその空間を走るパラメータ変数とする。(q, θ) と (p0, p1) との関係は、
- q = p0
- θ = log(p1/pp)
で与える。q = q(p0, p1), θ = θ(p0, p1) という伝統記法を使うと、関数としての(q, θ)は、Δ1○→区間(0, 1)×R、もとの空間が次元が1なので、像も次元が1。qとθは独立ではない。(q, θ)空間の次元が1の部分多様体となる。
- Θ = {(q, θ)∈区間(0, 1)×R | q = q(p0, p1), θ = θ(p0, p1)、(p0, p1)∈Δ1○}
つまり、Θは、関数としての(q, θ)の像である空間。Θ Δ1○ であり、可逆な微分可能写像で互いに移りあえる。Θは2パラメータで表現されているが、実際は1次元。
p(x, (q, θ)) を、{0, 1}×区間(0, 1)×R→R として定義する。
- p(x, (q, θ)) = exp(θx - log(q))
qは独立ではないので、q = q(θ) とすると、
- p(x, θ) = exp(θx - log(q(θ)))
と書ける。x = 0, 1なので、
- p(0, θ) = exp(- log(q(θ)))
- p(1, θ) = exp(θ - log(q(θ)))
p:Θ→S1 と考えると、ベルヌーイ分布の空間のパラメータ表示となる。Θ Δ1○ なので、標準パラメータ表示と相互変換が出来る。
内在的理由が分からないのだが、θによるパラメータ表示が自然なものらしい。1次元多様体S1(円周ではない)の幾何構造は、θ座標(パラメータ表示の逆写像)で表現されるらしい。