このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

離散分布を指数分布族に、1次元の例

ちょっとした計算も追えなかった。理由は、例によって用語法/記号法。

まず、

  • 確率変数xは、離散確率変数 x = 0, 1, ..., n とする。

「確率変数」と書いてあったら、「確率を考えるな!」というメッセージだと思ったほうが良い。解釈すると; なんらかの確率測度空間Uがあるとして、本来の確率変数(可測関数) X:U→R があるのだが、

  1. Xのとり得る値は、{0, 1, ..., n} である。よって、Xが実数値であることは忘れよ! あるいは、最初から実数値ではなかった(X:U→{0, 1, ..., n})と思え。
  2. 確率変数Xや背後の確率測度空間は忘れよ! 確率変数xとは、有限集合{0, 1, ..., n}の上を走る単なる変数だ。

と、こうなる。

こらから、n = 1 として、「離散確率変数 x = 0, 1 とする。」

確率変数の話だから、確率のことは一切忘れなくてはならない。もはや、確率とは何の関係もないのだ。

集合 {0, 1} 上の分布の空間を考える。まずは、R{0, 1} を考える。これは、任意の値(負も許す)を取る測度の空間と考えることができる。しかし、(確率とは関係ないが)次の条件を付ける。(p0, p1)∈R{0, 1} として:

  1. p0 ≧ 0, p1 ≧ 0 (非負性)
  2. p0 + p1 = 0 (正規性)

次の記号を導入する。

  • Δn = {(x0, ..., xn)∈Rn+1 | xi ≧ 0、Σxi = 1}
  • Ln = {(x1, ..., xn)∈Rn | xi ≧ 0、Σxi ≦ 1}

ΔnとLnは同型だが、添字の使い方と制約が違っている。外の空間の次元が1つ違う。どちらを使うか、区別しないことが多いので文脈で判断。

「離散確率変数 x = 0, 1 とする。」なら、対応する分布はベルヌーイ分布となる。「離散確率変数 x = 0, 1 の分布の空間」=「ベルヌーイ分布の空間」。ベルヌーイ分布は、p0δ0 + p1δ1 と書ける。δ密度は連続でなくて離散の場合も使う。2つのδ密度は、ベルヌーイ分布の空間の標準基底だが、制約がかかるので次元は2ではなくて1。

ベルヌーイ分布の空間のパラメータ空間は、Δ1R2、またはL1R1。ここでは、Δ1R2 を使う。パラメータは、p0とp12つだが、制約がかかっている。

L1R1 をパラメータに使うときは、p∈L1 とする。(p0, p1)とpの相互変換は、

  1. (p0, p1) |→ p1
  2. p |→ (1 - p, p)

さらに、次も導入する。

  • Δn = {(x0, ..., xn)∈Rn+1 | xi > 0、Σxi = 1}
  • Ln = {(x1, ..., xn)∈Rn | xi > 0、Σxi < 1}

不等号にイコールが入らないので、位相的な内部になる。

明示的に書いてないのだが、どうも、離散分布の標準パラメータ空間は、Δnらしい。等号が入ると、より次元が低い空間に退化するので別に扱うらしい。台が退化しないという意味で非退化分布とでも言うべきか? 明示的な言葉もないような気がする。

Snを「離散確率変数 x = 0, 1, ..., n の分布の空間」とすると、どうも Sn \stackrel{\sim}{=} Δn で、Δnを標準パラメータ空間として使うようだ。

ここまで読み解くのにもエライ時間がかかる。

次に、(q, θ)∈区間(0, 1)×R を考える。区間(0, 1)×R を新しいパラメータ空間として、(q, θ) をその空間を走るパラメータ変数とする。(q, θ) と (p0, p1) との関係は、

  • q = p0
  • θ = log(p1/pp)

で与える。q = q(p0, p1), θ = θ(p0, p1) という伝統記法を使うと、関数としての(q, θ)は、Δ1区間(0, 1)×R、もとの空間が次元が1なので、像も次元が1。qとθは独立ではない。(q, θ)空間の次元が1の部分多様体となる。

  • Θ = {(q, θ)∈区間(0, 1)×R | q = q(p0, p1), θ = θ(p0, p1)、(p0, p1)∈Δ1}

つまり、Θは、関数としての(q, θ)の像である空間。Θ \stackrel{\sim}{=} Δ1 であり、可逆な微分可能写像で互いに移りあえる。Θは2パラメータで表現されているが、実際は1次元。

p(x, (q, θ)) を、{0, 1}×区間(0, 1)×RR として定義する。

  • p(x, (q, θ)) = exp(θx - log(q))

qは独立ではないので、q = q(θ) とすると、

  • p(x, θ) = exp(θx - log(q(θ)))

と書ける。x = 0, 1なので、

  1. p(0, θ) = exp(- log(q(θ)))
  • p(1, θ) = exp(θ - log(q(θ)))

p:Θ→S1 と考えると、ベルヌーイ分布の空間のパラメータ表示となる。Θ \stackrel{\sim}{=} Δ1 なので、標準パラメータ表示と相互変換が出来る。

内在的理由が分からないのだが、θによるパラメータ表示が自然なものらしい。1次元多様体S1(円周ではない)の幾何構造は、θ座標(パラメータ表示の逆写像)で表現されるらしい。