尺度の圏論
概要
尺度の議論をちゃんとしないと色々とハッキリしないと思う。尺度とは何か? というと尺度圏の対象だと思うのが良さそうだ。
特にアフィン尺度とユークリッド尺度について定式化する。アフィン尺度はアフィン空間の圏、ユークリッド尺度はユークリッド空間の圏となる。以下に順番に書いていく。
アフィン空間とユークリッド空間
可測空間の圏における実ベクトル空間対象を可測ベクトル空間と呼ぶ。具体的な記述は、ベクトル空間の台が可測空間であり、足し算と実スカラー倍が可測写像になっているもの。可測ベクトル空間に測度が1つ指定されたものを測度付きベクトル空間と呼ぶ。ただし、指定された測度は平行移動不変でなければいけない。測度付きベクトル空間を (V, μ) のように書く。v∈V, A∈ΣV に対して、μ(A + v) = μ(A) となる。
同伴ベクトル空間が測度付きベクトル空間であるようなアフィン空間を測度付きアフィン空間と呼ぶ。アフィン空間の台集合(点の空間)も測度空間になる。台集合上の測度を標準アフィン測度と呼ぶ。
ユークリッド測度付きベクトル空間は次のように定義される。
- 有限次元ベクトル空間である。
- 内積を持つ。
- 測度付きベクトル空間である。
- すべての直方体の測度は辺の長さの積で与えられる。
ユークリッド測度付きベクトル空間を同伴ベクトル空間とするアフィン空間を、ユークリッド測度付きアフィン空間と呼ぶ。その測度は、標準ユークリッド測度と呼ぶ。
誤解の恐れがなければ、測度付きアフィン空間を単にアフィン空間、ユークリッド測度付きアフィン空間を単にユークリッド空間と呼ぶ。アフィン空間もユークリッド空間も可測構造と標準測度を持つので、その上の可測関数の積分を定義できる。
斜め圏
斜め圏(oblique category)は、圏A, B, Vに対して、反変共変の二項関手 K:Aop×B→V のことである。V = Set のときは、プロ関手、超関手(distributor)、双加群などと呼ばれる。Vは具象圏、つまり忠実な忘却関手 U:V→Set を持つとする。
A∈|A|, B∈|B|に対して、K(A, B)∈|V| を斜めホム対象(oblique hom object)と呼ぶ。Vが具象圏だったので、対象は集合とみなせるので斜めホム集合(oblique homset)とも呼ぶ。
コンパクトハウスドルフ空間の圏をCompHous、バナッハ空間の圏をBanとして、X∈|CompHous|、V∈|Ban| に対して、連続関数の全体を C(X, V) として、C(X, V)に最大値ノルムでバナッハ空間構造を入れる。このとき、C:CompHousop×Ban→Ban は斜め圏になる。
統計グローブ
Probを確率空間の圏とする。射は、確率測度を保つ可測写像とする。確率空間からの確率変数は、その分布と共にProbの射とみなせる。
PをProbの部分圏とする。R:P×C→V という斜め圏を統計グローブ(statistical globe)(仮)と呼ぶことにする。いくつかの条件がある。
- Cは測度空間と可測写像の圏MSpへの忘却関手を持たなくてはならない。よって、Cの対象は測度空間とみなせ、射は可測写像とみなせる。測度は確率測度である必要はなく、射が測度を保存することを要求しない。
- PもCも可測空間の圏Measへの忘却関手を持つが、VもMeasへの忘却関手を持ち、忘却関手のあいだに、U(R(A, V)) ⊆ U(V)U(A) が成立する。U(V)U(A) は、デカルト閉圏としてのMeasにおける指数対象=内部ホムである。
Cは統計グロープの尺度圏、または単に尺度と呼ぶ。尺度圏には、アフィン空間の圏やユークリッド空間の圏を使う。他に、順序集合の圏や有限集合圏、集合圏、可換モノイドが作用する空間の圏なども使う。
尺度圏Cの対象を値空間、Vの対象を変量空間と呼ぶ。忘却関手により、値空間は測度空間、変量空間は可測空間である。変量空間は斜めホム集合であり、変量空間の要素を変量(または確率変数)と呼ぶ。
変量、分布、期待値
V∈|C| のときVが値空間。X∈R(A, V)のとき、Measへの忘却関手から、X:A→V in Measとみなせるので、変量は可測写像である。変量をMeasの指数対象の要素とみても、対応するMeasの射とみてもよい。適宜、解釈は変える。
値空間は可測空間なので、変量(可測写像)XによりAの確率測度を前送りできる。前送り測度を変量Xの分布と呼ぶ。それとは別に、値空間V上のすべての確率測度の全体をDist(V)とする。変量Xの分布はPX、もともとあったV上の標準測度はνXと書くことにする。
分布=前送り確率測度が標準測度に対して絶対連続なとき、絶対連続分布と呼ぶ。離散(台が高々可算離散)測度になるとき離散分布と呼ぶ。絶対連続でも離散でもない分布(測度)があるが、普通は考えない。なお、標準測度はσ有限を仮定する(ユークリッド空間の個数測度とかは除外)。
変量に伴う分布は、尺度圏が何であっても定義できる。しかし、期待値(平均値)は、尺度圏がアフィン空間の圏でないと定義できない。
アフィン空間を V = (V, Vpt) のように書く。同伴ベクトル空間Vとアフィン空間全体を同じ記号Vで表す。Vptが点の空間。VとVptは、点の位置ベクトルと、位置ベクトルの終点によって対応する。
統計グローブの仮定から、アフィン空間は測度空間。同伴ベクトル空間は足し算と実数倍が可能なので積分が定義できる。期待値 E:R(A, V)→V は積分を使って定義できる。
- E[X] := ∫A X dP
確率空間A上の可測関数Xの測度Pによる積分。次の変数変換公式が成立する。
- ∫A X dP = ∫V x dPX
絶対連続分布Pに対して、PXの密度関数をfXとすると、
- ∫V x dPX = ∫V x fX(x)dx
xはV上の恒等関数、dxはV上の標準測度を意味する。
期待値(平均値)は、積分なのでアフィン空間でないと定義できない。また、得られた期待値は、同伴ベクトル空間の要素ではなくて、点の空間の要素と見るべき。期待値はアフィン的概念なので、尺度圏がアフィン空間の圏のときだけ定義できる。
期待値が決まると、その期待値(アフィン点)からの位置ベクトルとして偏差ベクトルが決まる。期待値あっての偏差なので、偏差も尺度がアフィン空間でないと意味を持たない(作れない)。
アフィン的概念:
- 期待値アフィン点
- 偏差ベクトル
分散スカラーと共分散行列
分散に関する概念は尺度圏がユークリッド空間の圏でないと定義できない。
Vはユークリッド空間に同伴する内積ベクトル空間とする。内積は、(・|・) を使って書く。V値変量 Y:A→V があるとき、(Y|Y) は、ω|→ (Y(ω)|Y(ω)) で定義されるスカラー(実数)値変量である。
アフィン値の変量 X:A→Vpt に対して、Xの偏差ベクトルを D[X]:A→V とする。D[X] := X - E[X]、ここで E[X}∈V でVpt値定数関数となる。引き算は、ベクトルの引き算ではなくて、アフィン空間の構造写像の引き算(点から点を引く)である。
D[X]:A→V は内積ベクトル空間に値を取る可測写像なので、積分可能で、分散スカラーを次のように定義する。
- VS[X] := ∫A(D[X]|D[X]) dP
PはA上の確率測度。VSは偏差の内積ノルムの二乗の積分となる。被積分項 (D[X]|D[X]) は非負なので、積分も非負実数となる。分散スカラーはノルム(の二乗)なので、Xによっていくらでも大きくなる。分散スカラーの平方根を標準偏差と呼ぶ。
分散スカラーも標準偏差も統計汎関数であり非負実数値を取る。期待値(平均)がアフィン点値(または位置ベクトル値)であるのとは違う。
X:A→V, Y:A→W で、AもWもユークリッド空間のとき、D[X]とD[Y]は、内積ベクトル空間に値を取る変量になる。Wが内積空間なので、Wから双対空間W*への標準的同型がある。これをプライム(ダッシュ)で示す。D[X](D[Y])' は、A→VW* への変量となる。VW* はベクトル空間なので、変量D[X](D[Y])'は積分ができる。このセッティングで、共分散行列を定義する。
- Cov[X, Y] := ∫AD[X](D[Y])' dP
被積分項がVW*に値を取るので、積分の結果もVW*の要素となる。VW*の要素はテンソルだが、V→W の線形写像とも解釈できる。そのため「行列」と呼んでいる。
Cov[X, X] は、VV* となる。これを、変量Xの自己共分散行列、分散共分散行列、分散行列などと呼ぶ。分散スカラーとは別物である。ただし、変量の値空間であるユークリッド空間Vが1次元のときは、分散スカラーと自己共分散行列が一致する。
多次元正規分布では、期待値(平均)アフィン点と自己共分散行列がパラメータとなる。
計算公式や、サンプリングによる作られるn-シーケンスのユークリッド構造は別に述べる。