枠組みや構造
枠組みや構造が記述されてなくて、暗黙の前提とされるのはほんとに辛い。で、想像して考える。
まず、「標本」や「標本空間」という用語が酷い多義性を持っているので、使うのが躊躇される。「確率空間の台集合」と「確率変数の値の空間」の両方の意味で使われるし、値の空間を状態空間という人もいるし。観測量の双対空間を状態空間という人もいるし、、、
いっそ、超曖昧語「データ」を使うか。「観測量xに対するデータ空間」とか「観測量x, yに対するデータ空間」とか。
母集団は、確率空間とは限らない有界測度空間。これにより、任意の可測写像に対する度数分布(頻度分布)を考えることが出来る。度数分布は基本的に前送り測度、またはその近似のこと。有界測度を正規化して、確率空間が得られるので、常に標準的な確率空間を持つと考えてよい。相対度数分布が前送り確率測度(またはその近似)を与える。
次のようは言葉の用法がある。
- 母集団の分布
- 正規分布に従う母集団
- 母集団の平均
- 母集団の分散
「母集団の分布」は、「分布=測度」として「母集団の(確率)分布」だろう。その他の用例は、主語が確率変数でないと解釈できないので、「母集団の確率変数の」を補う。これが可能であるためには母集団は確率変数を備えていないといけない。
したがって、母集団の定義は、(U, ΣU, γ, X, x)
- Uは台集合
- ΣUはσ代数
- γは有界測度
- Xは位相ベクトル空間かアフィン空間
- xは確率変数
Xの選択肢は色々あって、尺度と呼ばれるのがXの分類になる。尺度はXの属する圏だと言っていい。確率変数は可測空間からの可測写像なので、尺度に対応する圏は、可測空間の圏への標準関手を持つ必要がある。よって、尺度は圏と可測空間圏への関手の組だと言ってもいい。位相空間の圏はボレル構造により標準関手が定義できる。
母集団の主役は確率変数(観測量)、他の構成素を省略して (U, x) のように書くことにする。
- (U, x) と (U, y) に対して、xとyのデカルトペア(より一般にはデカルトタプル)を考えることができる。デカルトペアは同時観測量であり、同時分布、周辺分布の概念が出てくる。
- (U, x) に対して、xのコピーのnタプルは同分布独立となり、n確率標本を定義する。
- すべてのnに対するn標本確率を考えることができる。その値の空間はXのクリーネスターとなる。
- (U, x), (W, y) に対して、x×y: U×W→X×Y を定義できる。
統計の枠組み/構造が難しくなる理由のひとつに、尺度とパラメータの概念の曖昧さがあると思う。パラメータは、モデル(構造)のモジュライ空間になっている。モデルのあいだの距離や角度のようなものをパラメータ空間内で計算しているようだが明確ではない。ある条件を満たすモデルの全体(類)が定義されてない。例えば、母分散の平方根σとは、モデルMを引数に取ってスカラー値を対応させる写像 M|→σ(M) だと思われるが、定数扱いしている。写像σの逆像は、モデルの全体の部分類(分散が特定値であるモデル達)を定義するが、これも意識されることが少ない。
σのような「モデルの類」から値の空間への写像は重要で、このテの写像が可測写像になるような測度構造を「モデルの類」の空間に構成する話のような気がする。観測値からモデルを“確率的に”特定して、特定したモデルの類に対して他の観測値を求めるとか。