「標本」回りと集団の概念
「標本」がキツい、厳しい。確率変数(可測写像)を X:Ω→V として、Ωも標本空間、Vも標本空間。どうにもならない!
VをXの観測値空間、実現値空間、値空間などと呼ぶことはできるが、母集団 vs 標本集団、標本抽出、標本平均、標本分布 などで使う「標本」もある。現状の対策候補を述べる。
Ωを標本点空間と呼び、その要素は標本点、Vは標本値空間で、Vの要素は標本値と呼ぶ。「点」と「値」で区別する。
同義語として、
- 確率変数=変量=観測量
- 標本値=値、標本値空間=値空間
- 標本値=観測値=実現値
確率変数(変量、可測写像) X:Ω→V のnテンソルベキを X(n):Ωn→Vn と書く。
- X(n)をXのn-確率標本
- n-確率標本=n-標本変量
- Ωnの要素をn-標本点シーケンス
- Vnの要素をn-標本値シーケンス
- n-標本点シーケンス=n-標本点
- n-標本値シーケンス=n-標本値=n-観測値シーケンス=n-観測値=n-データシーケンス=n-データ=n-値シーケンス
「標本変量」において、X(n)のことか、その成分(射影)X(n)iのことかが曖昧。「標本変量の成分変量」とか言うべきだろう。
n-標本点シーケンスα∈Ωnにおいて、αに出現する標本点の集合を今暫定的に標本集団と呼ぶ。これは「母集団 vs 標本集団」の文脈で使う。標本集団の基数は、標本点シーケンスのサイズ(長さ)以下になる。標本集団は、標本シーケンスの出現数測度を使って測度空間になる。その正規化で確率測度空間になる。
n-標本点シーケンスαに対して、その出現標本点を|α|として、出現数測度をCαとすると、(|α|, Cα/n) は(ベキ集合σ代数と共に)確率空間となり、もとの確率変数X:Ω→V の制限 X:|α|→V により、変量Xを持つ。(|α|, Cα/n, X) の構造を込めて、n-標本点シーケンスの像標本集団と呼ぶ。後で、“像”ではない標本集団を定義する。
集団と抽出
確率空間と1つまたは複数の変量の組を確率集団または単に集団と呼ぶ。変量が1つの集団を単変量集団、変量が複数の集団を多変量集団と呼ぶ。しかし、ベクトル値変量により、単変量と多変量は行き来する。
(I, γ)を確率空間とする。別な確率空間(Ω, P)があるとき、可測写像 α:I→Ω を抽出と呼ぶ。抽出は、ΩI の要素となる。ΩもIも可測空間なので、ΩIも指数可測空間となる。よって、ΩのIによる抽出の全体は可測空間になる。
抽出可測写像α:I→Ωと変量X:Ω→Vを結合して、変量α;X:I→V が構成できる。よって、(I, γ, α;X)は集団になる。この集団を、抽出αによる標本集団と呼ぶ。変量 α;X は抽出αによって得られた標本データ、または抽出データと呼ぶ。
変量X;Ω→Vがあると、α|→α;X という写像(抽出|→抽出データ=標本データ)が定義可能、α;X = X(I)(α) と書くことにする。X(I):ΩI→VI。X(I)は、ΩのI-抽出の可測空間からVI への可測写像となる。
I = {1, ..., n} としたときが通常の「標本」の概念になる。
概念 | Iが一般 | I = {1, ..., n} |
---|---|---|
I→Ω | I-抽出 | n-標本点シーケンス |
ΩI | I-抽出の空間 | n-標本点空間 |
I→V | V値変量 | n-標本値シーケンス |
α;X | αによる抽出データ | αによるn-標本値シーケンス |
X(I) | I-標本変量 | n-標本変量 |
標本集団 | I-標本集団 | ? |
集団の分布
1つの集団を固定して、それに対する“すべての抽出”と“すべての標本集団”を考えるとき、固定したもとの集団(1つ)を母集団と呼ぶ。ただし、この定義は曖昧でイイカゲンだから、厳密な運用は無理。
集団には確率空間と変量(確率変数、可測写像)が組み込まれている。単変量集団を考えると、変量と確率測度により、変量の値空間上の分布を定義できる。この分布を集団の分布と呼ぶ。
単変量集団 (Ω, P, X:Ω→V) があるとき、この集団の分布 X*(P) = PX が、前もって定義されているV上の測度νと一致するとき、νに従う集団とか、ν-集団とか呼ぶ。さらには、分布の族Mがあって、集団の分布がMに入るとき、Mに従う集団とか、M-集団と呼ぶ。正規集団、二項集団、ポアッソン集団などは、この用語法で合理化できる。