「標本」回りと集団の概念 - (保存用) 檜山正幸のキマイラ飼育記メモ編

「標本」がキツい、厳しい。確率変数（可測写像）を X:Ω→V として、Ωも標本空間、Vも標本空間。どうにもならない！

VをXの観測値空間、実現値空間、値空間などと呼ぶことはできるが、母集団 vs 標本集団、標本抽出、標本平均、標本分布などで使う「標本」もある。現状の対策候補を述べる。

Ωを標本点空間と呼び、その要素は標本点、Vは標本値空間で、Vの要素は標本値と呼ぶ。「点」と「値」で区別する。

同義語として、

確率変数＝変量＝観測量
標本値＝値、標本値空間＝値空間
標本値＝観測値＝実現値

確率変数（変量、可測写像） X:Ω→V のnテンソルベキを X⁽ⁿ⁾:Ωⁿ→Vⁿ と書く。

X⁽ⁿ⁾をXのn-確率標本
n-確率標本＝n-標本変量
Ωⁿの要素をn-標本点シーケンス
Vⁿの要素をn-標本値シーケンス
n-標本点シーケンス＝n-標本点
n-標本値シーケンス＝n-標本値＝n-観測値シーケンス＝n-観測値＝n-データシーケンス＝n-データ＝n-値シーケンス

「標本変量」において、X⁽ⁿ⁾のことか、その成分（射影）X⁽ⁿ⁾_iのことかが曖昧。「標本変量の成分変量」とか言うべきだろう。

n-標本点シーケンスα∈Ωⁿにおいて、αに出現する標本点の集合を今暫定的に標本集団と呼ぶ。これは「母集団 vs 標本集団」の文脈で使う。標本集団の基数は、標本点シーケンスのサイズ（長さ）以下になる。標本集団は、標本シーケンスの出現数測度を使って測度空間になる。その正規化で確率測度空間になる。

n-標本点シーケンスαに対して、その出現標本点を|α|として、出現数測度をC_αとすると、(|α|, C_α/n) は（ベキ集合σ代数と共に）確率空間となり、もとの確率変数X：Ω→V の制限 X:|α|→V により、変量Xを持つ。(|α|, C_α/n, X) の構造を込めて、n-標本点シーケンスの像標本集団と呼ぶ。後で、“像”ではない標本集団を定義する。

集団と抽出

確率空間と1つまたは複数の変量の組を確率集団または単に集団と呼ぶ。変量が1つの集団を単変量集団、変量が複数の集団を多変量集団と呼ぶ。しかし、ベクトル値変量により、単変量と多変量は行き来する。

(I, γ)を確率空間とする。別な確率空間(Ω, P)があるとき、可測写像 α:I→Ω を抽出と呼ぶ。抽出は、Ω^I の要素となる。ΩもIも可測空間なので、Ω^Iも指数可測空間となる。よって、ΩのIによる抽出の全体は可測空間になる。

抽出可測写像α:I→Ωと変量X:Ω→Vを結合して、変量α;X:I→V が構成できる。よって、(I, γ, α;X)は集団になる。この集団を、抽出αによる標本集団と呼ぶ。変量 α;X は抽出αによって得られた標本データ、または抽出データと呼ぶ。

変量X;Ω→Vがあると、α|→α;X という写像（抽出｜→抽出データ＝標本データ）が定義可能、α;X = X^(I)(α) と書くことにする。X^(I):Ω^I→V^I。X^(I)は、ΩのI-抽出の可測空間からV^I への可測写像となる。

I = {1, ..., n} としたときが通常の「標本」の概念になる。

概念	Iが一般	I = {1, ..., n}
I→Ω	I-抽出	n-標本点シーケンス
Ω^I	I-抽出の空間	n-標本点空間
I→V	V値変量	n-標本値シーケンス
α;X	αによる抽出データ	αによるn-標本値シーケンス
X^(I)	I-標本変量	n-標本変量
標本集団	I-標本集団	？

集団の分布

1つの集団を固定して、それに対する“すべての抽出”と“すべての標本集団”を考えるとき、固定したもとの集団（1つ）を母集団と呼ぶ。ただし、この定義は曖昧でイイカゲンだから、厳密な運用は無理。

集団には確率空間と変量（確率変数、可測写像）が組み込まれている。単変量集団を考えると、変量と確率測度により、変量の値空間上の分布を定義できる。この分布を集団の分布と呼ぶ。

単変量集団 (Ω, P, X:Ω→V) があるとき、この集団の分布 X_*(P) = P_X が、前もって定義されているV上の測度νと一致するとき、νに従う集団とか、ν-集団とか呼ぶ。さらには、分布の族Mがあって、集団の分布がMに入るとき、Mに従う集団とか、M-集団と呼ぶ。正規集団、二項集団、ポアッソン集団などは、この用語法で合理化できる。