ベクトル確率変数の曖昧性
データや確率変数が「ベクトルである」というのが曖昧だ。
まず、確率ベクトルという言葉だが、ベクトル空間に値を取る確率変数という以外に、一列の確率遷移行列の意味もある。
確率遷移行列は次のような呼び名がある。
- stochastic matrix
- probability matrix
- transition matrix
- substitution matrix
- Markov matrix
日本語なら、確率行列か確率遷移行列。ランダム行列(Random matrix)はまた意味が違う。
で、「確率ベクトル」の意味は、
- ランダムベクトル
- 確率分布ベクトル(有限確率空間の分布=測度の表現)
- 1列の確率遷移行列
など。
「確率ベクトル」は使わず、ベクトル確率変数(またはベクトル変量)という言葉で、X:Ω→V (Vはベクトル空間、ΩはXの域標本空間)を表す。この意味でのベクトル確率変数は、個体の観測値が特性ベクトル(feature vector)となる場合に使う。
ところが、R言語でのベクトルは、スカラー(実数値または複素数値)確率変数の繰り返し試行、または標本抽出による結果であるシーケンスを表す。
観測量(基本確率変数)の値がベクトル空間である場合と、スカラー観測量のシーケンスとしてベクトルが出てくる場合がある。さらには、ベクトル観測量のシーケンスというのもある。
もし、観測量をスカラーに限った場合には、複数観測量の同時観測として特性ベクトル観測量が出てくる。一方で、複数標本個体、複数ケース、多数回観測などで出てくるシーケンスがある。これらを区別する言葉がない。さんざん冗長な用語があるのに、肝心なところで言葉がない。
確率変数X:Ω→V の値の空間VをD[X]とも書く、V = D[X]。Xのn-確率標本を X(n):Ωn→Vn とする。Vn = (D[X])n を Dn[X] とも書く。X(n):Ωn→Dn[X]。[追記]D[X]が偏差ベクトルの記号とダブっている。[/追記]
例として、身長、座高、体重をスカラー観測量とする。D[身長] = D[座高] = L = Rcm、D[体重] = W = Rkg とする。Rcm は、単位cmから実数係数で生成された1次元自由ベクトル空間の意味。Rkg も同様。
身長、座高、体重を同時観測するベクトル観測量は、(身長, 座高, 体重):Ω→D[身長]×D[座高]×D[体重] = L2×W 。L, Wはベクトル空間なので、直積は直和でもある。
身長のサイズ5のサンプリングは、確率変数 身長(5):Ω5→L5 で表現される。身長、座高、体重の同時観測量のサイズ5のサンプリングなら、(身長, 座高, 体重)(5):Ω5→(D[身長]×D[座高]×D[体重])5 = (L2×W)5 L10×W5。
p観測量(p変量、p変数)による同時観測量ベクトルと、n-サンプリングによるn-サンプルベクトル(n-データベクトル)は違う。こんな基本的なことを説明する語彙がないなんて …… (ため息)