ベクトル確率変数の曖昧性 - (保存用) 檜山正幸のキマイラ飼育記メモ編

データや確率変数が「ベクトルである」というのが曖昧だ。

まず、確率ベクトルという言葉だが、ベクトル空間に値を取る確率変数という以外に、一列の確率遷移行列の意味もある。

確率遷移行列は次のような呼び名がある。

日本語なら、確率行列か確率遷移行列。ランダム行列（Random matrix）はまた意味が違う。

で、「確率ベクトル」の意味は、

など。

「確率ベクトル」は使わず、ベクトル確率変数（またはベクトル変量）という言葉で、X:Ω→V （Vはベクトル空間、ΩはXの域標本空間）を表す。この意味でのベクトル確率変数は、個体の観測値が特性ベクトル（feature vector）となる場合に使う。

ところが、R言語でのベクトルは、スカラー（実数値または複素数値）確率変数の繰り返し試行、または標本抽出による結果であるシーケンスを表す。

観測量（基本確率変数）の値がベクトル空間である場合と、スカラー観測量のシーケンスとしてベクトルが出てくる場合がある。さらには、ベクトル観測量のシーケンスというのもある。

もし、観測量をスカラーに限った場合には、複数観測量の同時観測として特性ベクトル観測量が出てくる。一方で、複数標本個体、複数ケース、多数回観測などで出てくるシーケンスがある。これらを区別する言葉がない。さんざん冗長な用語があるのに、肝心なところで言葉がない。

確率変数X:Ω→V の値の空間VをD[X]とも書く、V = D[X]。Xのn-確率標本を X⁽ⁿ⁾:Ωⁿ→Vⁿ とする。Vⁿ = (D[X])ⁿ を Dⁿ[X] とも書く。X⁽ⁿ⁾:Ωⁿ→Dⁿ[X]。[追記]D[X]が偏差ベクトルの記号とダブっている。[/追記]

例として、身長、座高、体重をスカラー観測量とする。D[身長] = D[座高] = L = Rcm、D[体重] = W = Rkg とする。Rcm は、単位cmから実数係数で生成された1次元自由ベクトル空間の意味。Rkg も同様。

身長、座高、体重を同時観測するベクトル観測量は、(身長, 座高, 体重):Ω→D[身長]×D[座高]×D[体重] = L²×W 。L, Wはベクトル空間なので、直積は直和でもある。

身長のサイズ5のサンプリングは、確率変数身長⁽⁵⁾:Ω⁵→L⁵ で表現される。身長、座高、体重の同時観測量のサイズ5のサンプリングなら、(身長, 座高, 体重)⁽⁵⁾:Ω⁵→(D[身長]×D[座高]×D[体重])⁵ = (L²×W)⁵ $\stackrel{\sim}{=}$ L¹⁰×W⁵。

p観測量（p変量、p変数）による同時観測量ベクトルと、n-サンプリングによるn-サンプルベクトル（n-データベクトル）は違う。こんな基本的なことを説明する語彙がないなんて …… (ため息)