このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

ベクトル確率変数の曖昧性

データや確率変数が「ベクトルである」というのが曖昧だ。

まず、確率ベクトルという言葉だが、ベクトル空間に値を取る確率変数という以外に、一列の確率遷移行列の意味もある。

確率遷移行列は次のような呼び名がある。

  • stochastic matrix
  • probability matrix
  • transition matrix
  • substitution matrix
  • Markov matrix

日本語なら、確率行列確率遷移行列。ランダム行列(Random matrix)はまた意味が違う。

で、「確率ベクトル」の意味は、

  • ランダムベクトル
  • 確率分布ベクトル(有限確率空間の分布=測度の表現)
  • 1列の確率遷移行列

など。

「確率ベクトル」は使わず、ベクトル確率変数(またはベクトル変量)という言葉で、X:Ω→V (Vはベクトル空間、ΩはXの域標本空間)を表す。この意味でのベクトル確率変数は、個体の観測値が特性ベクトル(feature vector)となる場合に使う。

ところが、R言語でのベクトルは、スカラー(実数値または複素数値)確率変数の繰り返し試行、または標本抽出による結果であるシーケンスを表す。

観測量(基本確率変数)の値がベクトル空間である場合と、スカラー観測量のシーケンスとしてベクトルが出てくる場合がある。さらには、ベクトル観測量のシーケンスというのもある。

もし、観測量をスカラーに限った場合には、複数観測量の同時観測として特性ベクトル観測量が出てくる。一方で、複数標本個体、複数ケース、多数回観測などで出てくるシーケンスがある。これらを区別する言葉がない。さんざん冗長な用語があるのに、肝心なところで言葉がない。

確率変数X:Ω→V の値の空間VをD[X]とも書く、V = D[X]。Xのn-確率標本を X(n)n→Vn とする。Vn = (D[X])n を Dn[X] とも書く。X(n)n→Dn[X]。[追記]D[X]が偏差ベクトルの記号とダブっている。[/追記]

例として、身長、座高、体重をスカラー観測量とする。D[身長] = D[座高] = L = Rcm、D[体重] = W = Rkg とする。Rcm は、単位cmから実数係数で生成された1次元自由ベクトル空間の意味。Rkg も同様。

身長、座高、体重を同時観測するベクトル観測量は、(身長, 座高, 体重):Ω→D[身長]×D[座高]×D[体重] = L2×W 。L, Wはベクトル空間なので、直積は直和でもある。

身長のサイズ5のサンプリングは、確率変数 身長(5)5→L5 で表現される。身長、座高、体重の同時観測量のサイズ5のサンプリングなら、(身長, 座高, 体重)(5)5→(D[身長]×D[座高]×D[体重])5 = (L2×W)5 \stackrel{\sim}{=} L10×W5

p観測量(p変量、p変数)による同時観測量ベクトルと、n-サンプリングによるn-サンプルベクトル(n-データベクトル)は違う。こんな基本的なことを説明する語彙がないなんて …… (ため息)