このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

分散、共分散、相関係数などの背景

データフレームで、df[i, ] でi番目の個体(あるいは観測)のタプルが得られる。このタプル(ベクトル変数の具現値)をベクトル空間の要素と見てよいが、df[ , k] もベクトルと見る必要がある。df[ , k]はRのデータ構造としてもベクトルだが、意味的にもベクトルとみなすべきことが多い。

類似物として、大きな空間Uのなかの部分コンパクト集合Xで定義されたバナッハ空間V値の連続関数の空間C(X, V)。

データ 関数空間
個体識別子集合 定義域X
個体識別子 Xの点
変数の値の空間 バナッハ空間V
データのサイズ Xの測度の値
ベクトル 関数
変数セット 関数セット
ベクトルの平均 関数の積分
相関係数 関数のあいだの角度(cos)

値の空間はベクトル空間つうよりアフィン空間。アフィン空間の基点としてベクトル/関数の平均/積分を取って、それを基点としてベクトル空間のゼロと同一視する。平均点におけるベクトル空間を固定することは標準化の一部。平均をゼロにしたベクトル/関数を偏差ベクトル/関数と呼ぶと:

データ 関数空間
偏差ベクトル 偏差関数
分散 偏差関数の二乗ノルム
共分散 2つの偏差関数の内積
相関係数 2つの偏差関数の内積の正規化された値

内積、二乗ノルム、絶対値、角度、直交性などが考えられる世界なので、ユークリッドアフィン空間で考えている。

  1. 異なる点での値 f(x), f(y) は同じ空間である。
  2. 関数の値 f(x) はユークリッドアフィン空間である。
  3. 定義域Xには測度がある。
  4. 前空間Xの測度値は有限である。
  5. 複数の関数を「その平均値からの偏差」により同一の関数ベクトル空間で比較する。
  6. 平均の値はアフィン空間側に所属する。これは偏差部分と切り離して議論できる。

[追記]

irisで言うと、length(iris) が5だが、5番めはfactorなので、iris[,1:4] がnumericデータとなる。4次元ユークリッド空間に値を持ち、定義域の個数測度が150である関数があると思っていい。これは、定義域が150元集合の関数の4つ組で、それぞれの関数の平均・分散、互いの共分散、互いの相関係数などを考えることができる。

「4次元ベクトルが150本」と「150次元ベクトルが4本」を使い分ける必要があるんだが、これがけっこう難しい。個々の個体、データ点に注目するか、データシーケンス、物体、分布などをトータルでブツと考えて扱うか。

150次元ベクトルが4本のほうが馴染みにくいので、こっちを考えるクセを付けたほうがいいかもしれない。

次の記述を見つけた。

散布図では2次元の平面上に10個のデータ点が散らばっている.しかしこれを10次元のベクトルが2本あるというふうに考える.


[さらに追記]

Rのデータフレームの構造は、現実の扱いを反映してるのかも知れない。個々の行であるタプルを切り出すよりは、列=変数=ベクトルを扱うべき実体とするほうが普通のような気がする。

ベクトル値変数が1つというよりは、スカラー値変数がp個ある、という発想が多い。スカラー値変数を1個のモノとするから、p本のベクトルがあって、相互に関係していたり無関係だったり、ということだろう。確率標本という発想も、独立同分布の確率変数がn本あります、だし。

語られる主語が変数(スカラー値関数)なのか、それともデータインスタンス(有限次元ベクトル空間の要素)なのか、意識する必要がある。