分散、共分散、相関係数などの背景 - (保存用) 檜山正幸のキマイラ飼育記メモ編

データフレームで、df[i, ] でi番目の個体（あるいは観測）のタプルが得られる。このタプル（ベクトル変数の具現値）をベクトル空間の要素と見てよいが、df[ , k] もベクトルと見る必要がある。df[ , k]はRのデータ構造としてもベクトルだが、意味的にもベクトルとみなすべきことが多い。

類似物として、大きな空間Uのなかの部分コンパクト集合Xで定義されたバナッハ空間V値の連続関数の空間C(X, V)。

データ	関数空間
個体識別子集合	定義域X
個体識別子	Xの点
変数の値の空間	バナッハ空間V
データのサイズ	Xの測度の値
ベクトル	関数
変数セット	関数セット
ベクトルの平均	関数の積分
相関係数	関数のあいだの角度（cos）

値の空間はベクトル空間つうよりアフィン空間。アフィン空間の基点としてベクトル／関数の平均／積分を取って、それを基点としてベクトル空間のゼロと同一視する。平均点におけるベクトル空間を固定することは標準化の一部。平均をゼロにしたベクトル／関数を偏差ベクトル／関数と呼ぶと：

データ	関数空間
偏差ベクトル	偏差関数
分散	偏差関数の二乗ノルム
共分散	2つの偏差関数の内積
相関係数	2つの偏差関数の内積の正規化された値

内積、二乗ノルム、絶対値、角度、直交性などが考えられる世界なので、ユークリッドアフィン空間で考えている。

異なる点での値 f(x), f(y) は同じ空間である。
関数の値 f(x) はユークリッドアフィン空間である。
定義域Xには測度がある。
前空間Xの測度値は有限である。
複数の関数を「その平均値からの偏差」により同一の関数ベクトル空間で比較する。
平均の値はアフィン空間側に所属する。これは偏差部分と切り離して議論できる。

[追記]

irisで言うと、length(iris) が5だが、5番めはfactorなので、iris[,1:4] がnumericデータとなる。4次元ユークリッド空間に値を持ち、定義域の個数測度が150である関数があると思っていい。これは、定義域が150元集合の関数の4つ組で、それぞれの関数の平均・分散、互いの共分散、互いの相関係数などを考えることができる。

「4次元ベクトルが150本」と「150次元ベクトルが4本」を使い分ける必要があるんだが、これがけっこう難しい。個々の個体、データ点に注目するか、データシーケンス、物体、分布などをトータルでブツと考えて扱うか。

150次元ベクトルが4本のほうが馴染みにくいので、こっちを考えるクセを付けたほうがいいかもしれない。

次の記述を見つけた。

散布図では2次元の平面上に10個のデータ点が散らばっている．しかしこれを10次元のベクトルが2本あるというふうに考える．

[さらに追記]

Rのデータフレームの構造は、現実の扱いを反映してるのかも知れない。個々の行であるタプルを切り出すよりは、列＝変数＝ベクトルを扱うべき実体とするほうが普通のような気がする。

ベクトル値変数が1つというよりは、スカラー値変数がp個ある、という発想が多い。スカラー値変数を1個のモノとするから、p本のベクトルがあって、相互に関係していたり無関係だったり、ということだろう。確率標本という発想も、独立同分布の確率変数がn本あります、だし。

語られる主語が変数（スカラー値関数）なのか、それともデータインスタンス（有限次元ベクトル空間の要素）なのか、意識する必要がある。