分散、共分散、相関係数などの背景
データフレームで、df[i, ] でi番目の個体(あるいは観測)のタプルが得られる。このタプル(ベクトル変数の具現値)をベクトル空間の要素と見てよいが、df[ , k] もベクトルと見る必要がある。df[ , k]はRのデータ構造としてもベクトルだが、意味的にもベクトルとみなすべきことが多い。
類似物として、大きな空間Uのなかの部分コンパクト集合Xで定義されたバナッハ空間V値の連続関数の空間C(X, V)。
データ | 関数空間 |
---|---|
個体識別子集合 | 定義域X |
個体識別子 | Xの点 |
変数の値の空間 | バナッハ空間V |
データのサイズ | Xの測度の値 |
ベクトル | 関数 |
変数セット | 関数セット |
ベクトルの平均 | 関数の積分 |
相関係数 | 関数のあいだの角度(cos) |
値の空間はベクトル空間つうよりアフィン空間。アフィン空間の基点としてベクトル/関数の平均/積分を取って、それを基点としてベクトル空間のゼロと同一視する。平均点におけるベクトル空間を固定することは標準化の一部。平均をゼロにしたベクトル/関数を偏差ベクトル/関数と呼ぶと:
データ | 関数空間 |
---|---|
偏差ベクトル | 偏差関数 |
分散 | 偏差関数の二乗ノルム |
共分散 | 2つの偏差関数の内積 |
相関係数 | 2つの偏差関数の内積の正規化された値 |
内積、二乗ノルム、絶対値、角度、直交性などが考えられる世界なので、ユークリッドアフィン空間で考えている。
- 異なる点での値 f(x), f(y) は同じ空間である。
- 関数の値 f(x) はユークリッドアフィン空間である。
- 定義域Xには測度がある。
- 前空間Xの測度値は有限である。
- 複数の関数を「その平均値からの偏差」により同一の関数ベクトル空間で比較する。
- 平均の値はアフィン空間側に所属する。これは偏差部分と切り離して議論できる。
[追記]
irisで言うと、length(iris) が5だが、5番めはfactorなので、iris[,1:4] がnumericデータとなる。4次元ユークリッド空間に値を持ち、定義域の個数測度が150である関数があると思っていい。これは、定義域が150元集合の関数の4つ組で、それぞれの関数の平均・分散、互いの共分散、互いの相関係数などを考えることができる。
「4次元ベクトルが150本」と「150次元ベクトルが4本」を使い分ける必要があるんだが、これがけっこう難しい。個々の個体、データ点に注目するか、データシーケンス、物体、分布などをトータルでブツと考えて扱うか。
150次元ベクトルが4本のほうが馴染みにくいので、こっちを考えるクセを付けたほうがいいかもしれない。
次の記述を見つけた。
散布図では2次元の平面上に10個のデータ点が散らばっている.しかしこれを10次元のベクトルが2本あるというふうに考える.
[さらに追記]
Rのデータフレームの構造は、現実の扱いを反映してるのかも知れない。個々の行であるタプルを切り出すよりは、列=変数=ベクトルを扱うべき実体とするほうが普通のような気がする。
ベクトル値変数が1つというよりは、スカラー値変数がp個ある、という発想が多い。スカラー値変数を1個のモノとするから、p本のベクトルがあって、相互に関係していたり無関係だったり、ということだろう。確率標本という発想も、独立同分布の確率変数がn本あります、だし。
語られる主語が変数(スカラー値関数)なのか、それともデータインスタンス(有限次元ベクトル空間の要素)なのか、意識する必要がある。