このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

標準化、観測データの標準分解

やっと多少は納得がいった。記述統計でも、実に難しい。要点は:

  1. 観測シーケンスの空間はベクトル空間ではなくてアフィン空間
  2. 観測のアフィン空間に付随するベクトル空間はユークリッド空間。直交性、ノルム、角度の概念を持つ。
  3. アフィン空間もベクトル空間も標準的な直積構造(シーケンス構造)を持つ。これは、繰り返される観測が明確にシーケンスだから。
  4. 観測の確率変数がi.i.d.ならば、シーケンスには対称群(置換群)が作用していて、統計量は対称性を持つ。
  5. 平均(average)はスカラーでもベクトルでもなくて、観測シーケンスのアフィン空間の点。基本観測点(一回の観測の結果)の直積だから、点シーケンス。
  6. 偏差(平均からの隔たり)は、観測アフィン空間に付随するベクトル空間のベクトル(シーケンス)だが、平均ベクトル空間の直交補空間に入る。

次の概念は別!

  1. 平均点(average point):ここで点は得点の意味ではなくて、アフィン空間の点(シーケンス構造を考えると点シーケンス)。重心と同じ。いかなる意味でもベクトルではない
  2. 平均ベクトル(average vector):観測ベクトル空間(基本ベクトル空間の直積)のなかで、対角集合となる部分ベクトル空間。均一観測シーケンス。確定値(定数)観測シーケンス。

アフィン空間の付随ベクトル空間が平均空間と偏差空間に直交分解される。平均空間は、基本観測空間と同型。全観測空間の次元数から「平均空間の次元数=基本観測空間の次元数」を引いた数が、偏差空間の次元数。偏差空間の次元数がいわゆる自由度。


Wを基本観測ベクトル(1回の観測値、1レコード/1ケースの)空間として、Wnはそのn-直積、つまり、長さnのシーケンスの集合。w∈W に対して (w, w, ..., w) を対応させる写像(対角)を考えると、これは単射なので、像空間はWと同型なWnの部分空間。この部分空間を平均空間(average subspace)と呼ぶ。

対角埋め込みはユークリッド空間の等長写像ではない。1/√n 倍すると等長になる。この等長化係数はけっこう重要。

観測空間Wnの部分空間としての平均空間をAv(Wn)と書く。Wnにおける平均空間Av(Wn)の直交補空間をDev(Wn) と書き偏差空間と呼ぶ。さらに、DZ(Dev(Wn)) を、Dev(Wn) のゼロベクトルとユークリッド単位球の合併とする。

非常に分かりにくいところは、平均点(mean point)と平均ベクトル=平均空間の要素はまったく違うこと。平均点はアフィン空間の点であり有限分布(n個の点系)の重心を表す。あくまでもアフィン空間の要素。それに対して、平均空間(average vector spece)は、付随するベクトル空間(アフィン構造の接空間)の部分空間であり、直交分解を構成するための道具。

結局、観測アフィン空間(n回の観測のシーケンスがなす一様空間)は、各接空間に直交直和分解を持つ。互いに直交する葉層構造と言ってもよい。確か、情報幾何でもそんな構造があった。

a∈An に対して、次が定義できる。

  1. m(a) ∈A
  2. sd(a) ∈R≧0
  3. z(a) ∈DZ(Dev(Wn))

写像としては、

  1. m:An→A
  2. sd:AnR≧0
  3. z:An→DZ(Dev(Wn))

それぞれ、

  1. 観測データシーケンスaの平均点(重心)
  2. 観測データシーケンスの標準偏差スカラー
  3. 観測データシーケンスの標準化データ

aは次の形に書ける。

  • a = m(a) :+ z(a)sd(a)

ここで、

  • :+ はアフィン空間の点と位置ベクトル(差ベクトル、変動ベクトル、移動ベクトル)の足し算
  • スカラー乗法は単に併置でスカラーを後置した。
  • z(a)sd(a) はユークリッドベクトルの極分解で、z(a)は単位方向ベクトルで、sd(b)はユークリッドノルム。

この表式を観測データa標準分解と呼ぶことにする。

標準分解のやり方

参考:

アフィン空間における有限点系の重心は、アフィン空間固有の演算により定義される。接ベクトル空間の取り方によらない。通常は、ベクトル計算からアフィン計算を定義するが、重心演算の公理もある(https://ncatlab.org/nlab/show/convex+space)。

Anの任意の点をbとして、接ベクトル空間を(Wn)bとする。重心計算は、(Wn)b→Wb として定義される。点と位置ベクトルの足し算 A×Wb→A により、A内に重心が決定する。この計算は、基点bの選び方によらない。

重心mを対角埋め込み(定数シーケンス埋め込み)すると、それは同伴ベクトル空間の平均部分ベクトル空間に入る。もとの観測データの同伴ベクトル空間内での位置ベクトルを同じaで表すことにすると、aは同伴ベクトル空間の直交直和分解から、

  • a = m + d

と分解する。dは平均ベクトル空間の直交補空間である偏差ベクトル空間に入る。偏差ベクトル空間は、全観測空間のユークリッド構造から誘導されたユークリッド構造を持つ。dを極分解したノルム(非負実数)が標準偏差、方向ベクトルが標準化データである。標準化の極分解部分は、ノルム正規化である。

アフィン観測データの解釈

アフィン観測データは、基本アフィン空間の点のn-シーケンス。適当な同伴ベクトル空間を固定すれば、Wn の要素(ベクトルのシーケンス)となる。

しかし、シーケンスは観測データの表現型式で、観測データの実体はむしろ基本アフィン空間のn-点系である。これはn個の点の集合ではなくて、重複度を持つのでバッグ=マルチセットである。重複度は重さ(荷重)でもある。荷重付きの集合なので、型式重心結合と総質量=ノルムで表現できる。アフィン空間におけるn-配位(configuration)と言ってもいい。

このn-点系としての解釈と、シーケンスとしての解釈を行ったり来たりするところが難しい。n-点系の解析に線形代数を利用しようとすると、シーケンスとしての表現が重要である。しかし、扱うべき実体はベクトルではない。単一の空間A内に棲む図形的/物理的エンティティである。

アフィン空間とベクトル空間、質量付きのn-点系とベクトルのシーケンス、このイメージにギャップは大きい。そこが難しい。