このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

仮説空間とかナニヤラカニヤラ

機械学習が台頭してきて、またさらにジャーゴンが増える。分野が増える/成長すれば、用語法はどんどん錯綜・混乱するという嫌な現象。

仮説空間〈hypothesis space〉に関しては次を参照した。

以下、思ったことをダラダラ書く。

まず、次の分野の枠組み・道具は相当にかぶっている。

  • 統計的推定(特に点推定)
  • 最適化
  • 機械学習

かぶっている部分に対する用語法は(不幸なことに)違っている。

仮説は hypothesis だが、ドイツ語 ansatz もある。ansatzの訳語は「仮説」ではなくて「仮設」

仮設は、経験則に基づく推測を前提としたものらしい。発音はアンザッツに近い。

カタカナ書きの「アンザッツ」では、音楽用語がヒットする。

用語の混乱の要因は、

  1. データの意味が曖昧。
  2. 可能な観測データ〈possible observation data〉と実際に観測されたデータ〈observed actual data〉を区別してない。
  3. したがって、データ空間がアンビエント空間か、その部分空間か分からない。
  4. アトミック観測データ〈atomic observation data〉か集合的観測データ〈collective observation data〉か区別してない。集合的観測データは、アトミック観測データの空間(集合)に、なんらかのモナドを使って構成する。通常は、リストモナドかバッグモナド
  5. 可能な観測データをインスタンスと呼び、データのアンビエント空間をインスタンス空間とも呼ぶようだ。
  6. フィーチャ〈特性 | 特徴〉がアトミック観測データだったかな? 統計だとケースも使っていたかも。
  7. それにしても、インスタンスがフィーチャか、フィーチャ空間から作った集合的観察データの空間なのか?
  8. 型〈type〉、集合〈set〉、族〈family〉、クラス〈class〉、空間〈space〉が恣意的で、区別すべきか同義か分からない。例えば、モデル集合/モデル族/モデルクラス/モデル空間
  9. 仮説空間とモデル空間は同義らしい。機械学習では。
  10. 仮説空間は、データのアンビエント空間内の部分空間とは限らない。
  11. 学習(の関数)は、データ空間から仮説空間への写像であり、実際に観測されたデータから、仮設を出力する。

僕の記事

で次の言葉を定義した。

  1. 試行
  2. 実験、
  3. 計画入力列〈実験入力列 | 計画行列〉
  4. パラメータ空間
  5. 観測空間
  6. 推定空間
  7. 誤差空間

おそらく(おそらくだが)

だと思う。ただし、統計的推定の場合は、推定空間⊆観測空間 で、学習関数が推定を実行する関数になると思う。

線形回帰を仮説空間を使って説明するなら、ベクトル空間VとWのペアV×Wがアトミック観測データの空間で、(V×W)nが集合的観測データのアンビエント空間。仮説空間=モデル空間は、線形写像空間[V, W]で、学習関数は (V×W)n→[V, W] となる。

(V×W)n = Vn×Wn なので、X∈Vn を固定すると、学習関数は Wn→[V, W] 。これを最小二乗法で求めると、線形回帰と同じ手法になる。

線形回帰のときは、計画入力列Xのもと、[V, W]→Wn というパラメータ表示をするので、仮説空間=モデル空間が、集合的観測データ空間に押し込まれる。試行回数が少ないと、押し込みは全射で核を持ち、多くなると単射(埋め込み)で余核≒補空間≒コランクを持つ。

なんかの空間が多様体になる、とも言うが、それは:

例えば、ポイントクラウドから多様体(の近似図形)を求める問題は、次の“空間”を考えないといけない。

要するに、枠組みをハッキリさせないままに、個別事例を積み重ねて「察して」スタイルだから分かりにくい。



最適化の理論はまったく知らないが、推定と発想が違う気がする。

  1. 最適化におけるモデル空間相当の空間(なんて呼ぶか知らない)は、「扱いやすい」とかの理由で想定されているので、モデル空間内で選んだ“最適”な点を“真値”と考えることはない。
  2. 実際の観測データなりトレーニングデータ(これは学習)に、雑音があるとは考えない(考えてもいいが)ので、実際の観測データとモデル空間との差は誤差とは考えない。よって、残差という言葉を使う。
  3. 観測データのアンビエント空間内にモデル空間を押し込むときは、モデル空間の直交補空間に相当する空間を残差空間と呼ぶべき。
  4. 線形なモデルなら、モデル空間と残差空間は部分ベクトル空間と考えてよいが、一般には、モデル空間に横断的な葉層構造があり、その葉(ファイバー)を残差空間とみなす。