基本概念がほんとに難しい - (保存用) 檜山正幸のキマイラ飼育記メモ編

当初よくわからないと思ったものはホントに難しいものだった。

入門書では、これらの概念が1ページくらいで説明されている。しかし、用語の定義と実際の使用にはトンデモナイ乖離がある。

母集団は個体の全体集合、標本はその部分集合という定義が多い。しかし、この定義では何も説明できないし、何も計算できない。

そもそも、試行、抽出、観測のような行為は現実世界では意味があるが、定式化は出来ない。抽出が無作為である事の定義も不可能だろう。現実世界で支持政党の調査をするなら、年齢、性別、職業などの他の観測可能量（個体の属性）との独立性を見ることぐらいか。

離散分布と連続分布を区別しておきながら、離散分布が正規分布に従う、と言ってる時点で何かおかしい。近似だと言いながら近似の手段を提供してない。

とにかく概念のすり替えが多い。統計量を、標本の実現値に対する計算として導入しながら、「統計量はもちろん確率変数です」とかシレッと済ませる。いつのまにか、標本が確率変数の列として扱われる（個体の集合だったのでは？）。分かってやっているのか、単にバカなのか分からない。教育的配慮か不注意か分からない。

「××が分布する」の意味はだいたいわかった。「××は確率変数である」という意味だ。この表現によって、標本実現値の空間（これは確率標本という確率変数の値の空間＝データ空間）上の関数（統計値関数）を確率変数とみなすことを示唆している。

標本実現値の空間における分布という概念が理解できれば、それを確率変数とみなせることを暗黙に仮定している。実際は話が逆で、最初に確率変数があるはずだが。

とはいえ、実際の確率変数がまったく隠れている現状からすると、確率変数は形式的な変数、計算の道具と捉えてもいいのかもしれない。標本代数（実可換環）というアプローチは意味があるかもしれない。