基本概念がほんとに難しい
当初よくわからないと思ったものはホントに難しいものだった。
- 母集団
- 変量
- 分布
- 無作為抽出
- 標本(サンプル、サンプリング)
- データ
- 母数
- 真値
- 従う
- 統計量
- 分布する
入門書では、これらの概念が1ページくらいで説明されている。しかし、用語の定義と実際の使用にはトンデモナイ乖離がある。
母集団は個体の全体集合、標本はその部分集合という定義が多い。しかし、この定義では何も説明できないし、何も計算できない。
そもそも、試行、抽出、観測のような行為は現実世界では意味があるが、定式化は出来ない。抽出が無作為である事の定義も不可能だろう。現実世界で支持政党の調査をするなら、年齢、性別、職業などの他の観測可能量(個体の属性)との独立性を見ることぐらいか。
離散分布と連続分布を区別しておきながら、離散分布が正規分布に従う、と言ってる時点で何かおかしい。近似だと言いながら近似の手段を提供してない。
とにかく概念のすり替えが多い。統計量を、標本の実現値に対する計算として導入しながら、「統計量はもちろん確率変数です」とかシレッと済ませる。いつのまにか、標本が確率変数の列として扱われる(個体の集合だったのでは?)。分かってやっているのか、単にバカなのか分からない。教育的配慮か不注意か分からない。
「××が分布する」の意味はだいたいわかった。「××は確率変数である」という意味だ。この表現によって、標本実現値の空間(これは確率標本という確率変数の値の空間=データ空間)上の関数(統計値関数)を確率変数とみなすことを示唆している。
標本実現値の空間における分布という概念が理解できれば、それを確率変数とみなせることを暗黙に仮定している。実際は話が逆で、最初に確率変数があるはずだが。
とはいえ、実際の確率変数がまったく隠れている現状からすると、確率変数は形式的な変数、計算の道具と捉えてもいいのかもしれない。標本代数(実可換環)というアプローチは意味があるかもしれない。