このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

基本概念がほんとに難しい

当初よくわからないと思ったものはホントに難しいものだった。

  • 母集団
  • 変量
  • 分布
  • 無作為抽出
  • 標本(サンプル、サンプリング)
  • データ
  • 母数
  • 真値
  • 従う
  • 統計量
  • 分布する

入門書では、これらの概念が1ページくらいで説明されている。しかし、用語の定義と実際の使用にはトンデモナイ乖離がある。

母集団は個体の全体集合、標本はその部分集合という定義が多い。しかし、この定義では何も説明できないし、何も計算できない。

そもそも、試行、抽出、観測のような行為は現実世界では意味があるが、定式化は出来ない。抽出が無作為である事の定義も不可能だろう。現実世界で支持政党の調査をするなら、年齢、性別、職業などの他の観測可能量(個体の属性)との独立性を見ることぐらいか。

離散分布と連続分布を区別しておきながら、離散分布が正規分布に従う、と言ってる時点で何かおかしい。近似だと言いながら近似の手段を提供してない。

とにかく概念のすり替えが多い。統計量を、標本の実現値に対する計算として導入しながら、「統計量はもちろん確率変数です」とかシレッと済ませる。いつのまにか、標本が確率変数の列として扱われる(個体の集合だったのでは?)。分かってやっているのか、単にバカなのか分からない。教育的配慮か不注意か分からない。

「××が分布する」の意味はだいたいわかった。「××は確率変数である」という意味だ。この表現によって、標本実現値の空間(これは確率標本という確率変数の値の空間=データ空間)上の関数(統計値関数)を確率変数とみなすことを示唆している。

標本実現値の空間における分布という概念が理解できれば、それを確率変数とみなせることを暗黙に仮定している。実際は話が逆で、最初に確率変数があるはずだが。

とはいえ、実際の確率変数がまったく隠れている現状からすると、確率変数は形式的な変数、計算の道具と捉えてもいいのかもしれない。標本代数(実可換環)というアプローチは意味があるかもしれない。