このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

標本誤差(sampling error) 再論

実務標本調査(アンケートの実施とか国政調査とか)の話と数理統計学(統計数学)の話は隔たりがあるが、入門書ではこれがゴッチャに書かれていて、相互関係も説明されてない。話がハッキリしなくて困る。

標本誤差(sampling error)は、どっちかと言うと実務標本調査の話で、次のような解説がある。

標本調査は、選ばれた一部の標本を対象に調査を行い、すべての対象を調べるわけではありませんので、その結果には誤差(これを「標本誤差」といいます)が含まれます

「全数調査と標本調査でのズレ」という程度の意味、数学的な定義は特にない。強いて言えば、全数調査での値(定数)と、標本から計算した値の差だろうが、定数と確率変数との差なので、これも確率変数となる。

全数調査を行わずに標本調査を行ったことにより生ずる差のことを「標本誤差」といい、それ以外の、例えば誤回答や未回答による誤差を「非標本誤差」といいます。

誤回答や未回答は全数調査でも避けられない、ということ。標本誤差は非標本誤差である誤回答や未回答と対照される概念。

一方、標本標準誤差は、標本平均という確率変数に対する標準偏差なので、確率変数の空間(観測値の代数)の上の汎関数としての解釈を持つ。

話が逸れるが詳しく言うと:

モデルの空間Mがあり、MがパラメトリックならばMは、分布の空間をアンビエント空間とするパラメトリック多様体(パラメータ表示を備えた多様体)になる。モデルの特性値とは、モデル空間上で定義された何らかの関数。パラメトリックモデルでは、パラメータ空間Θ上の関数が特性値(の表現)となる。

確率変数を分布と同一視すると、モデル多様体が入っているアンビエント空間に任意の確率変数が入る。標本平均は確率変数なのでアンビエント空間に入るが、モデル多様体と同じパラメータ空間でパラメトライズされる。これは、モデル多様体Mからアンビエント空間内での移動(あるいは変換)があることになる。

アンビエント空間は分布の空間なので、期待値、分散、標準偏差などの特性値を持つ。特性値とは分布に対する関数だったので、累積分布関数や密度関数に対する汎関数として定義される。

モデル多様体Mのアンビエント空間内での変換(移動、変形)と、アンビエント空間上の汎関数を組合せてモデルの特性値を定義できる。この特性値をパラメータにより具体的に記述して計算するとき、分布を様々に加工する。特に確率変数のnベキに対応する分布(分布のnベキ)が登場する。