このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

確率統計

標本分布、誤差分散、標準誤差

これらはいずれも、 φの標本分布 φの誤差分散 φの標準誤差 と言うべきものである。説明的に言えば、 φ(X(n)) の分布 φ(X(n)) の分散 φ(X(n)) の標準偏差 φ = meann:Vn→V のときは、 mean(X(n)) の分布 mean(X(n)) の分散 mean(X(n)) の標準偏差 φ = mean の…

標本の直感的な説明と実際のところ

まず直感的な説明のほうを書いておく。直感的な標本は、どうやら像標本集団とその集団から得られた観測値を意味しているようだ。母集団を (Ω, P, X) とすると、像標本集団は、Ωの部分集合Aを標本点集合とするような集団(A, Q, Y)。ここで注意すべきは、測度Q…

変動係数、アフィン構造じゃない!

変動係数 = 標準偏差 / 平均 なんだって、平均で割り算している。これは線形構造やアフィン構造ではないな。何か乗法的な構造が入っている。多次元のモーメント量を求めるときも多次元の掛け算の構造を使う。掛け算があるようなベクトル空間か。単なる可換環…

初等的概念と記法の合理化

記号 名称 合理化 μ 母平均 μ[X] σ2 母分散 σ2[X] 標本平均 mean, Mn[X] s2 標本分散 bvar, bvar(X(n)) 母誤差分散 σ2[Mn[X]] 標本誤差分散 無理 不偏分散 uvar(X(n)) 不偏誤差分散 (1/n)uvar(X(n)) 母平均、母分散、母標準偏差に関しては、集団に組み込まれ…

さらに「標本」の整理

「標本」として考えられる意味は、 確率空間の標本点空間 確率空間の標本点 確率変数の標本値空間=値空間 標本値空間の要素=値 抽出写像=サンプリング α:I→Ω、α∈ΩI 抽出データ=標本データ=抽出で誘導された変量 α;X = X(I)(α) 標本変量=確率標本 X(I):…

「標本」回りと集団の概念

「標本」がキツい、厳しい。確率変数(可測写像)を X:Ω→V として、Ωも標本空間、Vも標本空間。どうにもならない!VをXの観測値空間、実現値空間、値空間などと呼ぶことはできるが、母集団 vs 標本集団、標本抽出、標本平均、標本分布 などで使う「標本」も…

観測分布とヒストグラム

観測分布というものを考える。データ=観測値=観測なので、データ分布、観測値分布と言っても同じ、しかし標本分布は別な意味(統計値、統計量の分布)で使われているのでダメ。変量 X:Ω→V があるとき、I-観測値とは VI の要素で、抽出 α:I→Ω によりα;Xとし…

尺度の圏論

概要尺度の議論をちゃんとしないと色々とハッキリしないと思う。尺度とは何か? というと尺度圏の対象だと思うのが良さそうだ。特にアフィン尺度とユークリッド尺度について定式化する。アフィン尺度はアフィン空間の圏、ユークリッド尺度はユークリッド空間…

定数と汎関数とパラメータ(母数)

[過去に書いたものだが] 頭痛がする統計用語・記法のシリーズ、延々と。μ、σ2、σなどは用途が決まった定数だが。定数とは汎関数である。汎関数の定義域は、分布の空間。ただし、分布の空間が怪しくて、 確率変数の空間 確率測度の空間 密度関数の空間 累積分…

オーバーバー記法はトンデモナイ

[過去に書いたものだが] 頭痛がする統計用語・記法のシリーズ、延々と。 大文字小文字の違いなので、この記法はよく使われる。ところが、一見類似性があるが、これはトンデモナイ記法で、まったくの別物。小文字の は、 というタプルを考えれば、タプル変数x…

平均値

[過去に書いたものだが] 頭痛がする統計用語・記法のシリーズ、延々と。「平均」という言葉も文脈依存の激しいオーバーロードだが、確率変数の期待値はE[-]、平均値関数をmeanとでもしてある程度は区別できる。また、記号の乱用ではあるが、mean(x)とmean(X(…

統計変換としての平均と分散

, s2, の確率変数版は、, S2, U などと書かれるが、もっと正確な定式化には統計変換を使うほうが良い。, S2, U に対応する統計変換を、Mn, BVn, UVn と書く。nは標本サイズを示す整数。確率変数 X:Ω→R に対して、 Mn[X]:Ωn→R Mn[X] := mean(X(n)) BVn[X]:Ωn→…

平均と分散

平均と分散は最も基本的な概念だろうが、これさえも曖昧だったりイイカゲンだったり。確率変数 X:Ω→R に対する期待値 E[X] は、Ω上の確率測度Pによる実可測関数Xの積分として定義できる。確率変数(random variable, RV)の空間を RV(Ω, P, R) とすると、期…

ベクトル確率変数の曖昧性

データや確率変数が「ベクトルである」というのが曖昧だ。まず、確率ベクトルという言葉だが、ベクトル空間に値を取る確率変数という以外に、一列の確率遷移行列の意味もある。確率遷移行列は次のような呼び名がある。 stochastic matrix probability matrix…

統計変換

確率変数または確率分布を引数として実数値を返す関数を統計汎関数と呼ぶ(これはある程度一般的な用語)。引数に確率変数を取っても、同じ分布なら同じ値となる統計汎関数が多く、実質的には分布で統計汎関数の値が決まると言ってもよいだろう。しかし、代…

統計量、n度目の再考

統計量を広義に解釈するなら、任意の確率変数ということになる。しかし、標本の実現値(=データ)から具体的に計算できないものは統計量ではない、という記述を見た。一方で、標準化統計量Zについて考えると、単なる確率変数よりは拡大しないといけない気も…

勘違い! 確率標本はモノイド累乗関手だった

Ω = (Ω, ΣΩ, P) が確率空間とする。可測空間を Ω = (Ω, ΣΩ) として、Ω = (Ω, P) とも書く(かなり酷い記号の乱用)。確率変数(変量、基本観測量)X:Ω→Rがあるときに、サイズnの確率標本は、 だと書いてきたが、これは間違い! 単にテンソルベキ が確率標本…

μのオーバーロード

測度論では、μは測度の意味で用いられる。パラメトリック統計では、平均の意味だが、 確率変数の期待値としてのμ パラメトリックモデルのパラメータとしてのμ がある。期待値としてのμは統計汎関数 μX := E[X] となる。モーメント(積率)関係では、 αr は、…

離散分布 3

離散分布 2 - 檜山正幸のキマイラ飼育記 メモ編 の続き。実は、形容詞「離散」に続くモノが2種類ある。 離散な確率空間 離散な確率分布(確率測度) 離散な確率空間とは、 台集合(標本空間)の濃度が高々可算である。 σ代数がベキ集合の代数である。 これは…

離散分布 2

離散分布」という言葉も曖昧で、概念的に難しい。離散には有限離散と可算(無限)離散があるが、ここでは有限離散を単に「離散」と呼ぶことにする。可算無限への拡張は比較的容易だと思う。[追記]Wikipediaの 離散確率分布 - Wikipedia に事例がある。[/追記…

どうやって合理化するか、z値の例

ホントに疲れる!次の言明をどう解釈するか。 x 〜 N(μ, σ2) のとき、z 〜 N(0, 1) ここで、z = (x - μx)/σx 知っている人には、見慣れた何でもない記述だろうが、解釈にはほんとに苦労した(結局は曖昧のままだが)。「それが何であるか」が定義されないま…

統計汎関数と推定量の一致性

推定量の一致性という概念がある。むしろ、一致性は推定量の定義だろう。「一致性を持たない推定量」という言葉はナンセンスだと思われる。確率変数 X:Ω→V があるとき、データ空間 D = V + V2 + V3 + ... を作れる。データ空間Dは観測や実験の結果とみなせる…

値が従う分布

「t分布とはt値が従う分布です」の意味は次のように解釈する。t値のような通常の関数を統計値関数と呼ぶことにする。これは確率変数Xと関係するが、実際に使うのはXの値の空間であるVだけ。統計値関数は、Vのn直積上の関数。すべてのnに対して定義されている…

代数的統計量、代数的統計汎関数

統計量の測度的解釈は、V値確率標本(独立同分布確率変数列) X1, ..., Xn:Ω→V に対して、任意の可測写像 ψ:Vn→W により誘導されるW値確率変数 <X1, ..., Xn>;ψ :Ω→W のこと。V = W = R のときが多い。V = W = R の統計量は、標本代数を用いて代数的に定義できる。標本代</x1,>…

色々な視点

用語、概念、記号法が悲惨な状況なのは、それだけの多様性があるからだろう。色々な視点から見る必要がある。 測度的(測度論的) 代数的 幾何的(情報幾何的) 物理的(統計物理とか熱学とか) 情報論的(エントロピーか?) 計算的・アルゴリズム的 全体の…

確率空間の設定がサッパリ分からない例 (2) 頻度主義とか

「頻度主義」と「ベイズ主義」とか、なんで主義なんだよ!? と思っていたが、実際、主義かもしんないな。主義というと、政治・思想・哲学とかのイメージが付きまとい、数理科学には相応しくないと思っていたが、やはり「主義」のような気がしてきた。頻度主義…

平均、分散の意味

とにかく色々な意味・解釈がある。μとσ2という記号を使うことにして: V上の分布の空間Dist(V)で定義された統計汎関数としてのμとσ2、V値分布p∈Dist(V)に対して μ(p)∈V、σ2(p)∈V。Vをベクトル空間よりアフィン空間とするほうがより正確な定式化。 パラメトリ…

確率空間の設定がサッパリ分からない例

行方不明の子供が生きているか死んでいるか: 値の空間 = {'死んでいる', '生きている', '不明'} ある土地の地下に石油があるか: 値の空間 = {'ある', 'ない', 'なんともいえない'} 地球が消滅する日: 値の空間 = 時間軸の半直線 容疑者Aは犯人か: 値の空…

データ 2

データ空間 D = V* = I + V + V2 + ... を分布の空間Dist(V)に埋め込むことは非常に重要。全データ空間の部分集合A⊆Dを考えることもある。dist:D→Dist(V) を観測分布=経験分布を得る関数とする。distを正確に記述しないと、そこから先の議論ができない。Vが…

データ

データに関しての確認事項。 観測量=確率変数 観測値の空間=確率変数の値の集合、ベクトル空間とは限らない! データ=繰り返し観測の実現値=データ点 データ空間=観測値の空間の直積の直和=クリーネスター 統計値関数=データ空間上の任意の関数 統計…