このブログは、旧・はてなダイアリー「檜山正幸のキマイラ飼育記 メモ編」(http://d.hatena.ne.jp/m-hiyama-memo/)のデータを移行・保存したものであり、今後(2019年1月以降)更新の予定はありません。

今後の更新は、新しいブログ http://m-hiyama-memo.hatenablog.com/ で行います。

2015-08-01から1ヶ月間の記事一覧

パラメータの嘘

パラメトリックモデルとは、パラメータ空間Θから分布の空間Dist(V)への写像 M:Θ→Dist(V)で与えられて、Mが単射の(識別可能性を持つ)ときを言う。微分構造を考えるなら、Mがどの点でも非特異(微分が退化しない)とする。こういう定義なのだが、実際にはパ…

不明

無相関と独立性(分散の計算には無相関でいい、とか) 仮説検定の根拠を明白に 棄却域の設定方法、多次元分布では 検定関数とか検出力とか 無作為抽出の意味(「サンプルが母集団の特徴を備えている」って?)サンプリングの「偏りのなさ」とは何か 「平均の…

『リベリオン』から色々

『リベリオン』て2002年だったのか。今から13年も前。"ridiculous, but incredibly enjoyable"という評価を憶えている。駅から自宅の途中にある交差点の所に出店スタイル100円ショップのような店があって、そこで聞いたラジオで『リベリオン』を紹介していた…

有偏分散量の期待値の計算

有偏分散(biased variance)値関数は、x∈Rn に対する関数 bvar で、 [tex: mean(x) = mean*1 = mean(x_1, \,\ldots\, ,x_n) = \frac{1}{n}\sum_{i = 1}^{n}x_i ] [tex: bvar(x) = bvar*2 = bvar(x_1, \,\ldots\, ,x_n) = \frac{1}{n}\sum_{i = 1}^{n}(x_i -…

いきなり「確率変数」と言われたらどうするか

Vが集合(実際には可測空間のはず)で、xがV上を走る変数のとき、「xは確率変数である」とか「xを確率変数とする」みたいなことになったら、どう解釈するか。そのときは、V上の確率分布(確率測度)が存在していて、暗黙にその分布を前提にしている。可測空…

シーケンス変量と標本変量とi.i.d.

i.i.d.は、independent and identically distributed random variables の略。ちゃんと書いてある説明でも、標本概念とi.i.d.の関係はけっこう天下り。標本変量(確率標本)とi.i.d.は同じとみなしていいかと思っていたが、そうでもない。「任意の観測量(集…

観測値ベクトル空間とシーケンス空間

確率ベクトルは多義的だからやめて、ベクトル確率変数(ベクトル変量、ベクトル観測量)を使うことにした(ベクトル確率変数の曖昧性 - 檜山正幸のキマイラ飼育記 メモ編 参照)。それでもまだダメで、集団に備わる基本観測量 X:Ω→V と、抽出インデックス集…

集団と母数と分布空間

「確率空間+変量(観測量)」を集団(assemblage)と呼ぶことにする。変量の値空間はVに固定する。集団(Ω, P, X)と集団(Δ, Q, Y)のあいだの射fは次のように定義する。 f:Ω→Δ は可測写像である。したがって、集団の圏はMeas上に具象的である(忘却関手を持つ…

標本分布、誤差分散、標準誤差

これらはいずれも、 φの標本分布 φの誤差分散 φの標準誤差 と言うべきものである。説明的に言えば、 φ(X(n)) の分布 φ(X(n)) の分散 φ(X(n)) の標準偏差 φ = meann:Vn→V のときは、 mean(X(n)) の分布 mean(X(n)) の分散 mean(X(n)) の標準偏差 φ = mean の…

標本の直感的な説明と実際のところ

まず直感的な説明のほうを書いておく。直感的な標本は、どうやら像標本集団とその集団から得られた観測値を意味しているようだ。母集団を (Ω, P, X) とすると、像標本集団は、Ωの部分集合Aを標本点集合とするような集団(A, Q, Y)。ここで注意すべきは、測度Q…

変動係数、アフィン構造じゃない!

変動係数 = 標準偏差 / 平均 なんだって、平均で割り算している。これは線形構造やアフィン構造ではないな。何か乗法的な構造が入っている。多次元のモーメント量を求めるときも多次元の掛け算の構造を使う。掛け算があるようなベクトル空間か。単なる可換環…

初等的概念と記法の合理化

記号 名称 合理化 μ 母平均 μ[X] σ2 母分散 σ2[X] 標本平均 mean, Mn[X] s2 標本分散 bvar, bvar(X(n)) 母誤差分散 σ2[Mn[X]] 標本誤差分散 無理 不偏分散 uvar(X(n)) 不偏誤差分散 (1/n)uvar(X(n)) 母平均、母分散、母標準偏差に関しては、集団に組み込まれ…

さらに「標本」の整理

「標本」として考えられる意味は、 確率空間の標本点空間 確率空間の標本点 確率変数の標本値空間=値空間 標本値空間の要素=値 抽出写像=サンプリング α:I→Ω、α∈ΩI 抽出データ=標本データ=抽出で誘導された変量 α;X = X(I)(α) 標本変量=確率標本 X(I):…

「標本」回りと集団の概念

「標本」がキツい、厳しい。確率変数(可測写像)を X:Ω→V として、Ωも標本空間、Vも標本空間。どうにもならない!VをXの観測値空間、実現値空間、値空間などと呼ぶことはできるが、母集団 vs 標本集団、標本抽出、標本平均、標本分布 などで使う「標本」も…

観測分布とヒストグラム

観測分布というものを考える。データ=観測値=観測なので、データ分布、観測値分布と言っても同じ、しかし標本分布は別な意味(統計値、統計量の分布)で使われているのでダメ。変量 X:Ω→V があるとき、I-観測値とは VI の要素で、抽出 α:I→Ω によりα;Xとし…

尺度の圏論

概要尺度の議論をちゃんとしないと色々とハッキリしないと思う。尺度とは何か? というと尺度圏の対象だと思うのが良さそうだ。特にアフィン尺度とユークリッド尺度について定式化する。アフィン尺度はアフィン空間の圏、ユークリッド尺度はユークリッド空間…

定数と汎関数とパラメータ(母数)

[過去に書いたものだが] 頭痛がする統計用語・記法のシリーズ、延々と。μ、σ2、σなどは用途が決まった定数だが。定数とは汎関数である。汎関数の定義域は、分布の空間。ただし、分布の空間が怪しくて、 確率変数の空間 確率測度の空間 密度関数の空間 累積分…

オーバーバー記法はトンデモナイ

[過去に書いたものだが] 頭痛がする統計用語・記法のシリーズ、延々と。 大文字小文字の違いなので、この記法はよく使われる。ところが、一見類似性があるが、これはトンデモナイ記法で、まったくの別物。小文字の は、 というタプルを考えれば、タプル変数x…

平均値

[過去に書いたものだが] 頭痛がする統計用語・記法のシリーズ、延々と。「平均」という言葉も文脈依存の激しいオーバーロードだが、確率変数の期待値はE[-]、平均値関数をmeanとでもしてある程度は区別できる。また、記号の乱用ではあるが、mean(x)とmean(X(…

統計変換としての平均と分散

, s2, の確率変数版は、, S2, U などと書かれるが、もっと正確な定式化には統計変換を使うほうが良い。, S2, U に対応する統計変換を、Mn, BVn, UVn と書く。nは標本サイズを示す整数。確率変数 X:Ω→R に対して、 Mn[X]:Ωn→R Mn[X] := mean(X(n)) BVn[X]:Ωn→…

平均と分散

平均と分散は最も基本的な概念だろうが、これさえも曖昧だったりイイカゲンだったり。確率変数 X:Ω→R に対する期待値 E[X] は、Ω上の確率測度Pによる実可測関数Xの積分として定義できる。確率変数(random variable, RV)の空間を RV(Ω, P, R) とすると、期…

複数の人の名前の表記法

外国人名のカタカタ表記で、姓名をどう区切るか。Wikipediaの例から見てみる。 ウィル・スミス アリアナ・グランデ 姓と名は中黒で区切っている。では二人の名前を繋ぐときはどうか? 定理の名前などで、 ラドン=ニコディムの定理(ラドン=ニコディムのて…

ベクトル確率変数の曖昧性

データや確率変数が「ベクトルである」というのが曖昧だ。まず、確率ベクトルという言葉だが、ベクトル空間に値を取る確率変数という以外に、一列の確率遷移行列の意味もある。確率遷移行列は次のような呼び名がある。 stochastic matrix probability matrix…

統計変換

確率変数または確率分布を引数として実数値を返す関数を統計汎関数と呼ぶ(これはある程度一般的な用語)。引数に確率変数を取っても、同じ分布なら同じ値となる統計汎関数が多く、実質的には分布で統計汎関数の値が決まると言ってもよいだろう。しかし、代…

統計量、n度目の再考

統計量を広義に解釈するなら、任意の確率変数ということになる。しかし、標本の実現値(=データ)から具体的に計算できないものは統計量ではない、という記述を見た。一方で、標準化統計量Zについて考えると、単なる確率変数よりは拡大しないといけない気も…

勘違い! 確率標本はモノイド累乗関手だった

Ω = (Ω, ΣΩ, P) が確率空間とする。可測空間を Ω = (Ω, ΣΩ) として、Ω = (Ω, P) とも書く(かなり酷い記号の乱用)。確率変数(変量、基本観測量)X:Ω→Rがあるときに、サイズnの確率標本は、 だと書いてきたが、これは間違い! 単にテンソルベキ が確率標本…

μのオーバーロード

測度論では、μは測度の意味で用いられる。パラメトリック統計では、平均の意味だが、 確率変数の期待値としてのμ パラメトリックモデルのパラメータとしてのμ がある。期待値としてのμは統計汎関数 μX := E[X] となる。モーメント(積率)関係では、 αr は、…

離散分布 3

離散分布 2 - 檜山正幸のキマイラ飼育記 メモ編 の続き。実は、形容詞「離散」に続くモノが2種類ある。 離散な確率空間 離散な確率分布(確率測度) 離散な確率空間とは、 台集合(標本空間)の濃度が高々可算である。 σ代数がベキ集合の代数である。 これは…

離散分布 2

離散分布」という言葉も曖昧で、概念的に難しい。離散には有限離散と可算(無限)離散があるが、ここでは有限離散を単に「離散」と呼ぶことにする。可算無限への拡張は比較的容易だと思う。[追記]Wikipediaの 離散確率分布 - Wikipedia に事例がある。[/追記…

どうやって合理化するか、z値の例

ホントに疲れる!次の言明をどう解釈するか。 x 〜 N(μ, σ2) のとき、z 〜 N(0, 1) ここで、z = (x - μx)/σx 知っている人には、見慣れた何でもない記述だろうが、解釈にはほんとに苦労した(結局は曖昧のままだが)。「それが何であるか」が定義されないま…