裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

ダメ出し:どちらが正しいかを示すには

2012年11月30日 | ブログラミング

不偏分散と1/(n-1) では

単純に,どちらがもっともらしいか示すだけで十分では?

極端な場合を見せれば十分かな?

> n <- 2
> loop <- 10000
> u <- v <- numeric(n)
> for (i in 1:loop) {
+ x <- rnorm(n)
+ u[i] <- var(x)
+ v[i] <- var(x)*(n-1)/n
+ }
> layout(matrix(1:2, 2))
> hist(u)
> hist(v)
> layout(1)
> mean(u)
[1] 1.002552
> mean(v)
[1] 0.5012759

もうちょっとあり得そうな例

> n <- 20
> loop <- 10000
> u <- v <- numeric(n)
> for (i in 1:loop) {
+ x <- rnorm(n)
+ u[i] <- var(x)
+ v[i] <- var(x)*(n-1)/n
+ }
> layout(matrix(1:2, 2))
> hist(u)
> hist(v)
> layout(1)
> mean(u)
[1] 1.004137
> mean(v)
[1] 0.9539302

コメント (6)    この記事についてブログを書く
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« ダメ出し: カイ二乗統計量の... | トップ | ダメ出し:R で学ぶデータ・... »
最新の画像もっと見る

6 コメント

コメント日が  古い順  |   新しい順
Unknown (暇つぶし)
2012-12-06 02:08:03
「不偏分散と1/(n-1) では」って、不偏分散の分母が「1/(n-1)」なんですが。大丈夫ですか?OK?
そして、サンプルサイズ2の例って、形式的な例にしてもナンセンスです。サンプルサイズ2で分散を求める意味、ないでしょう(データ解析、したことありますか?)。
母分散の推定の意味 (r-de-r)
2012-12-06 08:32:32
まぎらわしいけどこの部分は見出しで,
「不偏分散と1/(n-1)」 では
ということ。括弧部分がアンカーになっているので。最後の「は」はなかった方が,日本語としてはよいですね。
「サンプルサイズ2の例」は確かに極端ですが,シューハート管理図なんかで,n標本の「範囲」つまり最大値と最小値の差から母標準偏差を推定する係数まで用意されているのですよ。n=2 の場合の係数もちゃんとあります。
母分散は,n=2 の場合でもちゃんと推定できますという所に意味があるのです。
「データ解析、したことありますか?」ありますよ(^_^)
あなたのイメージでは,ビッグデータ(とまでは行かなくても)なんかを扱うのをデータ解析とよぶのでしょうね。
分野と状況によっては,いつも十分な量のデータを使えるわけではなく,そう言う場合も推測統計学が必要なこともあるのです。
Unknown (暇つぶし)
2012-12-06 19:42:21
ちなみに、私は一般的な「統計学」の研究者です。ビッグデータの専門家ではありませんし、ビッグデータなんて、見たことも触ったこともありません。一般常識のレベルの知識を持ち合わせているだけですが、それがどうしたというのですか?

> 母分散は,n=2 の場合でもちゃんと推定できますという所に意味があるのです。

「ちゃんと推定できる」そう断言しておられるところがすごいと思います。私は、Small sampleのデータ解析はたくさんしてきましたし、Small sampleの統計理論の論文も書いていますが、さすがに「N=2で推定がうまくいく」と自信を持っておっしゃる方には、はじめて出会いました。そういう専門家の方もおられるのですね。
ところで、貴方は、「サンプルサイズの設計」をされたことはありますか?「サンプルサイズを設計する意味」をご存知ですか?
Unknown (r-de-r)
2012-12-06 22:54:07
> 私は一般的な「統計学」の研究者です
普通はそうでしょうね。しかし,統計学の「研究者」という所に,若干の引っかかりはあります。『統計学を利活用する「研究者」』というのとはちょっと違うと言うことでしょうか?

> 「ちゃんと推定できる」そう断言しておられるところがすごいと思います

だってそうでしょう,「nが幾つ以上ならちゃんと推定できる(妥当な推定ができるという,基準(閾値)がある」とでもお思いでしょうか」という。

前にも言ったように,場合によっては,一度に 2 つしかサンプルを採れないということもあるわけです。確かに,サンプルサイズが2であれば,母数の信頼区間がとてつもなく(?)大きいこともあり得るでしょう。しかし,それが現実的な制約だし,その制約の範囲内で最良の推定をする必要があるし,それを保証するのが近代統計学でしょう。

> 私は、Small sampleのデータ解析はたくさんしてきましたし

たぶん,あなたが仰る Smalle smple というのは少なくとも n ≧ 10 とか 20 のレベルなのではないでしょうか?もっと少ない n 数で勝負しなければならない分野もあるということは思いやる必要はあるのではないでしょうか?

> 貴方は、「サンプルサイズの設計」をされたことはありますか?「サンプルサイズを設計する意味」をご存知ですか?

ないと思うのでしょうか?なぜそういう疑問というか挑戦を突きつけるのか,意味が分かりませんね。傲慢なのでしょうか(^_^;)

サンプルサイズの設計をして,とてもそんなサンプルサイズを揃えるのは無理だということもあるし,ぎりぎり得られるサンプルサイズでどれくらいのことがいえるだろうかと試算して,絶望することもあるけど,絶望しても意味ない,やれるだけのことをやって,その限界を留保する,という現実もあるわけですよ。

サンプルサイズ設計して,それだけのサンプルをなんの苦もなく得られるなら,どんなに幸せなことか。

> 「N=2で推定がうまくいく」と自信を持っておっしゃる方には、はじめて出会いました。

そんな状況,いくらもあるし,それを知らないあなたは幸せ者ですね。
Unknown (暇つぶし)
2012-12-08 20:43:00
> そんな状況,いくらもあるし,それを知らないあなたは幸せ者ですね。

ありません。サンプルサイズ2の研究で検定・推定をしている論文、あるんなら、ここで、具体的に挙げて教えてください。仮想的な数値例ではなく、理学・工学・医学・農学・社会科学など、実際のデータ解析でですよ?幸せなのは、あなたの頭でしょう。

> 傲慢なのでしょうか(^_^;)

最後に。お前が言うな。
論文がすべてじゃないでしょう (r-de-r)
2012-12-09 08:25:07
何度も言ったように、品質管理のような場合には、n=2のようなこともあるということ。統計学は論文書きのためだけにあるのではないでしょう?

コメントを投稿

ブログラミング」カテゴリの最新記事