裏 RjpWiki

文字通り,RjpWiki の裏を行きます
R プログラム コンピュータ・サイエンス 統計学

有意水準 20% はナシ

2013年12月29日 | 統計学

「A/Bテストの数理」への批判
http://abrahamcow.hatenablog.com/entry/2013/12/28/210035
だけどねえ。ちょっといただけない。

ではこの場合、有意水準はいくつくらいにしたらいいんでしょうか?

とてもよい質問です。
たぶん20%くらいでいいんじゃないかと思います。

その根拠は天気予報です。
降水確率0%~20%くらいならだいたいみんな傘持ってかないじゃないですか。
40%~100%ならだいたいみんな傘持っていくんじゃないでしょうか。
30%だと人によってはちょっと迷うと思います。

だから20%で切っちゃいましょう。
そのくらいのざっくりした感じで十分だと思います。

有意水準は,リスク・ベネフィットの観点を考慮するというのはあたりまえなんですけど,どんな場合でも天気予報のリスク・ベネフィットが当てはまるという認識はおかしい。有意水準は別の見方からいう「危険率」または「第一種の過誤(αエラー)」。これを称して,「あわてん坊のアルファ」ともいう。20%もの危険率を受容していると,とんでもないことになることも多くなるのだけど??

また,有意水準 5% は,「統計学における慣例」なので,特に理由がない場合は 5% を採用するのが無難。「有意水準をちゃんと書いた上で有意差ありかなしかを言え」というのはごもっとも。しかし,「有意水準 x% のもとで ●● 検定を行ったところ有意な差があった」などの陳述は,統計検定を知らない人に余計な抵抗感を与えるであろう。5% 有意水準が慣例であるという前提で,「統計学的に意味のある差だった」と述べるのは,許されると思う。

後ろの方にある,「20% 有意」というのは,聞いたことがない。日本の心理学分野で「10% で【有意傾向】」というのさえ批判対象になるのだから。

更にいえば,リスク・ベネフィットの判断は極端にいえば個人レベルで差があるので,画一的な有意水準を設けて有意だの有意でないだの言っても意味がない。そのためにはどうするか。答えは,常に P 値を表記するということである。日本ではいまでも,「5%有意」あるいは,星祭りでもないのに「*」だの「**」を併記して自己満足に浸っている(ちなみに,有意傾向はR でも '.' で表されたりすることもある)。欧米諸国では,ずっと前から P 値を表記するのが標準である。

そもそも,更に更にいえば,白か黒かの二値判断(検定)ではなく,「信頼区間を表示しましょう」というのが世界標準だ。日本はこのレベルまでまだ至っていない。

信頼区間は prop.test(..., conf.level = 0.95)$conf.int で得られる。信頼率は conf.level で与えられ,0.95 がデフォルトになっているのは前述の通り「慣例」だからである。

以下の図は,信頼区間を描いたもの。赤は80%信頼区間(有意水準20%と等価),黒は95%信頼区間(有意水準が普通の95%)。信頼区間が0を含まなければ,「有意水準の下で有意差があった」ということと同じ。

コメント (1)

数値計算の定石,そして,R の定石

2013年12月22日 | ブログラミング

NHKスペシャルを題材に、Rコードの最適化を考える-その2
http://markovchainmontecarlo.hatenablog.com/entry/2013/12/27/000000

だけど。ネタ振りしているのだとは思うのだけど,そうでもないのかなとも思う。

試しに5,000個中250個丁度の貸し倒れが起きる確率を上記算式に当てはめてみる。
> n <- 5000
> k <- 250
> p <- 0.2
> prod(1:n) / prod(1:k) / prod(1:(n-k)) * p^k * (1-p)^(n-k)
[1] NaN

え?NaN?
非数 (Not a Number) が出てきたぞ?

全然ダメじゃん。

ということで、実際に5,000このサイコロを何度も振ることで確率論を求める方法にシフトしてみます。
その中で最適化を考える事にしてみましょう。

ではなく,この場合は,
> exp(lchoose(n, k)+k*log(p)+(n-k)*log(1-p))
[1] 2.619655e-206
とするべきですね。コンピュータによる数値演算の定石です。
そもそも,そんな小細工しなくても,R はちゃんと答えを出してくれます。

> dbinom(k, n, p) # たったこれだけ
[1] 2.619655e-206

コメント

n で割るか n-1 で割るか,それが問題だ

2013年12月16日 | ブログラミング

RPubs - Rによるやさしい統計学 - 第一章 Rと統計学
http://rpubs.com/azu/stats_with_R_1

この一つ前の記事を書いた後,Web の大海を漂っていると,標記のページに出会った。


関数を作ってみよう

標本分散

    var() という関数がネイティブにある

不偏分散

    自分で varp() という関数を定義してみる

詳細は2章でー

varp <- function(x) {
    標本分散 <- var(x) * (length(x) - 1/length(x))
    標本分散
}

標本分散と不偏分散という用語(統計量)の使い分けがはっきりしていない。

以下では R の記法(文法で)話をしよう。

x をデータベクトルとすると,「標本の大きさ(サンプルサイズ)」n は,

n <- length(x)

である。

変動 SS(Sum of Squares)は,以下のようであるということは,皆が正しく理解している。

SS <- sum(x-mean(x))

分散 V は

V <- SS / n

不偏分散 U は

U <- SS / (n-1)

これは,初級の統計学の教科書に書かれていることである。

さて,ここからいろいろな問題が生じる。

(1) 不偏分散 U のことを,単に「分散」と呼ぶ人がいる。

統計学では,分散としては不偏分散のことをさすことが多いので,やむを得ないというか,妥当な取扱であるともいえる。しかし,両者を区別したい(区別すべき)場合に,本来の分散のことをなんと呼ぶのか。

(2) 不偏分散 U のことを,「標本分散」と呼ぶ人がいる。これに対して,分散 V は「母分散」と呼ぶ人がいる。

標本分散とは,標本の分散ということである。母分散とは,母集団の分散ということである。
標本の分散は,SS / n によろうが,SS / (n-1) によろうが,どちらも分散である。
本来,母分散というのは観察できないものである。小さな母集団で,データが全て分かっている(測定された)ということならば母分散を計算することはできる。SS を n で割ったもの V を分散と母分散と呼んでも差し支えはないだろう。
しかし,標本データにおいて,SS を n で割ったものを母分散,SS を n-1 で割ったほうを標本分散と呼び分けるのはまちがいである。SS / n は母分散ではないし,SS / n も標本分散なのだから。

(3) このブログの著者(彼が読んだ本「R による易しい統計学」の著者)は,var( ) は不偏分散であり,これに基づいて分散を計算するが,それを「標本分散」と呼ぶ??として varp( ) という関数を定義しようとしている。
var と varp は Excel がそれぞれの統計量を計算する関数名として使用している(それを踏襲しようというのもどうかと思うが)。

(4) SS / (n-1) という標本分散(不偏分散)は,母分散のよい推定値となるが,SS / n という標本分散は不偏推定値ではなく,母分散の推定値としては不適切である。

まとめよう

SS / n も SS / (n-1) も,共に「標本分散」である
SS / (n-1) は「不偏分散」,SS / n は単に「分散」と呼ぶ
SS / (n-1) は「母分散のよい推定値」になる(不偏推定値)
SS / n も母分散の推定値であるが,「母分散の不偏推定値ではない」

コメント

統計検定2級の問題だそうだ

2013年12月16日 | 統計学

統計検定2級 2013年11月17日試験の誤答:問18
http://ranalytics.blog.fc2.com/blog-entry-53.html


これについて,私は,問題が悪いと思う。

病気 D(D 群)の患者 8 人,健常者(N 群)の 6 人に糖負荷検査を行い,負荷後 30 分の血糖値(mg/dL)を測定した。次の表は,その結果である。

として,血糖値が示されている。

D 群 68, 65, 60, 55, 52, 48, 46, 46
N 群 54, 50, 42, 40, 33, 33

また,それぞれの群の平均と分散は次のとおりである。

として,要約統計量が示されている。

D 群 平均 $¥bar{y}_{D}$ = 55, 分散 $s_{D}^{2}$ = 73.4
N 群 平均 $¥bar{y}_{N}$ = 42, 分散 $s_{N}^{2}$ = 74.8

経験的に,D 群の母分散 $s_{D}^{2}$ と N 群の母分散 $s_{N}^{2}$ は等しいとみなしてよいことがわかっている。これより,2 群の血糖値の上昇値に差があるかどうかを検定したい。次のように $t$ 検定を行うことを考える。

この段階で,私は考える。分散って不偏分散じゃないの?

実際,次の設問で「プールした分散 $s^{2}$ を求める式はどれか」ということで,正解として,

が選ばれるようになっているので,やはり「分散」は「不偏分散」と明示的に書くべきであろう。

次の設問は,「検定統計量 $t$ の値を求める式」を問うているが,それらしい選択肢には,

と書いてある。うっかりすると,以下に示す式

が書いてあるかとまちがいそう。間違えてしまうと正解がないということになるので,なおうろたえるかも。

そもそも,こういう式は

のように書く方がよいのではないか(普通,多くの教科書ではこのように書いてある)。

コメント