裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

Web アプリの結果が変??かな??

2014年06月25日 | 統計学

http://web-analytics-or-die.org/2011/08/how_to_interpret_abtest/
A/Bテストの結果をどのように解釈するか?」だけど...

1. 「A/Bテストはどのくらいの期間、実施すれば良いのですか?」

> 期間は関係ありません、両パターン間に有意差が認められるまでです
> CVが各100件集まるくらいが目安です

パワーアナリシスをするべきですね。「有意差が認められるまで」ではなく「『事前に設定した差』を検出するのに必要なサンプルサイズになるまで」ですね。

2. Aパターン、BパターンのCVRが取りうる範囲がかなり被っていることがわかります。範囲が被っているということは、どちらのCVRの方が高くなるのかわからないということです

示された図が box and whisker なのが疑問だが,それはさておき,オーバーラップしていても,差があるという結果になるというのは,この下 2 つ目の記事を参照のこと。

3. ちなみに、区間推定を用いる場合、カイ二乗検定よりも検定力は落ちるはずです。つまり有意差が出にくくなります

ちょっと何を言っているのかわからない。
検定と推定は等価です。例えば,二群の比率の差の検定が有意である場合,二群の比率の差の信頼区間は0を含まない。逆も真。

4. Web アプリの結果がおかしい?
http://web-analytics-or-die.org/abtest/

ページに示されてる例は,30/1000, 35/1000 の例の区間推定値が何によって計算されたか不明
binom.test でも prop.test でもないようだ。
判明:p±1.96√(p(1-p)/n) なんですね。でも,その近似式はあまりよくない。prop.test で使っているのは,n/(n+Z^2)*(p+Z^2/(2n)±Zsqrt(p(1-p)/n+Z^2/(4n^2))) なので,よろしく。

http://web-analytics-or-die.org/abtest/ で
50/100, 35/100 の比較例を表示してみたが,
パターン     下限     確率     上限
オリジナル     40.2%     50%     59.8%
テストパターン     25.65%     35%     44.35%
(下限,上限の計算法はよしとしよう)
また,有意差はあるのに「有意差はありません。」となってしまうが???

数値を変えてやってみたところ,どうやら,「信頼区間が重ならない場合に,有意差がある」と判定しているようだ。
しかし,それが間違いなのは 2. で示したとおり。

> chisq.test(matrix(c(50, 50, 35, 65), 2))

    Pearson's Chi-squared test with Yates' continuity correction

data:  matrix(c(50, 50, 35, 65), 2)
X-squared = 4.0102, df = 1, p-value = 0.04522

> prop.test(c(50, 35), c(100, 100))

    2-sample test for equality of proportions with continuity
    correction

data:  c(50, 35) out of c(100, 100)
X-squared = 4.0102, df = 1, p-value = 0.04522

コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 塵も積もれば山となる | トップ | 騙されてはいけませんよ »
最新の画像もっと見る

コメントを投稿

統計学」カテゴリの最新記事