Web アプリの結果が変？？かな？？

2014年06月25日 | 統計学

http://web-analytics-or-die.org/2011/08/how_to_interpret_abtest/
「A/Bテストの結果をどのように解釈するか？」だけど...

1. 「A/Bテストはどのくらいの期間、実施すれば良いのですか？」

> 期間は関係ありません、両パターン間に有意差が認められるまでです
> CVが各100件集まるくらいが目安です

パワーアナリシスをするべきですね。「有意差が認められるまで」ではなく「『事前に設定した差』を検出するのに必要なサンプルサイズになるまで」ですね。

2. Aパターン、BパターンのCVRが取りうる範囲がかなり被っていることがわかります。範囲が被っているということは、どちらのCVRの方が高くなるのかわからないということです

示された図が box and whisker なのが疑問だが，それはさておき，オーバーラップしていても，差があるという結果になるというのは，この下 2 つ目の記事を参照のこと。

3. ちなみに、区間推定を用いる場合、カイ二乗検定よりも検定力は落ちるはずです。つまり有意差が出にくくなります

ちょっと何を言っているのかわからない。
検定と推定は等価です。例えば，二群の比率の差の検定が有意である場合，二群の比率の差の信頼区間は0を含まない。逆も真。

4. Web アプリの結果がおかしい？
http://web-analytics-or-die.org/abtest/

ページに示されてる例は，30/1000, 35/1000 の例の区間推定値が何によって計算されたか不明
binom.test でも prop.test でもないようだ。
判明：p±1.96√（p(1-p)/n) なんですね。でも，その近似式はあまりよくない。prop.test で使っているのは，n/(n+Z^2)*(p+Z^2/(2n)±Zsqrt(p(1-p)/n+Z^2/(4n^2))) なので，よろしく。

http://web-analytics-or-die.org/abtest/　で
50/100, 35/100 の比較例を表示してみたが，
パターン    下限    確率    上限
オリジナル    40.2%    50%    59.8%
テストパターン    25.65%    35%    44.35%
（下限，上限の計算法はよしとしよう）
また，有意差はあるのに「有意差はありません。」となってしまうが？？？

数値を変えてやってみたところ，どうやら，「信頼区間が重ならない場合に，有意差がある」と判定しているようだ。
しかし，それが間違いなのは 2. で示したとおり。

> chisq.test(matrix(c(50, 50, 35, 65), 2))

   Pearson's Chi-squared test with Yates' continuity correction

data: matrix(c(50, 50, 35, 65), 2)
X-squared = 4.0102, df = 1, p-value = 0.04522

> prop.test(c(50, 35), c(100, 100))

   2-sample test for equality of proportions with continuity
   correction

data: c(50, 35) out of c(100, 100)
X-squared = 4.0102, df = 1, p-value = 0.04522

2024年9月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム，コンピュータ・サイエンス，統計学

Web アプリの結果が変？？かな？？

このブログの人気記事

コメントを投稿

「統計学」カテゴリの最新記事

プロフィール

最新記事

バックナンバー

カレンダー

カテゴリー

最新コメント

雨雲の動き

ログイン

goo blog お知らせ

goo blog おすすめ