サイコロにもてあそばれる日々

統計学に関連する内容を備忘録代わりに書いていきます。

外れ値の検定

2015-05-17 16:49:37 | 日記

※本記事は2015年5月に公開し、2020年6月に修正した。月日の流れは早く、5年前のことを思い出すのにだいぶ苦労した。

 

外れ値の検定方法にスミルノフ・グラブス検定というものがあるらしい。
Wikipediaによれば、外れ値が複数ある場合この検定法を再帰的に用いてよいとある。
さらに調べていくと、外れ値が複数ある場合に最適化した方法があることを見つけた。
これをgeneralized extreme Studentized deviate test(一般化極限スチューデント化偏差検定、と訳すのだろうか?)というらしい。
これをマクロで組んでみることを思い立ち、まずは例題を解いて、検定統計量と限界値の計算結果は再現できた。
せっかくマクロ化するなら、P値も出せるようにしようと、SASのページも参照した。

結果、次式が自由度n-i-1のt分布に従うと理解した。

ここに、n: 標本数、i: 外れ値の数(試行回数)、検定統計量: 外れ値をi-1個除外した標本の平均値、s: 外れ値をi-1個除外した標本の不偏標準偏差

P値は上の式をT.DIST.2T関数に代入して得た値に(n-i+1)を乗じて求める。

Engineering Statistics Handbookに掲載の例題でi=9, 10のときP値が1を超えてしまう。原典を確認したところボンフェローニ補正をかけているため、P値が1を超えることがあるとわかった。この場合、SASのページでは1と読み替えているので、運用上はそれで問題ないと思われる。

とりあえず、例題の計算を追いかけたExcelファイルを備忘のためにあげておこうと思う。

 


最新の画像もっと見る

1 コメント

コメント日が  古い順  |   新しい順
Unknown (Author)
2015-10-19 00:21:59
その後SASのページをよく見たところ、p>1の原因はボンフェローニ補正によりp値を標本数倍しているためと判明した。また、同ページではp>1のときはp=1とする処理もかけていた。p>1は異常ではないと理解した。これを踏まえ、マクロのバージョンアップを行った。

コメントを投稿