パラメトリック/ノンパラメトリック

( ゜д゜) ノンパラ!

ことりさん,勝手にネタに使ってしまってすみません!

統計解析法には実に沢山の種類があるわけですが,その中にはノンパラメトリック検定なる一連の手法があります。

雪本さんおなじみの「統計tool」で実行できるほとんどの統計解析法はパラメトリックな統計解析法に分類されるものですが,一体「パラメトリック/ノンパラメトリック」の区分とは何でしょうか?

統計解析法では「有意かどうか」を判断するときに「確率」という数値を参考にします。この「確率」というものがどうやって求められるかに「パラメトリック/ノンパラメトリック」の区分が関係しています。

統計学には「標準正規分布」「t分布」「F分布」「χ2分布」「二項分布」など実に様々な確率分布が開発されています。難しい話をすっ飛ばせば,「このデータは○○と呼ばれる確率分布の情報を使って『確率』を求めよう」とする統計解析法のことを「パラメトリック」検定呼びます。これに対して「特定の確率分布の除法を使わずに『確率』を求めよう」ものを「ノンパラメトリック」検定と呼びます(あるいはこの理解も不正確かもしれませんが,初級編においてはこの理解で特に問題はありません)。

例えば,「t検定」は「t分布」という確率分布を使って「確率」を求めます。「分散分析」は「F分布」の確率分布を使い,「χ2検定」は「χ2分布」の確率分布を使っています。これらは特定の確率分布を使うため「パラメトリック検定」ですが,ノンパラメトリック検定の場合は【基本的に】このような確率分布を使わずに【地道な作業によって】確率を直接求めているのです。確率分布を使うメリットは,「多分このデータは○○の確率分布に基づいているとしよう……そうすると,計算作業が非常に簡略化できて……えーと…………はい,確率計算おしまーい」と確率計算が素早くできます。一方ノンパラメトリック検定の場合は計算の簡略化ができないため,高校数学で学んだ「場合分け」の作業を駆使しなければなりません。今ではコンピュータに計算作業をさせると言っても,当然ながら簡略化された計算が使えるのならば,その方法を使った方がパソコンの負担も軽くなります。

このように「パラ/ノンパラ」区分は「データ数が多い/少ない」の区分とは関係ないのです……直接的には。

さて,実際の研究データは実際には○○の確率分布に基づいているとは言えません。「あー,このデータは○○の確率分布に必ずしも基づいていないから○○の確率分布の情報を使うのはちょっと強引かな? でも○○の確率分布に強引に基づいているとした方が計算がすごーく楽だよな…………よーし,ちょっと強引だけど○○の確率分布に基づくと仮定して計算しちゃおう」と強引な使用法が幅をきかせることになります。
しかし,このような強引の使用法をする研究者達ですが,彼らも実は根拠を以てこのような使用法を採用していたのです。それが「中心極限定理」と呼ばれるもので,簡単に言えば「元のデータが何であっても,多少○○の確率分布に基づいていなくとも,データ数が大きければ,そのデータの統計解析法には(元のデータがどのような確率分布に関係なく)『(標準)正規分布(およびそれから派生した「t分布」「F分布」「χ2分布」)』を使うことができるよ」という魔法の定理なのです。

この魔法を使うことによって,データ数が大きければ,データがどのような確率分布をしているかを考慮しなくとも良くなりました。

○データ数が多い場合
 どんな確率分布のデータ → 中心極限定理で「正規分布」系が使用可

○データ数が少ない場合
 ○○の確率分布(あるいはそれに近い)データ → パラメトリック検定ok
 ○○確率分布から大きく外れているデータ → ノンパラメトリック検定

上記のような区分ができたために,誤解として「データ数が少ない時にはノンパラ」が広まってしまったのです。しかし,データ数が少なくとも,そのデータが○○の確率分布に近いのであれば,全く問題なしにパラメトリック検定を使うことができます。

さて,話が長くなりましたので,そろそろ終わりますが,最後に!

統計解析法を使う場合には,データの尺度として「名義尺度」「順序尺度」「間隔・比率尺度」を区分した方がよいですが,「順序尺度」データにおける条件間の代表値の差異を調べる方法に以下のような手法があります。

○順序尺度版一要因二条件(対応なし)の差異統計法
 ※順序尺度版「対応なしt検定」に相当

 マン・ホイトニー検定(Mann-Whitney U test)

○順序尺度版一要因二条件(対応あり)の差異統計法
 ※順序尺度版「対応ありt検定」に相当

 符号検定 or 符号付き順位検定
 
なお,「マン・ホイトニー検定」の他にも「対応なし」検定法として「ウィルコクソンの順位和検定」が挙げられますが,両者は数学的原理としては全く同じです(同じ結果を導きます)。

Θ・)ノ「ことりさんが 挙げている 三手法は本質的にどれも同じ」
コメント ( 1 ) | Trackback ( 0 )