統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(45)

2010-05-18 11:35:04 | インポート

情報統計研究所へのアクセスはここから。

多重共線性(2)について。
多重共線性の検討は「SPSS」(統計解析専用ソフト)の「回帰」の選択から「線形」を選び、ダイアロボックスの「統計」をクリックし、「共線性の診断」を選択すれば良いのです。なお、
共線性の統計量は、
変数(Ⅹ1)を従属変数とし変数(Ⅹ2+Ⅹ3+Ⅹ4)を独立変数としたときの「R^2」から、
 Ⅹ1の許容量=1-R^2、VIF=1/許容量 

となります。同じように、
変数(Ⅹ2)を従属変数とし変数(Ⅹ1+Ⅹ3+Ⅹ4)を独立変数としてⅩ2の許容量と VIF を求めます。

表3 共線性の統計量
Viftable

共線性があれば許容量は0 に近く、VIF は大きくなり、通常 VIF >= 5 で要注意と言われていますが、表3 の統計量はいずれも VIF<5 です。だからと言って多重共線性を否定することは出来ません。ここは、
前回の表2の相関関係からどちらか一方の変数を選ぶ必要がありそうですので、主成分分析で統合できる変数かどうかを見てみましょう。

図2 主成分散布図

Pcascatter

図3 主成分負荷量
Pcaloading

図2と図3の主成分散布図と第1主成分負荷量から負荷量の大きな変数は統合しても良さそうです。わざわざ、主成分分析をしなくても医学的な知識から変数間の関連性に気づけば、相関性の高い変数は取り除いておけば良いのです。しかし、
ここでは、
多重共線性の例題を示していますので、その様なことは当然としながら話を進めたいと思います。医学統計では重回帰モデルの推定よりも有意変数(因子)の特定に重きを置くことが多いようです。もちろん、モデル式の善し悪しは大切です。しかし、
統計の目的が有意変数を知ることであれば、多重共線性があってもなくても変数選択(stepwise)へと進めば良いのでしょうか?ここでは、表4に例題の stepwise の結果を示しました。

表4 例題における変数選択の結果
Stepwise

変数選択の結果、統計学的に有意な変数は、「Ⅹ4」だけでした。変数選択によって多重共線性のある変数は除去されています。
重回帰型分析で理屈に合わない結果のときは多重共線性を疑って下さい。