統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(14)

2016-09-02 12:12:19 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)でご紹介できなかった統計に関する色々な事を書いています。
今回は、前号に続き分割表形式における「相関」の求め方についてご紹介します。
 
それでは、「すぐに役立つ統計のコツ」第6章(66ページ)を開いて下さい。
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
 
前号は「2×2分割表」での関連をみる方法でした。今回はそれ以外の代表的な方法をご紹介します。
 
● 独立(C)係数(Contingency Coefficient)
分割表のカイ二乗値を下記の式に代入すれば求められます。
 
C=√χ^2/(χ^2+N) :N=度数の合計、√=ルート
 
例題として、「本書49ページ(表5.16):年代別のコレステロールの比較」を用いてみましょう。
 
 
 
カイ二乗値と総度数は、
χ^2=6.624
N=100
 
ですので、
 
C=√6.624/(6.624+100)=0.249
 
となり、関連は小さいようです。
 
● クラメールのV 係数(Cramer's contingence coefficient)
分割表のカイ二乗値を下記の式に代入すれば求められます。
 
V=√χ^2/(N×k) :N=度数の合計、k=行数・列数の小さい方
 
C係数と同じ例題を用いてみましょう。
 
V=√6.624/(100×1)=0.257
 
C係数より、やや高くなっています。
 

● ポリコリック相関係数(Polychoric correlation ceefficient)
多分相関係数とか項目間多分相関係数とか言われるものです。
 
この特徴は、行・列ともに順序尺度の「L×M分割表」に適用します。
 
例題として、
あるアンケート集計で医師と看護師の評価が次の様であったとします。
 
 
この計算は、最尤推定法を用いるのでデータ解析環境「R」での方法を紹介します。
 
***
y<- matrix(c(30,15,5,25,30,10,10,15,20),3,3)
y
library(polycor)
polychor(y, ML=T, std.err=T)
 
Polychoric Correlation, ML est. = 0.4474 (0.08314)
Test of bivariate normality: Chisquare = 2.311, df = 3, p = 0.5104
 
  Row Thresholds
  Threshold   Std.Err.
1   -0.2393   0.09978
2    0.7730   0.11100
 

  Column Thresholds
  Threshold  Std.Err.
1   -0.4897     0.1032
2    0.5753   0.1055
***
 

情報統計研究はここから
 
 
 
 

統計のコツのこつ(13)

2016-09-01 11:04:43 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)でご紹介できなかった統計に関する色々な事を書いています。
今回は、本書で取り上げていない分割表形式における「相関」の求め方についてご紹介します。
 
それでは、「すぐに役立つ統計のコツ」第6章(66ページ)を開いて下さい。
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
 
前々号の「分割表」では「カイ二乗検定」について紹介しました。
医学実験や看護研究などでのアンケート調査でクロス集計され分割表形式にまとめられたものは、通常の連続量における相関係数は求められません。
そこで、
次の様な相関係数を用いることになります。なお、分割表での相関は「連関(度)」(association)と言います。
 
● φ係数(Phi-Coeeficient)
行・列が「2×2分割表」にまとめられているときに用います。 
例えば、
下表の様な「性別とコレステロール値の分割表」(本書の表5.5、43ページ)です。
 
 
この分割表から、
φ=(a・d-b・c)/√n1・n2・m1・m2=(3×32-54×11)/√54×43×14×86=-0.29
 
φ=0.29 から関連は弱いが「カイ二乗値=8.41(p=0.0037)」で有意と言えます。
 
● 四分相関係数(Tetrachoric Cefficient)
行・列の変数が共に連続量であるものを2分割して2値とした場合に用います。
例えば、
先の例題がコレステロール値を200mg% で分割し男性と女性での関連をみたものであったとします。
 
 
 この計算は、最尤推定法を用いるのでデータ解析環境「R」での方法を紹介します。
 
ポリコリック相関係数(Polychoric correlation ceefficient)の場合
***
y<- matrix(c(32,54,11,3),2,2)
y
library(polycor)
polychor(y, ML=T, std.err=T) # ML=最尤推定法
 
# 出力結果
Polychoric Correlation, ML est. = -0.5453 (0.156)
 
 Row Threshold
  Threshold  Std.Err.
    -0.1764    0.126
 
  Column Threshold
  Threshold  Std.Err.
     1.08      0.1559
***
 
この様に、
ポリコリック相関係数はΦ係数を用いるよりも分かりやすい相関係数が得られます。
 
一方、
四分相関(Tetrachoric Correlation)の条件にあっていれば 、近似的(Approximating the tetrachoric correlation, Edwards & Edwards:1984)に、次のオッズ比(OR)から求められます。
 
OR=(32×3)/(11×54)=0.162
r_tet=(OR^(π/4)-1)/(OR^(π/4)+1)=-0.6142
 
次回は、
引き続き「すぐに役立つ統計のコツ」の第6章から、分割表形式の相関をご紹介します。
 
 
 
情報統計研究はここから