統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(12)

2016-08-29 11:02:29 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)でご紹介できなかった統計に関する色々な事を書いています。
今回は、「相関と回帰」に関するチョットしたコツをご紹介しましょう。
 
それでは、「すぐに役立つ統計のコツ」第6章(66ページ)を開いて下さい。
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
 
相関係数は、2つの標本間の直線関係が強いか弱いかであり、
相関回帰は、2つの標本の関係を直線又は曲線の回帰式で表したものです。
 
相関関係は、
数学のY=aX+bに良くフイットする関係(Xを知ってYを予測する)を Linear Fit(線形回帰又は単回帰)と言います。
一方、
Polynomial Fit, Quadratic(2次多項式)、Cubic(3次多項式)、Quartic(4次多項式)などを多項式回帰と言います。
その他にも、
Expoential Fit(指数関数のあてはめ)など非線形回帰(直線回帰以外を言う)などがあります。
 
「すぐに役立つ統計のコツ」では、非線形のデータを対数変換で線形関係にする方法を紹介しています。
ここでは、
対数変換をしなかった場合の多項式による当てはめをやってみましょう。
例題は本書の表3.2(11ページ)のGOTとGPTです
 
本書のExcelの方法と同じやり方で「散布図」→「近似曲線の追加」で1次~3次多項式にフイットさせると、
下図の非線形関係を知ることが出来ます。
 
決定係数 R^2 は次の様になります。
 
・1次式: R^2=0.7077
・2次式: R^2=0.7237
・3次式: R^2=0.7436
 
 
これを、
自然対数変換すれば単純な1次式(Y=aX+b)で表すことが出来ます(本書70ページ、図6.1)。
しかし、GOTとGPTの関係は対数変換値となり、実数値を1次式に当てはめることは出来ません。
 
***
重回帰モデルは、説明変数は2ツ以上あるものです。
***
 
次回は、
引き続き「すぐに役立つ統計のコツ」の第6章から、分割表形式の相関をご紹介します。
 
 
 
 
情報統計研究はここから

統計のコツのこつ(11)

2016-08-14 16:14:28 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)でご紹介できなかった統計に関する色々な事を書いています。
今回も「カイ二乗検定(L×M 分割表」の計算方法です。
 
それでは、「すぐに役立つ統計のコツ」第5章(52ページ)を開いて下さい。
 
図5.1(52ページ)の右図を下記の通り訂正いたします。
 
 
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
 
 
「2×2分割表」でのカイ二乗検定の方法は前号の通りです。今回は、「 L×M 分割表」の簡単な例として
本章(65ページ、まとめ)の親と子の職業について計算してみましょう。この様な分割表は看護研究などでよく見かけます。
計算は「2×2分割表」の場合と同じく期待度数と実測度数の偏差を計算します。
その計算過程は次の通りです。
 
 
 
 
ここまでは、「すぐに役立つ統計のコツ」で紹介した通りです。
 
ここでは、単純な例として、
親と子の職業の関係を「対応分析(コレスポンデンス:Correspondens)」で見てみましょう。
 
対応分析は、
親と子の関係を2次元座標上で表現し、視覚的にその関係を見る様にしたものです。計算は複雑ですので、データ解析環境「R」で作成した2次元散布図を示しましょう。
 
下図の散布図を対応分析では布置図と言います。
 
 
 
この座標上で最も近いものほど関係が強く、遠いものほど関係が弱いと判断します。対応分析では、各相互間の距離を計算できますが、実際には視覚的に判断すれば良いと思います。
そうすると、
視覚的に親と子の関係の強さは実線円で示すことが出来ます。すなわち、親の職業と子の職業には関係がありそうです。
特に、
「医師」が「看護師」、「その他」と離れて布置しており、察するに、医師の子は医師になる傾向が強いのかも知れませんね。
 
 
 
この様に、
「L×M」が大きな分割表になればなるほど、出現度数(比率)だけで、その関係を知ることが難しくなります。
そこで、
視覚的に分かりやすくしたのが「対応分析」だと考えても良いでしょう。
なお、
「対応分析」に関する色々な統計量は省略します。
 
***
分割表から計算できるものに、次の様なものがあります。
 
・ファイ係数(phi-coefficient)
・C 係数(contingency coefficient)
・クラメールの V 係数(cramer's V)
・Tetrachoric coefficient
・Polychoric coefficient
 
これら分割表の相関に付いては次回以降にご紹介します。
***
 
次回は、
「すぐに役立つ統計のコツ」から第6章についてご紹介します。
 
 
 
 情報統計研究はここから
 

統計のコツのこつ(10)

2016-08-08 12:22:03 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)の副教材の様なものです。
今回は、本書で紹介できなかった「カイ二乗検定」の計算方法です。
 
それでは、「すぐに役立つ統計のコツ」第5章(40ページ)を開いて下さい。
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
 
医学や看護関連の分野では、実験やアンケート集計などの出現度数(出現頻度)を分割表形式(クロス集計)にまとめる事がよくあります。
例えば、本章の「表5.1」(40ページ)の様にです。
 
***
表5.1を次のように訂正します。
非正規(病気なし)→非生起(病気なし)
 

「すぐに役立つ統計のコツ」の正誤表は下記に記しています。
正誤表←ここをクリック
***
 
この様な表を一般に「2×2分割表」と言い、2行L列やM行L列にまとめる事もあります。
 ここで、
「2×2分割表」が与えられたとき、一般には「カイ二乗検定」の対象となります。
その1例を本章の「表5.5」について次の様にまとめてみましょう。
 
表5.5 性別とコレステロール値の分割表
 
 
 
与えられた度数をもとに、
行の度数の比率(%)と列の度数の比率(%)そして全体の度数の比率(%)を求めて観察します。
そして、比率に差があるかどうかであれば、次により統計的な検定を行います。
 
検定の計算は次の手順で行えば良いでしょう。
1)期待度数を求める。
A×D/T=43×14/100=6.02
A×E/T=43×86/100=36.98
B×D/T=57×14/100=7.98
B×E/T=57×86/100=49.02
 
2)出現度数と期待度数の偏差(イエーツの補正)
(11-6.02-0.5)^2/6.02=3.334
(32-36.98+0.5)^2/36.98=0.543
(3-7.98+0.5)^2/7.98=2.515
(54-49.02-0.5)^2/49.02=0.409
 
ここで、
「イエーツの補正」は「±0.5」によって行います。
 
3)検定統計量を求める。
カイ二乗値=出現度数と期待度数の偏差の合計=6.801
 
4)p値を求める。
Excel関数(CHIDIST)を用いると良いでしょう。
 CHIDIST(6.801, 1)=0.0091
 
 
 
以上は、期待度数からの計算でしたが「2×2分割表」の場合は、次の別法を
用いても良いでしょう。
 
カイ二乗検定の別報
1)計算(1)
 100×(abs(11×54-32×3)-100/2)^2=20070400 
2)計算(2)
 (43×57×14×86)=2951004
 3)カイ二乗値
 計算(1)/計算(2)=20070400/2951004=6.801
4)p値
 Excel関数(CHIDIST)を用いると良いでしょう。
 CHIDIST(6.801, 1)=0.0091
 
***
本章のExcelによるオッズ比(Odd ratio)の計算(47ページ)に誤りがありますので、次の様に訂正します。
 OR=(a/c)/(b/d) 
***

「すぐに役立つ統計のコツ」の正誤表は下記に記しています。
正誤表←ここをクリック
 
次回は、
引き続き「すぐに役立つ統計のコツ」から第5章についてご紹介します。
 
 
 
情報統計研究はここから