統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

新・医学と統計(18)

2018-12-27 12:19:27 | 日記・エッセイ・コラム
今回からは、JASPの「Frequencies」に入ります。
ここでは、JASPによる分割表形式での統計的検定についてご紹介します。
例題は、
情報統計研究所刊行の「すぐに役立つ統計のコツ(オーム社刊)」(44ぺーじ、例題7)を用います。
https://www.ohmsha.co.jp/book/9784274218163/

同書45ページの「表5.7 フイッシャー計算の分割表」を下記(表1)の様なデータ・フォームにし、今までと同様にExcel(CSV形式)で保存して下さい。
 
表1 分割表形式のデータ・フォーム(Medicine→Gender と訂正、以下同じ)
 
 
 
 例えば、「Frequency.csv」として保存されたなら、
JASP起動→「Frequency.csv」の読込み

Frequencies→Contingency Tables

図1 変数の選択 
 
 
図2 出力結果(1) 
 
 
「Chi-squared=8.404、p=0.004」となっていますが、
ここで、
図3の様に検定方法を追加してみます。
 
図3 検定方法の追加 
 
 
赤矢印にチェックを入れ選択してみましょう。
 
図4 出力結果(1) 
 
Ci-Squared Test の ”Chi continuity correction” はYates の補正値の値となります(赤矢印)。
また、
対数オッズ比(赤矢印)は、
Log Odds ratio=1.823(0.473~3.172)
Fisher's exact test の Log Odds ratio=1.804(0.378~3.595)
 
・・・となっています。
 
対数オッズ比はオッズ比の自然対数値のことで、ロジスティック回帰分析の係数にあたり、その指数がオッズ比になります。
オッズ比が知りたいなら、
データ解析環境「R」で次のようにすれば良いでしょう。

例えば、
「Frequency.csv」を Excelで開き、データ部分をすべて選択しコーピーすればグリッドボードにコピーされますので、
事前に「R」の "R Console" に下記のコマンドを書いておき実行して下さい。
 
dat<- read.delim("clipboard", header=T) ←事前に「R」の"R Console"に記載しておき実行する。
 
↓ ここから以下は、新しいスクリプトに記載して実行すると良いでしょう。
dat 
fit <- glm(Medicine ~ TC, weights = Count, data = dat, family = binomial)
summary(fit)
 
図5 出力結果(2) 
 
 
TCLow の Estimate(1.8225) は、図4の出力結果(1)の "Log Odds Ratio" と一致します。
ここで、
次の「R」コマンドを実行すると、Odds ratio とその95%信頼限界を求めることが出来ます。
 
***
fit <- glm(Medicine ~ TC, weights = Count, data = dat, family = binomial)
summary(fit)
Odds<- exp(summary(fit)$coef["TCLow",1])
Odds
OddsCI<- exp(summary(fit)$coef["TCLow",1] +
  qnorm(c(0.025, 0.975)) * summary(fit)$coef["TCLow",2])
OddsCI
 
出力結果:
オッズ比(Odds)
[1] 6.1875
 
Odds ratio の95%信頼限界(OddsCI)
[1]  1.60503 23.85323
***
 
以上によりOdd ratioとその CIを求められます(Excelでの筆算でも良いでしょう)。
なお、
Fisher's exact test のp値(両側)を知りたいなら、次により求められます。
 
***
Tab <- matrix(c(11,32,3,54), byrow=T, nc=2)
fisher.test(Tab, alternative="t")
 
出力結果:
図6 fisher.test の結果 
 
***
 
次回に続く!
 
情報統計研究所をご気軽にご利用くださいませ。
 
情報統計研究所刊:「すぐに役立つ統計のコツ」立読み

https://e-hon.cloudpages.jp/viewer/asp/9784_274_218163
 
 

新・医学と統計(17)

2018-12-22 11:23:31 | 日記・エッセイ・コラム
前回(16)では、”Bayesian Linear Regression(BLR)” と通常の ”Linear Regression(LR)” の回帰係数(推定値)が一致せず、その理由がよく分かりませんでした(図1)。
 
図1 BLR と LR の回帰係数(推定値)
 
上段が LRの、下段が BLRの Coefficientsであり、Interceptが大きく違っています。
そこで、
今回はデータ解析環境「R」で BLRをやってみました。
「R」には、
MCMC(マルコフ連鎖モンテカルロシミュレーション)による推定方法が用意されています。
これは乱数を使ってシミュレーション計算する方法で、「R」の環境があれば簡単に実行できます。
「RStan」での方法もありますが、少々厄介です。
 
「R」の実行:
事前にpackage(MCMApack)をインストールしておいて下さい。
データは前回の「ZTT-Protein.csv」を Excelで開き「ZTT~gGlb」のすべてを選択しグリップボードにコピーします。
そして、下記により読込み実行します。
 
***
dat<- read.delim("clipboard", header=T)
head(dat)
attach(dat)
library(MCMCpack)
fit <- MCMCregress(ZTT ~ gGlb , data=dat, burnin = 1000, mcmc = 10000, thin = 2, b0 = 0, B0 = 0,
 c0 = 0.001 d0= 0.001)
summary(fit)
 
出力結果(図1) 
***
 
ここで、
事前情報が一様分布を当てはめているなら、
「事前分布の平均:b0=0、事前分布の分散:B0=0、逆ガンマ分布のshapeパラメータ:c0=0.001、逆ガンマ分布のscaleパラメータ:d0=0.001」としておきます。
 
注釈:
burnin:バーイン期間、mcmc:くり返し数、thin:サンプリング間隔
引数の詳細は、「Functions in MCMCpack」を参考にして下さい。
 
図1(出力結果)のとおり、MCMCregressによる BLRは、ほぼ LRの結果に近いものになりました。
JASPとの回帰係数(Intercept)の違いは、良くわかりません(ご教示頂ければ幸いです)。
 
次回に続く!
 
情報統計研究所をご気軽にご利用くださいませ。
 
情報統計研究所刊:「すぐに役立つ統計のコツ」立読み

https://e-hon.cloudpages.jp/viewer/asp/9784_274_218163
 
 
 
 

新・医学と統計(16)

2018-12-19 12:03:53 | 日記・エッセイ・コラム
JASP でベイジアン線形回帰分析の方法をご紹介しておきましょう。
 
「新・医学と統計(12)」でご紹介した「ZTT-Protein.csv」を例題として使います。
初めての方は、
情報統計研究所(下記URL)からデータをダウンロードして下さい。
http://kstat.sakura.ne.jp/dbase/dbasePWBI.html
 
ファイル名:
Down Load (Sample of Multi-Correlation Plot)

ZTT-Protein.xlsx→ZTT-Protein.csv として保存
 
それでは、いつもの様にJASPを立ち上げ・・・、
 
JASPの実行:
「ZTT-Protein.csv」の読込

図1 データファイル 
 
 
「目的変数=ZTT、説明変数= a1Glb + gGlb」(赤矢印:相関の低いものと高いもの)用いて
試してみましょう。
 

Regression→Bayesian Linear Regression

Dependent Variable=ZTT
Covariates=a1Glb, gGlb

図2 検定方法のチェック 
 
 
赤色矢印に☑を入れておきます。
 

図3 分析結果-1 
 
 
R^2(決定係数又は寄与率)を見れば回帰式への当てはめの良さが分かります。
「95% Credible Interval」とはベイズ確信区間であり、一般のCI(Confidence Interval)とは区別されます。
 

図4 周辺事後分布  
 
☑Margical Posterior Distribution にチェックを入れて下さい。
 

図5 a1Glb の事後分布 
 
 
この分布を見ると、信頼区間は「0」を挟んでいますので有意とは言えません。
 

図6 gGlb の事後分布 
 
 
信頼区間は「0」を挟んでいないので有意と言えます。
 
ところで、
Posterior Summary の Coefficients(Mean, SD)は Linear Regression の Coefficiennts と一致しません。
Linear Regression を試してみて下さい。

そこで、
これについては、次回に「R」でベイズの線形回帰(推定)を行ってみます。
 
***
このブログに対する直接のコメントは出来ませんが、検索→「facebook 情報統計研究所」でコメント等を見ることが出来ます。
https://ja-jp.facebook.com/pages/category/Consulting-Agency/情報統計研究所-175664752494496/

どうぞ、ご参考になさって下さい。
***
 
次回に続く!
 
情報統計研究所をご気軽にご利用くださいませ。
 
*****
情報統計研究所刊:「すぐに役立つ統計のコツ」立読み

https://e-hon.cloudpages.jp/viewer/asp/9784_274_218163
 
 

新・医学と統計(15)

2018-12-12 11:23:42 | 日記・エッセイ・コラム
前回に続き杉本典夫先生のコメントをご紹介します。
<<原文>>
そもそも統計学は国勢調査を研究する学問として発展し、ラテン語のstatus(国家)にちなんでstatisticsと名付けられました。
そのため、最初は主として人文科学系で用いられていました。
それがFisherが推測統計学を開発した後は、自然科学系でも用いられるようになり、人文科学系の統計学と自然科学系の統計学がそれぞれ独立して発展してきました。
そしてベイズ統計学は、主として人文科学系の統計学者によって研究され、発展してきました。
ちなみに現代医学は自然科学系の学問なので、主としてネイマン・ピアソン統計学を用いています。
しかし医学――特に疫学は人間を対象にするため、人文科学系の特徴も持っています。
そのため、ベイズ統計学が有効な場面があるかもしれませんね。

次回に続く!
 
情報統計研究所はここから。
 

新・医学と統計(14)

2018-12-11 11:36:19 | 日記
「新・医学と統計」ではJASPによるベイズ統計分析の方法をご紹介していますが、杉本典夫先生からコメントを頂きましたのでご紹介させて頂きます。
www.snap-tck.com/index.html
 
<<原文>>
ベイズ統計学と従来のネイマン・ピアソン統計学の違いは、簡単に言えば「事前情報をどのように扱うか?」という点だと思います。ベイズ統計学は事前情報を信用し、それをデータによって補強・修正して事後情報を導き出します。
これは主として人文科学系で用いられる手順であり、人間が本能的に備えている「経験的思考法」に基づいています。
それに対してネイマン・ピアソン統計学は、事前情報をそのまま信用せず、それに基づいて仮説を組み立て、データによってその仮説の真偽を検証します。
これは主として自然科学系で用いられる仮説演繹法の手順に従ったもので、批判的思考法(クリティカル・シンキング)に基づいています。
古代ギリシャでは哲学が最高の学問だったので、アリストテレスは人文科学系の経験的思考法を自然科学にも適用して、自然科学理論を組み立てました。
それに対してガリレオは、批評的思考法を用いて自然科学理論を組み立て、大きな成功を収めました。
そのため現代科学では、どちらかと言えば批評的思考法が主流になっています。
 
次回に続く!
 
情報統計研究所はここから。