統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(53)

2017-07-19 11:56:04 | 日記・エッセイ・コラム
ルーチンに追われていましたが、チョット暇ができましたので先の血清CPK活性値の2元配置分散分析を"SPSS"でやってみました。
「統計のコツのこつ(48)(49)」では、採血した血清を室温と冷所に1時間と2時間放置したときのCPK活性値の変化を見たものでした。統計的検討では"差の検定"や"2元配置分散分析"の対象となります。
ここでは、
SPSSによる2元配置分散分析の方法をご紹介しましょう。
 
SPSSを立ち上げ、図1の様な縦長のデータ形式にします。
 
図1 縦長形式にしたデータ
 
 
sample(名義尺度)=検体番号、time(名義尺度)=1時間放置(1):2時間放置(2)、diff=冷所保存と室温保存の差
 
次に、
分析→一般線形モデル→1変量→従属変数[diff]、固定因子[sample,time]→モデル→ユーザの指定による→
モデル[sample(F),time(F)]→項の構築[主効果]→続行→OK
 
これで、
図2の2元配置分散分析表が得られます。
 
図2 2元配置分散分析表
 
 
なお、
SPSSの平方和タイプは"Ⅲ"ですが、"Ⅱ"の商用統計ソフトもあります。今のところ、どちらが良いとは言えないようです。
 
ここで、
図2の分散分析表の解釈は、下記の杉本典夫先生の分析結果(図3)とコメントを参考にして下さい。
 
図3 杉本典夫先生の分析結果
 
杉本典夫先生の分析結果に対するコメント(原文のまま)
******************
「測定条件」の検定結果は、
1hと2hのデータを平均してAとBで比較したものでありAよりもBの方が平均して-25.45だけ低いことが有意かどうかを検定しています。「交互作用」の検定結果は測定条件(A・B)と測定時間(1h・2h)の交互作用であり1hの平均低下値-14.4と2hの平均値低下値-36.5の差が有意かどうかを検定しています。これらの結果から冷蔵庫保管と比較すると室温保管は低い値になりその低下値は1hよりも2hの方がより大きいことがわかります。この分析結果をより詳細に検討するため、級内相関係数、相関係数、回帰係数を求めるのが本来の手順です。
******************
 
なお、
2元配置分散分析については、下記URL(統計学入門)を参考になさって下さい。
http://www.snap-tck.com/room04/c01/stat/stat04/stat0401_2.html
 
情報統計研究所はここから!
 
 
 
 

統計のコツのこつ(52)

2017-07-10 10:50:12 | 日記・エッセイ・コラム
先のブログ「統計のコツのこつ(48)(49)」では、過去のCPK活性値のデータの一部を抜き出して、色々な回帰分析をご紹介しました。
別に、CPK活性値の統計学的な検討を目的とした訳ではなかったのですが、杉本典夫先生から級内相関(ICC)に関するご教示を頂きました。
ICCについては、杉本典夫先生の下記HPを見て下さい。
統計学入門-第5章(5.4 級内相関係数と一致係数)
http://www.snap-tck.com/room04/c01/stat/stat05/stat0504.html
 
ICCについて、解りにくいと思われた Viewers のためになるかどうか分かりませんが・・、ここでは、
ExcelでICCを筆算してみましょう。
 
例題は先の血清CPK活性値(図1)を用いてやってみます。
 
図1 血清CPK活性値(A1h:室温放置1時間、B1h:冷所保管1時間)
 
Excelでの方法:
Excel→データ→データ分析→分析ツール[分散分析:繰り返しのない二元配置]→
:入力範囲[$A$1:$C$21]、☑ラベル、α[0.05]、◎出力先「任意に決める」:→OK
 
この結果は、図2の分散分析表のようになります。
 
図2 血清CPK活性値(A1h:B1h)の二元配置分散分析表
 
 
 
図2の黄色セル部分(Within)は、次により計算で求めたもので出力されません。
Withuin[変動:=F4+F5、自由度:=G4+G5、分散:=F6/G6]
 
図2の各分散の値を用いてICC(図3)を求めます。

図3 各ICCの計算結果
 
 
 
図3の関数式は次の通りです。
 
 
 
以上の様に、
ICCにはCase1、Case2、Case3 の3種類があり、
・検者内信頼性:ICC(1,1)やICC(1,k)............一元配置変量モデル
・検者間信頼性:ICC(2,1)やICC(2,k)、絶対一致..二元配置変量モデル
・検者間信頼性:ICC(3,1)やICC(3,k)、相対一致..二元配置混合モデル
 
での信頼性の指標と言えるでしょう。
もし、
SPSSの環境があるなら、次により3つのICCの関係が良く分かるかも知れません。
・SPSS→分析→信頼性分析→OK→項目選択[A1h, B1h]→統計[☑級内相関]、モデル[一元配置変量]→続行→OK
 [Single Measure Intraclass Correration = 0.9151]、[Average  Measure Intraclass Correration = 0.9557]
・SPSS→分析→信頼性分析→OK→項目選択[A1h, B1h]→統計[☑級内相関]、モデル[二元配置変量][絶対一致]→続行→OK
 [Single Measure Intraclass Correration = 0.9155]、[Average  Measure Intraclass Correration = 0.9559]
・SPSS→分析→信頼性分析→OK→項目選択[A1h, B1h]→統計[☑級内相関]、モデル[二元配置変量][一致性]→続行→OK
 [Single Measure Intraclass Correration = 0.9253]、[Average  Measure Intraclass Correration = 0.9612]

未熟な筆者ゆえ、やさしく悦明することの難しさを感じています。
 
情報統計研究所はここから!
 
 
 
 
 
 
 

統計のコツのこつ(51)

2017-07-06 11:04:06 | 日記・エッセイ・コラム
長々と統計分析手法の話しばかりでしたので、「すぐに役立つ統計のコツ」(オーム社刊)をしまって、ここらコーヒーブレイクにしませんか。
 
 
 
毎朝行う健康管理にオシッコ(Harn)を診るのどうでしょうか。
健常者のHarnは無菌できれいな筈です。ところが、
泡立っていたり、血が混じっていたり、濁っていたり、黄色過ぎたりすると心配になります。
セルフメディケーションとして尿試験紙(pH,蛋白,糖,潜血,細菌など)で調べられる時代です。
ところが、
ベンズジョンズ蛋白(BJP:Bence Jones protein)は尿試験紙での反応が弱いようです。
BJPは図1のように簡単に調べることが出来ます。
 
図1 尿蛋白加熱試験
 
 
 
試験管にHarnをいれ、アルコールランプなどで徐々に温めて行くと、ある温度でHarnが白濁します。
さらに、熱して行くと白濁が消えます。
あとは、専門的な検査(血清の電気泳動など)で確定診断しなければなりません。
要するに、
セルフメディケーションとしては、尿試験紙の一部に異常が出れば早期診断を受けることです。
ちなみに、
頻尿に有効?? ・・・なのが、"オシッコ手帳"かも知れませんよ(医師と相談!)。
BJPはグロブリン蛋白ですので ZTT(クンケル試験)に反応すると思います。
そこで、
"ZTT" と "γ-Glb:γグロブリン"の関係をみて見ましょう(図1)。
 
図2 ZTT と γ-Glbの関係
 
 
コーヒーブレイクにお小水の話ですみません・・・。
 
情報統計研究所はここから!
 
 
 
 

統計のコツのこつ(50)

2017-07-05 12:06:25 | 日記・エッセイ・コラム

前回・前々回のブログについて杉本典夫先生からコメントを頂きましたのでご紹介します。
なお本例題は、心筋梗塞の治療経過の指標となる血清CPK活性値に関する研究データの一部から抜き出し使用したものです。

(原文のまま)
*****
またまた蛇足で恐縮ですが、少しだけ気付いたことをコメントさせていただきます。主軸回帰は第1主成分軸に相当します。それに対して標準主軸回帰は、xからyへの回帰直線の回帰係数とyからxへの回帰直線の回帰係数の幾何平均なので計算原理が少し異なります。そのためxとyの分散が同じ時は一致しますが、それ以外では微妙に異なった値になります。また、異なった条件で測定した複数の測定値の一致度を表すには通常は級内相関係数ICC(Intraclass Correlation Coefficient)を用います。級内相関係数には同じ対象を同じ条件で測定した時の一致度を表すICC(1,1)と同じ対象を異なる条件で測定した時の一致度を表すICC(2,1)とICC(3,1)=Ebelの級内相関係数r11があります。ICC(2,1)とICC(3,1)の違いはICC(2,1)がy=xという一致度を表すのに対してICC(3,1)はy=x+aという一致度を表す点です。つまり、ICC(2,1)は2つの測定値の完全一致度を表します。それに対して、ICC(3,1)は、一方の測定値に定数を足すと他方の測定値に一致すれば「一致」と考えた時の相対的一致度です。相関係数は2つの測定値の一次回帰式的な一致度を表します。つまり、一方の測定値を定数倍しさらにそれに定数を足すと他方の測定値に一致すれば相関係数は1(完全相関)になります。また、2種類のデータの分散が一致している程度を表す指標として私が開発した分散一致係数rVがあります。この分散一致係数と相関係数を掛け合わせるとICC(3,1)になります。
○A1hとB1h
相関係数r=0.958  
分散一致係数rV=0.966
級内相関係数ICC(2,1)=0.916  
級内相関係数ICC(3,1)=0.925
x→yの回帰係数b=0.734  
主軸回帰係数MAb=0.758  
標準主軸回帰係数SMAb=0.766
○A2hとB2h
相関係数r=0.956  
分散一致係数rV=0.969
級内相関係数ICC(2,1)=0.881  
級内相関係数ICC(3,1)=0.927
x→yの回帰係数b=0.744  
主軸回帰係数MAb=0.769  
標準主軸回帰係数SMAb=0.778
3種類の回帰係数から見るとAの測定値を約80%程度にするとBの測定値になるような比例関係があるように思えてしまいます。しかし、ICC(2,1)とICC(3,1)から見るとAの
測定値から定数値を引くとBの測定値になる、つまり、Bは一定値だけ測定値が低くなると解釈した方が妥当だと考えられます。そして、ICC(2,1)の値からA1hとB1hよりもA2h
とB2hの方が一致度が少し低い、つまり、2hではBの測定値がより低くなると解釈できます。
*****
以上、杉本典夫先生に感謝いたします。
 
ここで、
ICCについて、データ解析環境「R」での方法をご紹介しておきます。
*****
A1h<- c(100,350,190,342,70,100,60,45,30,40,43,50,45,70,30,31,20,95,150,60)
B1h<- c(69,236,130,316,95,60,56,30,35,54,39,60,51,57,34,27,29,106,94,55)
A2h<- c(193,450,250,500,150,90,80,90,70,90,80,92,75,251,150,88,87,120,150,90)
B2h<- c(87,328,172,426,114,79,72,75,54,79,90,120,40,138,140,76,50,108,95,73)
dat1h<- data.frame(A1h, B1h)
dat1h
dat2h<- data.frame(A2h, B2h)
dat2h
library(psych)
ICC(dat1h)
ICC(dat2h)
*****
 
情報統計研究所はここから!
 
 
 

統計のコツのこつ(49)

2017-07-02 17:04:03 | 日記・エッセイ・コラム
前号でご紹介した「ValidationーSupport処理プログラム」(日本臨床化学会)による「CPK活性値」(例題)の出力結果は図1~図4の様になっていました。
 
図1 血清CPK活性値の基本統計量
 
(但し、X1=A1h、Y1=B1h、X2=A2h、Y2=B2h)
 
図2 相関に関する統計量
 
図3 3つの線形回帰式
 
 
 
図4 ツインプロットとヒストグラム
 
 
(但し、試薬1=A1h、試薬2=B1h、Ⅹ2=A2h、Y2=B2h)

それでは、
2つの測定値間の相関関係の例題(CPK活性値)をデータ解析環境「R」でやって見ましょう。
事前に次のpackageをインストールしておいて下さい。
 
Package‘lmodel2’
 
そして、
次の「R]プログラムを実行して下さい。
 
「R」プログラム
***
A1h<- c(100,350,190,342,70,100,60,45,30,40,43,50,45,70,30,31,20, 95,150,60)
B1h<- c( 69,236,130,316,95, 60,56,30,35,54,39,60,51,57,34,27,29,106, 94,55)
dat<- data.frame(A1h, B1h)
dat
 
library(lmodel2)
MA.fit <- lmodel2(B1h~ A1h, data=dat, "interval", "interval")
MA.fit$regression.results[3, ]   # SMAの勾配と切片
MA.fit$confidence.interval[3, ] # SMAの95%信頼限界(95%CI)
windows(width=5 , height=4 )
plot(MA.fit, "SMA")
 
出力結果
# SMAの勾配と切片(95%CI)
> MA.fit$regression.results[3, ] 
....Method....Intercept......Slope........Angle(degrees) ...P-perm(1-tailed)
3....SMA......8.032119...0.7664537......37.46849................NA
 
> MA.fit$confidence.interval[3, ]
....Method....2.5%-Intercept....97.5%-Intercept....2.5%-Slope.....97.5%-Slope
3....SMA..........-3.132161...........17.72627...........0.6655256......0.8826878
 
図5 SMAによる回帰直線と信頼区間
 
***
 
図3(ValidationーSupport処理プログラム)の標準主軸線形回帰式(SMA)と比べてみましょう。
 
..........................勾配(95% CI)...............切片(95% CI)  
処理プログラム..0.766(0.588~0.913)....8.032(-4.209~21.024)
「R]プログラム..0.766(0.666~0.883)....8.032(-3.132~17.726)

95%CIはブートストラップ法との違いが出ている様です。
なお、
「MA.fit」とすれば、OLS(最小二乗法)、MA(Major Axis:主軸回帰)、SMA(Standard MA:標準主軸回帰)、RMA(Ranged MA:修正主軸回帰)の出力結果を見ることが出来ます。
また、
plot(MA.fit, "SMA")の「" "」の部分を「"OLS"」、「"MA"」にして、その違いを描画で試して下さい。
 
情報統計研究所はここから!