統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(29)

2017-01-01 13:33:12 | 日記・エッセイ・コラム
明けましておめでとう御座います。
今年も、本稿を続けて行きたいと思っていますので、どうぞよろしくお願い致します。
それでは、
「すぐに役立つ統計のコツ」(オーム社)の9ページ(下段の図)を見て下さい。
 
ここで紹介している"Notch Box Plot"はBox(箱)のNotch(ノッチ)が中央値の95%信頼区間(95%CI)となります。
しかし、
9ページの図ではノッチがハッキリしませんので次の図1で説明しましょう。
 
図1 BoxPlotとNotch BoxPLot

 
図1は前回と前々回の"年齢と性別"のデータから、"年齢"について通常の"Box Plot"と"Notch Box Plot"を作成したものです。
図1において"Notch"は赤線で示しており、この矢印の区間が"中央値の95%CI"となります。
それでは、
この"95%CI" はどの様にして求めるのでしょうか・・。
データ解析環境「R」を使えば簡単です。
例えば、前回、前々回の"年齢と性別"のデータであれば、
 
***
dat<- read.delim("clipboard", header=T)
head(dat)
library(askio) # 事前にパッケージをインストールしておく
ci.median(dat$Age, conf = 0.95)
 
出力結果:
95% Confidence interval for population median
Estimate     2.5%    97.5%
      70       68       72
***
 
すなわち、
図1の Notch の部分(95% CI)は「68~72」と言うことです。
これは、
データ(Age)を昇順順位に並べ替えたときの、「21番目と36番目」の"Age"になります。
簡単な近似方法としては、次により求めることが出来ます。
median±1.57×IQR/√n=70±1.57×8/√56=68.32~71.68 (IQR:四分位偏差)
 
一方、
Excelなどでの筆算では、
統計学入門第3章(杉本典夫 先生)をご参照下さい。
http://www.snap-tck.com/room04/c01/stat/stat03/stat0302_1.html
 
引用文
***
中央値の100(1-α)%信頼区間は正規分布の100α%点の値t(∞,α)を用いて次のようになります。
r=(n+1)/2-t(∞,α)×r√n/2 (切り捨てによって整数化する)
***
 
 
それでは、今年も引き続き掲載の予定ですので、よろしくお願いします。
 
情報統計研究所はここから!