統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(4)

2016-07-11 19:04:09 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)の内容にそって、より分かりやすく説明したいと思っています。本書のページを開いて下さい。ご理解の参考になれば嬉しいです。
 
「すぐに役立つ統計のコツ」の「第3章 2つの代表値の比較」(10ページ)です。
 
このページは「独立2標本の検定」と「対応する2標本の検定」について書いています。初めての人は、「独立」って・・?、「対応」って・・?、と思うかも知れませんね。ましてや、「関連がある」とか「関連がない」とか言えばなおさら分からなくなって統計がイヤになるかも・・。
また、
「有意である」って・・・、優位??など、専門用語に戸惑うかも知れません。でも安心して下さい。
 取りあえず、
本書の例題をそのまま実行すれば、次第に分かってきます。要は、学ぶより慣れる事から始めて下さい。
 ここで、
「独立2標本の検定」と言えば、「スチューデントのt検定」(Student's t-test)があまりにも有名です。Studentはペンネームで本名は「William Sealy Gosset」(イギリス人)です。彼については、
「統計学を拓いた異才たち」(ディビイット・ザルツブルグ著、竹内恵行・熊谷悦生、日本経済新聞社)に詳しいので、その一部を引用してご紹介します。 
彼の勤めるビール会社に内緒のペンネーム(Student)で「t-test」(The Probable Error of the Mean)を発表し世界的に有名になった経緯が書かれています。
「t-test」は正規分布に従う仮定がありましが、当時の多くの科学者は正規分布にこだわる事はないと言っていました。
 
 
 
ところが、不都合な事例もあり、これを解決するために、フランク・ウイルコクスン(Frank Wilcoxon)、
ヘンリー・B・マン(Henry B.Mann)、ランサム・ホイットニー(D. Rans Witney)が分布に関係のない手法である「Wilcoxon Mann-Whitoneyの検定」(1947年、ノンパラメトリック検定)を発表しました。
 
現在、常識的に使用されている統計手法の経緯はとても興味あるものです。詳しくは、是非「統計学を拓いた異才たち」をお読み下さい。
 
 
次回は、
引き続き「すぐに役立つ統計のコツ(5) 第3章」からP値などをご紹介します。
 
本書の例題(データ)は下記のHPからダウンロード出来ますのでご利用下さい。
 
情報統計研究はここから
 
 
 
 

統計のコツのこつ(3)

2016-07-06 12:23:41 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)の内容を読み返してみて気づいた点などを書いています。だから、本書のページを開いてお読み頂けると嬉しいです。
 
「すぐに役立つ統計のコツ」の「第2章 分析の準備」(3ページ)について。
 
 
 
最近の多くの商用統計ソフトはExcelファイルを直接(外部ファイルなどの処理なしで)読み込むことが可能です。
それほどExcelは表計算ソフトとして世界的な標準化を果たしたと言えます。
実際、Excelにデータを入力しておくと便利ですが、Excelの使用に当たっては次の点に注意して下さい。
 
1)数値は半角を用い全角との混合は避けて下さい・・・と言うより統計分析では禁止です。
2)文字は全角(日本語)か半角(英数字)にして下さい。
3)空白セルには目印となる「色」を付けて空白であることを強調しておきましょう。
4)1行目には項目名を、2行目には変数名を入れておくと良いでしょう。
5)3行以降にデータを入力します。
6)Excel以外のソフトを用いるときは1行目に変数を2行目以降にデータを入れておきましょう。
 
 
空白セルに「NA」などの文字を入力しておく場合もありますが 、Excelの計算で不都合を生じる場合、例えば「=COUNTBLANK(C3:C13)」などです。
 
「すぐに役立つ統計のコツ」(6ページ)では、「平均値±標準偏差」「PlotMeans:(R言語での呼び方)や箱ひげ図(BoxPlots:R言語での呼び方」の簡易な株価チャートを利用した方法を紹介しています。
ここでは、グラフイックツールによる方法を紹介しましょう。
 
以下の Excelグラフツールを試して見て下さい。
データは「すぐに役立つ統計のコツ」(4ページ)の表2-2のコレステロール(TC)の「平均値と標準偏差」の値を用いることにしましょう。
 
作成の手順(Excel2013を使用した場合です)
1)緑色の部分①を選択し、以下の図の「→」の通りに実行して見て下さい。
 
 
 

「平均値と標準偏差」(PlotMeans)のグラフが出来たでしょうか。うまく行かないときは「グラフフイックツール」の「誤差範囲」の項目を探して下さい。Excel のバージョンによって表示が異なりますので混乱するかも知れません・・・。
 
2)完成したPlotMeansのグラフです。
 
 
3)エラーバー付きの棒グラフ(ErrorBar:R言語での呼び方)
医学関連の論文などでは、ErrorBarでの表現が多く見受けられます。ErrorBar の作成は単に縦棒グラフか又は横棒グラフを選べば良いだけです。
 
 
株価グラフの応用よりも手間がかかるかもしれませんが、その手順さえ覚えれば簡単に出来ますので試して見て下さい。
 
 
 
次回は、
「すぐに役立つ統計のコツ(4)」の「第3章 2つの代表値の比較」です。
 
情報統計研究はここから