統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(67)

2011-07-22 11:01:46 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから.

テキストマイニングにおける対応分析

KH Coder の使用経験を紹介してきましたが、ここからは、KH coder に用意されている統計学的分析について述べたいと思います。
KH Coder の、
 「メニュー」→「抽出語」→「対応分析」

の順でクリックすれば、容易に対応分析の布置図を得る事が出来ます。しかし、
今回は、用意された手順ではなく、敢えて、統計解析環境「R」を使って見たいと思います。
「R」は「KH Coder」をダウンロードした時に、既に、下記のディレクトリー(図1)に用意されています。

図1 KH Coder のディレクトリー
Folderdir

図1の緑色で示した「R.bat」をダブルクリックすれば「R」が起動します。

起動する前に対応分析用のサンプルデータを下記URLからダウンロードしておいて下さい(対応分析sample)。

http://kstat.sakura.ne.jp/dbase/dbase.html

画面の「対応分析」を右クリックして、「対象をファイルに保存」をクリックすれば「CorrespDATAforR.xls」をダウンロード出来ます。
それでは、「R.bat」をダブルクリックして下さい。
「R}の起動画面は図2の青字の様になっていると思います。

図2 「R}の起動画面
Correspr

次のコマンドを書いて下さい(画面の赤字の部分)。
dat<- read.delim("clipboard", row.names=1)

「Enter」キーを押さずに、そのままにしておいて下さい。

そして、
ダウンロードした「CorrespDATAforR.xls」を MS Excel で開き、緑色セル部分のすべてをクリプボードにコピーして下さい(単に、緑色部分を選択しコピーすること)。
そして、
先ほどの「R」の画面にもどり、「Enter」キーを押せば、「R」にデータが取り込まれましたので、「R」の画面で「dat」→「Enter」でデータを確認して下さい。
これで、対応分析に使用するデータの準備が出来ました。次に、
「R」の「ファイル」→「新しいスクリプトを開く」→「Rエディタ」の画面に次のコマンドを書いて下さい。

 library ( MASS )
 c<- corresp ( dat , nf=2 )
 biplot ( c , ylim = c ( -0.3 , 0.6 ) ,  xlim = c ( -0.3 , 0.6 ) )

コマンドの実行は「Rエディタ」→「編集」→「全て実行」の順にクリックすれば、図3の対応分析布置図の結果が得られます。

図3 サンプルデータの布置図
Correspplot

図3の布置図から医師アンケートを読み解く訳ですが、それにはアンケートの原文を読んでおく必要があります。アンケートを読んでおれば、多分、納得されるものと思います。
次回は、
階層クラスター分析を「R」で実行してみましょう。

次回に続く!