2011年7月22日のブログ記事一覧-統計ブログはじめました！

医学と統計(67)

2011-07-22 11:01:46 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから．

テキストマイニングにおける対応分析

KH Coder の使用経験を紹介してきましたが、ここからは、KH coder に用意されている統計学的分析について述べたいと思います。
KH Coder の、
　「メニュー」→「抽出語」→「対応分析」

の順でクリックすれば、容易に対応分析の布置図を得る事が出来ます。しかし、
今回は、用意された手順ではなく、敢えて、統計解析環境「R」を使って見たいと思います。
「R」は「KH Coder」をダウンロードした時に、既に、下記のディレクトリー（図１）に用意されています。

図１　KH Coder のディレクトリー

図１の緑色で示した「R.bat」をダブルクリックすれば「R」が起動します。

起動する前に対応分析用のサンプルデータを下記URLからダウンロードしておいて下さい（対応分析sample）。

http://kstat.sakura.ne.jp/dbase/dbase.html

画面の「対応分析」を右クリックして、「対象をファイルに保存」をクリックすれば「CorrespDATAforR．xls」をダウンロード出来ます。
それでは、「R.bat」をダブルクリックして下さい。
「Ｒ｝の起動画面は図２の青字の様になっていると思います。

図2　「R}の起動画面

次のコマンドを書いて下さい（画面の赤字の部分）。
dat<- read.delim("clipboard", row.names=1)

「Enter」キーを押さずに、そのままにしておいて下さい。

そして、
ダウンロードした「CorrespDATAforR．xls」を MS Excel で開き、緑色セル部分のすべてをクリプボードにコピーして下さい（単に、緑色部分を選択しコピーすること）。
そして、
先ほどの「Ｒ」の画面にもどり、「Enter」キーを押せば、「Ｒ」にデータが取り込まれましたので、「Ｒ」の画面で「dat」→「Enter」でデータを確認して下さい。
これで、対応分析に使用するデータの準備が出来ました。次に、
「Ｒ」の「ファイル」→「新しいスクリプトを開く」→「Ｒエディタ」の画面に次のコマンドを書いて下さい。

　library ( MASS )
　c<- corresp ( dat , nf=2 )
　biplot ( c , ylim = c ( -0.3 , 0.6 ) , xlim = c ( -0.3 , 0.6 ) )

コマンドの実行は「Ｒエディタ」→「編集」→「全て実行」の順にクリックすれば、図３の対応分析布置図の結果が得られます。

図３　サンプルデータの布置図

図３の布置図から医師アンケートを読み解く訳ですが、それにはアンケートの原文を読んでおく必要があります。アンケートを読んでおれば、多分、納得されるものと思います。
次回は、
階層クラスター分析を「Ｒ」で実行してみましょう。

2011年7月
日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

統計ブログはじめました！

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(67)