情報統計研究所へのアクセスはここから.
テキストマイニングにおける対応分析
KH Coder の使用経験を紹介してきましたが、ここからは、KH coder に用意されている統計学的分析について述べたいと思います。
KH Coder の、
「メニュー」→「抽出語」→「対応分析」
の順でクリックすれば、容易に対応分析の布置図を得る事が出来ます。しかし、
今回は、用意された手順ではなく、敢えて、統計解析環境「R」を使って見たいと思います。
「R」は「KH Coder」をダウンロードした時に、既に、下記のディレクトリー(図1)に用意されています。
図1の緑色で示した「R.bat」をダブルクリックすれば「R」が起動します。
起動する前に対応分析用のサンプルデータを下記URLからダウンロードしておいて下さい(対応分析sample)。
http://kstat.sakura.ne.jp/dbase/dbase.html
画面の「対応分析」を右クリックして、「対象をファイルに保存」をクリックすれば「CorrespDATAforR.xls」をダウンロード出来ます。
それでは、「R.bat」をダブルクリックして下さい。
「R}の起動画面は図2の青字の様になっていると思います。
図2 「R}の起動画面
次のコマンドを書いて下さい(画面の赤字の部分)。
dat<- read.delim("clipboard", row.names=1)
「Enter」キーを押さずに、そのままにしておいて下さい。
そして、
ダウンロードした「CorrespDATAforR.xls」を MS Excel で開き、緑色セル部分のすべてをクリプボードにコピーして下さい(単に、緑色部分を選択しコピーすること)。
そして、
先ほどの「R」の画面にもどり、「Enter」キーを押せば、「R」にデータが取り込まれましたので、「R」の画面で「dat」→「Enter」でデータを確認して下さい。
これで、対応分析に使用するデータの準備が出来ました。次に、
「R」の「ファイル」→「新しいスクリプトを開く」→「Rエディタ」の画面に次のコマンドを書いて下さい。
library ( MASS )
c<- corresp ( dat , nf=2 )
biplot ( c , ylim = c ( -0.3 , 0.6 ) , xlim = c ( -0.3 , 0.6 ) )
コマンドの実行は「Rエディタ」→「編集」→「全て実行」の順にクリックすれば、図3の対応分析布置図の結果が得られます。
図3の布置図から医師アンケートを読み解く訳ですが、それにはアンケートの原文を読んでおく必要があります。アンケートを読んでおれば、多分、納得されるものと思います。
次回は、
階層クラスター分析を「R」で実行してみましょう。
次回に続く!