統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(65)

2018-03-13 12:33:55 | 日記・エッセイ・コラム

統計のコツのこつ(62)~(64)で使用した例題は入院患者に自由に記載して頂いた"自由記述文"の中から語句を編集したものです。実際、"自由記述文"の中から"名詞"や"形容詞"などの有用な単語や語句を拾いだす作業は容易でありません。
専用の商用ソフト(テキストマイニング)はかなり高価です。
そこで、
フリー(無料)のテキストマイニング・ソフトが望まれますが、既に、この"gooブログ"では、「医学と統計(63)~(70)」で「KH Coder」の使用経験をご紹介しています。

「KH Coder」を使った単語などの抽出から"対応分析、クラスター分析、多次元尺度構成法、共起ネットワーク"の方法をご紹介しています(下記 URL 参照)。
https://blog.goo.ne.jp/k-stat/e/8382e5c656ccd85de2593f7f406eff15?fm=entry_awp

その後、
「KH Coder」はバージョンアップしていましたので、ここに"Download" の仕方などをご紹介しておきます。
***
Downloard のアクセス先:
http://khc.sourceforge.net/dl.html
★KH Coderの著作権は立命館大学産業社会学部 現代社会学科准教授 樋口耕一先生が保持しています
(http://koichi.nihon.to/psnl/  からの情報です)。
***
 
上記URLの説明に従いインストールし圧縮ファイルを解凍されたら、Windows10の場合、多分、「ローカルディスク(C)/khcoder/」に解凍されていると思いますので、「kh_coder.exe」をクリックして立ち上げて下さい。
 
●起動画面
 
 
●例題の準備
http://kstat.sakura.ne.jp/dbase/dbase.html
 
上記の情報統計研究所ホームページから、
[Down Load(医師・患者アンケート)]のExcelファイル(Enqute.xls)をダウンロードし任意のホルダーに保存して下さい。
Sheet名「医師自由文」、「患者自由文」の内容が載っています。
 
●プロジェクトの作成
「KH Coder」の分析には <H1> タグで括るなどの全処理が必要です(マニュアル:khcoder_tutorialpdf 参照)。
 
今回は、
情報統計研究所で既に前処理したファイル「 sheet名:医師自由文 」だけのファイル名[DoctorQuestion.txt]をダウンロードして試して下さい。やり方は、「医学と統計(63)~(70)」を見て下さい。
 
●実行結果
ここでは、「共起ネットワーク」を実行して見ましょう。
ツール→抽出語→共起ネットワーク→品詞による語の取捨選択
[名詞・ザ変名刺→形容動詞・動詞→形容詞](頻度の多い単語)→OK
 
出力画面:
 
共起ネットワーク(Co-occurrence network)とは、その文書の特徴的な単語間の共起(頻繁な出現)関係をネットワーク図にしたものあり、読み解くのは分析者に依存します。
 
「対応分析、クラスター分析、多次元尺度構成法」などもマニュアル(ローカルディスク(C)/khcoder/khcoder_tutorialpdf)を参考にやって見て下さい。
 
多くの方々に見て頂き嬉しく思っています。次回までしばらく間があきますがよろしくお願いします。

情報統計研究所はここから!
 
 
 


最新の画像もっと見る