goo blog サービス終了のお知らせ 

ある's ROOM 2nd

ああでもよし、こうでもよし。

主成分分析(2)

2012-05-20 15:51:55 | IT・統計・プログラミング
昨日に引き続き主成分分析。
今日のテキストは
「多変量解析がわかる(涌井良幸・貞美)」

本文では詳しい例題と簡単な説明、付録では
数学的な補足説明(高校の線形代数レベル)。
あぁ、昔習ったことは、こうなるのね。

もともとのきっかけだった
「福祉・心理・看護のテキストマイニング入門」p91
の主成分分析による布置図(度数データ、2値データ)
が概ね理解できたから、これでよしとしよう。

次はp92~のクラスター分析をかじってみようかな。

主成分分析、いい例題

2012-05-19 21:14:04 | IT・統計・プログラミング
以前から主成分分析(principal component analysis)
の例題を自分で再現できないのが不満だった。
分析のプロセスを段階的に説明してくれたいい例題と
出会えなかった。今日たまたまイイ例題に出くわした。
http://avalonbreeze.web.fc2.com/38_01_03_n7.html


(有)中野ソフトウエアサービスさんの主成分分析.XLS
で順を負ってトレース。そして、上のグラフに到着。

さらに、Weka3-7-5でもトライ。
こちらは、標準化なしでスイスイいけた。

こんな感じで、上のグラフにあっという間に到着。
あ~、こうやって修行していけばいいんだな…。

ちなみにこちらでは、
★うまくいけば役立つが、保証はどこにも無い(p20)
とあった。なので、あまり執着することもないみたい。

ささやかな一歩だったけど、僕的には嬉しい進歩。
毎日少しずつ修行していこうと思います。

今日の足あと(ヨチヨチ歩き)

2012-05-06 20:55:37 | IT・統計・プログラミング
『福祉・心理・看護のテキストマイニング入門』をさっと流し読む。
ケアマネアンケートを茶筅で形態素分析してデータセットを作る。
とりあえず、テキストのように主成分分析による布置図を
作りたいなぁと思い、Wekaをいじくるのだが・・・。
簡単にできるのかなぁと思ったが大間違いだった。
手取り足取り教えてもらって、ようやく使えていたのだな。
教えてもらった時、メモをとっておいたハズなので、見なおそう。

今日やったことは、
『ピタリとわかる多変量解析入門』の主成分分析のところを読み、
例題の答えを導くべく、ネットをウロウロした。
 (有)中野ソフトウエアサービスさんの「主成分分析.XLS」
 群大青木先生の「pca.xls」
 KTS&C 菊地富男さんの「03_TAHN.xls」
を使わせてもらった。両方とも同じような結果が出たので、
僕の使い方と解釈が間違っているんだろうと思う。
データセットから、ソフト入力方法、結果取得一連の操作が
眺められたらいいなぁ。

今日お世話になったサイトは
タコが主成分分析を教えてくれるサイト
群大青木先生の統計学自習ノート
朱鷺の杜Wiki(主成分分析)
KTS&C 菊地富男さんのサイト(膨大なフリーソフト)

あんまり進まなかったけど、今日がなければ次のステップも
ないからね。ま~、よかったことにしよう。

-・-・-・-・-・-・-・-・-・-・-・-・-・-・-
なんか、主成分分析と因子分析を混同していたみたい。
僕が以前に教えてもらったのは、後者だったような気がする。

Weka再インストール

2012-05-06 15:57:43 | IT・統計・プログラミング
フリーのデータマイニングソフト『Weka』を再インストール。
ってか、以前に入れた気がしていたが、入っていなかった。
Wekaのダウンロードは↓からできます。
http://www.cs.waikato.ac.nz/ml/weka/

一番新しい「weka-3-7-5jre.exe」をダウンロードしようとすると、
SmartScreenフィルターが邪魔をして、止まってしまう。
SmartScreenには一度ひっこんでもらうことにした。
IEの設定マークを選ぶと、「セーフティ」という項目が出る。
さらにその中に「SmartScreenフィルター機能を無効にする」
が出てくる。Wekaのダウンロードサイトが安全なのは分かって
いるので(あくまで自己責任)、一度無効にして、ダウンロード。
で、再びSmartScreenフィルター機能を有効に戻した。

メインメニューのTOOLから、PackageManergerを選択。
ここから、いろいろ入れられるんだよね。
会社ではプロキシが入っていたので、厄介だったけど、
自宅ではスイスイだ。
なにがあっても、自己責任なんだけどね^^

これから、「茶筅」で形態素分解したものの主要因分析を
してみようと思う。自力でできるかしら?
できなかったら、妻のSPSSにお願いするかな。
(サンプルデータは、20件のケアマネアンケート事例。)

ま、ここまでやれば、もう気がすんだ。
当初の目的は、競合する特許の位置を可視化して、
その隙間を狙おうとしていたのだけど、
何冊か読んでみて、とんでもなく難しいことが分かった。

さて、どうなるか?

-・-・-・-・-・-・-・-・-・-・-・-・-・-・-
だめだ、全然分からない。
主成分分析のことを調べるために、お蔵入りしていた
統計の本を2冊引っ張り出してくる。
そう、僕はここから始めなければならないのだ。
これが現実。

テキストマイニング(3)

2012-05-04 15:51:28 | IT・統計・プログラミング
家族は二泊三日の帰省中。
僕は体力回復のためお留守番。
早めのお風呂に入り、寝間着に着替えて
テキストマイニングの2冊目へ突入。
『福祉・心理・看護のテキストマイニング入門』

これ、奥さんからの借り物ね。
妻の方が専門的にやっているから。
使っているけど、理屈は分からないって言っている。
ま、僕も使えればいいよ。
てか、何ができるかが分かればいいや。