goo blog サービス終了のお知らせ 

goto_note

西東京市・北海道富良野の森林を舞台にした遺伝,育種,生態などに関する研究ノートの一部を紹介します

データマイニング

2008-01-16 | 研究ノート
・育種センターのTさんとのブナ・データ解析の打ち合わせ。新しいデータが揃ったということで早速データ解析をしようとするが、データ形式がすぐに解析できる形になっていない。こんなときこそ、Rを使っての縦横変換的なデータマイニングが便利。・・・。Rを使い始めてだいぶ経つのだけれど、相変わらず、この作業が苦手なままである。既にIくんに書いてもらっていたコードをやりくり(?)しながら、ようやくデータ形式が完成。データ形式さえ出来上がってしまえばこっちのもんだ。後は”ちょちょいのちょい(死語?)”である。

・それにしても、データが勝手にカテゴリー変数に指定されてしまったり、今ひとつ、この辺りの対処法が分からない。いったん、csvファイルに書き出して、もう一度読み込むという荒技。うーむ、我ながら美しくない。サイトと調査年をランダム効果にして緯度とハプロタイプの効果を混合モデル(lmer)で調べる。最近の(?)lmerはとりたてて問題なく走っているのはいいのだが、固定効果の推定値はどこに仕舞い込まれているのか!?この辺りもどうにも苦手な分野だ。

・前回は混合モデルにしたとたんに、ハプロタイプやクレードの効果はちりと消えてしまったのだが、今回はいずれのモデルでもこれらの遺伝データが重要なファクターとして検出されるようだ。やはりデータがきれいに出揃ったことが大きいのだろう。産地の緯度だけでなく、遺伝データも表現型を予測するのに重要だという話になるのだろうか・・・。各ハプロタイプの分布や性質を考察すると、もう少し話は面白くなりそうだ。