サイコロにもてあそばれる日々

統計学に関連する内容を備忘録代わりに書いていきます。

Structureとその仲間たち

2012-02-20 18:22:57 | 日記
Structure 2.3は遺伝子型のデータから個々の個体がどの先祖集団にどの程度の割合由来するのかを推定するソフトウェアです。
このソフトウェアでは先祖集団の数Kをソフトウェアの利用者が与える必要があります。
ただ、Kを知る由もないので、Kをいろいろと変化させて最もふさわしい値を決めることになります。

Structure Harvesterは、今まで研究者たちがKを決めるために手作業で行っていたであろうデータ整理を自動化した便利なソフトウェアです。
Structureの出力ファイルをStructure Harvesterに入力すると、ln Pr(X|K)-Kグラフを出力します。(ln Pr(X|K)はStructureマニュアルp. 16参照)
このグラフはKを決める判断材料として有用です。

同じKで複数回Structureを実行すると、平均のln Pr(X|K)と標準偏差がプロットされます。
もし標準偏差が非常に大きい場合は、パラメーター(特にα)が収束する前に余熱(burnin) (Structureマニュアルp. 13)が終わってしまった可能性が高いです。
α等の時系列グラフを参照して、パラメーターが収束していないようであれば、該当するKに関してパラメーターが収束するまでburninを長くとるべきです。
そうするとln Pr(X|K)が安定することが多くなります。

三回以上同じKでStructureを実行するとΔKとその導出過程のグラフも出力されます。
ΔKはEvanno et al (2005)が提案したKを決める指標の一種です。

Structure HarvesterはCLUMPPというソフトウェアの入力ファイルも併せて作成します。
CLUMPPは同じKで複数回Structureを実行した結果を整理するソフトウェアです。
Structureを実行して得られるQ(個々の個体がどの先祖集団にどの割合由来するのかを示す行列)を整理します。
CLUMPPの出力ファイルはそのままdistructに入力できます。distructはCLUMPPの結果をグラフ化するソフトウェアです。
PostScript形式で出力されるので、Adobe DistillerやIllustratorで閲覧できます。
これらのソフトウェアがない場合はRampant Logic Postscript Viewerで閲覧できます。
このソフトウェアをインストールするとAdobe ReaderでPostScriptファイルを開くことができるようになります。

以上述べたStructure Harvesterの出力結果は圧縮されて一つのファイルにまとめられます。
圧縮形式はtar.gzです。Lhaplus等で解凍できます。
今後、Structure→Structure Harvester→CLUMPP→distructというフローで解析する論文が増えてくるでしょう。

最新の画像もっと見る

コメントを投稿