ネットブックで行うNGS解析004：ネットブックで行うRNA-seq(3)

2014-05-11 11:07:09 | ネットブックで行うNGS解析

　このコーナーではcufflinksによる発現量の推定＆遺伝子との対応付けを行う。

　念のためであるが、cufflinksのインストール＆セットアップは、まずはネットブックによるRNA-seqデーター解析(1)を参考にしてみるとよい。cufflinks, BoostC++, Eigen, samtoolsのインストールが併せて必要である (*)。

　さてネットブックで行うRNA-seqデーター解析(2)で行ったように、今シェアフォルダに以下のようなファイルが出来ているはずである。

SRR886461.sort.bam
SRR886462.sort.bam
SRR886463.sort.bam
SRR886464.sort.bam

これらソートされたBAMファイルをつかい今回は各遺伝子の発現量の推定を行う。

これはcufflinksと呼ばれるソフトウエアパッケージを用いて行われ、
このうち
　
　一つのファイルから絶対的な発現量を推定するcufflinksと、
　複数のサンプルを比較するcuffdiff

が主に使われるものである。

cufflinksについてはアラフォーからのハーバード留学研究編009:ド素人(ウエット系）のcufflinks解析(1)のところで少し述べたので、

今回はcuffdiffについて中心的にのべてみる。
大概は実験群とコントロール群の比較をすることがおおいので、こちらの方が重要かもしれない。
　
　基本的には

$cuffdiff （オプション）reference.gtf sample1.bam, sample2.bam,...., sampleN.bam　control1.bam, control2.bam...controlM.bamのように行うとよい。

オプションの部分はなくても動くが、アウトプットフォルダを決めたりやサンプルの名前を入力できたり、した方がよいので、オプションの指定方法についてもマニュアルを見ておいた方がよいかもしれない。

主なものは

-p コンピューターのコア数
-o output folder　：アウトプットを保存するディレクトリ名
-L label1, label2...　：サンプルの仮名（ラベル）設定　

くらいである。

ラベルの設定がなぜかうまく設定できないので、(アラフォーからのハーバード留学研究編010:ド素人(ウエット系）のcufflinks解析(2)参照)今回はラベル設定はしないこととした（デフォルトでq1,q2,q3,q4となる）(**)

実際のオペレーションは

$ cd /mnt/hgfs/shared
sharedフォルダにうつって

$ cuffdiff -p 2 UCSC_mm9.gtf -o LT_HSC_VS_ST_HSC_cuffdiff_result SRR886461.sort.bam, SRR886462.sort.bam SRR886463.sort.bam, SRR886464.sort.bam
とうちこめばよい。基本は上気つのBAMファイルを、染色体情報と発現量を関連付けて、LT_HSC_VS_ST_HSC_cuffdiff_resultというフォルダに出力するというものである。

するとトータル5－6時間の計算が行われ(***)

Processed 21125 loci.
Performed 86516 isoform-level transcription difference tests
Performed 79102 tss-level transcription difference tests
Performed 74672 gene-level transcription difference tests
Performed 70942 CDS-level transcription difference tests
Performed 6057 splicing tests
Performed 3600 promoter preference tests
Performing 5416 relative CDS output tests
Writing isoform-level FPKM tracking
Writing TSS group-level FPKM tracking
Writing gene-level FPKM tracking
Writing CDS-level FPKM tracking

のようなログメッセージが出れば一応成功と言ってもよいのではないだろうか？

またLT_HSC_VS_ST_HSC_cuffdiff_resultフォルダには

cds_exp.diff
cds.diff
cds.fpkm_tracking
gene_exp.diff
genes.fpkm_tracking
isoform_exp.diff
isoforms.fpkm_tracking
promoters.diff
splicing.diff
tss_group_exp.diff
tss_groups.fpkm_tracking

というファイルが出来ているはずである。

テキストファイルなので、今後はこれをエクセルで読み込んで処理するか、Ｒなどを用いて処理することが可能である。ここまでくれば大体のプロセスは終わったようなものである。(ネットブックで行うRNA-seqデーター解析(3.5)に続く）

(*)もう少しだけ詳しい説明は以下を参照
アラフォーからのハーバード留学IT編006：バカチョンBoostC++ビルト
アラフォーからのハーバード留学IT編007：サルでもできるcufflinksセットアップ
も参照のこと。

(**)そのうち解決法を見つけたい

(***)寝る前にセットして、朝結果が出ている感じなので、早くはないものの、使えなくはないスピードである。正直なところ29800円のネットブックなんかでこんなことができてしまうのはかなり衝撃である。

最新の画像［もっと見る］

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

ブックマーク

日系ボストニアンサポートライン: ボストンの情報掲示板。お役立ち情報他、緊急ニュースなども迅速に飛び交っている。twitterはフォローすべき。　
Boston Internet Community: ボストンのお役立ち情報掲示板。不動産情報などもあって便利。
toastmasters international: スピーチクラブであるtoastmastersのサイト。近くのクラブはこれで探すとよい。
toastmasters general club: ＭＧＨのtoastmasterクラブ。わがホームグラウンド。
クリニック開業と集患のポイント staff 小山聡美の活動レポート: きめの細かな病院経営の秘訣を掲載するブログ。
がんの分子腫瘍学・遺伝学: ちょっとマニアックながん・医学入門
再生医療が描く未来 -iPS細胞とES細胞-: 京大の研究者が記す極めてハイエンドな再生医療入門
安希のレポート: 新進気鋭のジャーナリストあきさんのブログ。視点がすばらしい
イノベーションのための参考書: ちょっと辛口なアフォリズム集
Make a difference....: 当ブログの英語版をtumblrで作ってみました！
gooブログトップ
スタッフブログ

アクセス状況

アクセス
閲覧	74	PV
訪問者	62	IP
トータル
閲覧	1,078,668	PV
訪問者	535,392	IP
ランキング
日別	16,655	位
週別	23,098	位

goo blog おすすめ

おすすめブログ

@goo_blog

お客さまのご利用端末からの情報の外部送信について

goo blog お知らせ

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！