このコーナーではcufflinksによる発現量の推定&遺伝子との対応付けを行う。
念のためであるが、cufflinksのインストール&セットアップは、まずはネットブックによるRNA-seqデーター解析(1)を参考にしてみるとよい。cufflinks, BoostC++, Eigen, samtoolsのインストールが併せて必要である (*)。
さてネットブックで行うRNA-seqデーター解析(2)で行ったように、今シェアフォルダに以下のようなファイルが出来ているはずである。
SRR886461.sort.bam
SRR886462.sort.bam
SRR886463.sort.bam
SRR886464.sort.bam
これらソートされたBAMファイルをつかい今回は各遺伝子の発現量の推定を行う。
これはcufflinksと呼ばれるソフトウエアパッケージを用いて行われ、
このうち
一つのファイルから絶対的な発現量を推定するcufflinksと、
複数のサンプルを比較するcuffdiff
が主に使われるものである。
cufflinksについてはアラフォーからのハーバード留学研究編009:ド素人(ウエット系)のcufflinks解析(1)のところで少し述べたので、
今回はcuffdiffについて中心的にのべてみる。
大概は実験群とコントロール群の比較をすることがおおいので、こちらの方が重要かもしれない。
基本的には
$cuffdiff (オプション)reference.gtf sample1.bam, sample2.bam,...., sampleN.bam control1.bam, control2.bam...controlM.bamのように行うとよい。
オプションの部分はなくても動くが、アウトプットフォルダを決めたりやサンプルの名前を入力できたり、した方がよいので、オプションの指定方法についてもマニュアルを見ておいた方がよいかもしれない。
主なものは
-p コンピューターのコア数
-o output folder :アウトプットを保存するディレクトリ名
-L label1, label2... :サンプルの仮名(ラベル)設定
くらいである。
ラベルの設定がなぜかうまく設定できないので、(アラフォーからのハーバード留学研究編010:ド素人(ウエット系)のcufflinks解析(2)参照)今回はラベル設定はしないこととした(デフォルトでq1,q2,q3,q4となる)(**)
実際のオペレーションは
$ cd /mnt/hgfs/shared
sharedフォルダにうつって
$ cuffdiff -p 2 UCSC_mm9.gtf -o LT_HSC_VS_ST_HSC_cuffdiff_result SRR886461.sort.bam, SRR886462.sort.bam SRR886463.sort.bam, SRR886464.sort.bam
とうちこめばよい。基本は上気つのBAMファイルを、染色体情報と発現量を関連付けて、LT_HSC_VS_ST_HSC_cuffdiff_resultというフォルダに出力するというものである。
するとトータル5-6時間の計算が行われ(***)
Processed 21125 loci.
Performed 86516 isoform-level transcription difference tests
Performed 79102 tss-level transcription difference tests
Performed 74672 gene-level transcription difference tests
Performed 70942 CDS-level transcription difference tests
Performed 6057 splicing tests
Performed 3600 promoter preference tests
Performing 5416 relative CDS output tests
Writing isoform-level FPKM tracking
Writing TSS group-level FPKM tracking
Writing gene-level FPKM tracking
Writing CDS-level FPKM tracking
のようなログメッセージが出れば一応成功と言ってもよいのではないだろうか?
またLT_HSC_VS_ST_HSC_cuffdiff_resultフォルダには
cds_exp.diff
cds.diff
cds.fpkm_tracking
gene_exp.diff
genes.fpkm_tracking
isoform_exp.diff
isoforms.fpkm_tracking
promoters.diff
splicing.diff
tss_group_exp.diff
tss_groups.fpkm_tracking
というファイルが出来ているはずである。
テキストファイルなので、今後はこれをエクセルで読み込んで処理するか、Rなどを用いて処理することが可能である。ここまでくれば大体のプロセスは終わったようなものである。(ネットブックで行うRNA-seqデーター解析(3.5)に続く)
(*)もう少しだけ詳しい説明は以下を参照
アラフォーからのハーバード留学IT編006:バカチョンBoostC++ビルト
アラフォーからのハーバード留学IT編007:サルでもできるcufflinksセットアップ
も参照のこと。
(**)そのうち解決法を見つけたい
(***)寝る前にセットして、朝結果が出ている感じなので、早くはないものの、使えなくはないスピードである。正直なところ29800円のネットブックなんかでこんなことができてしまうのはかなり衝撃である。
念のためであるが、cufflinksのインストール&セットアップは、まずはネットブックによるRNA-seqデーター解析(1)を参考にしてみるとよい。cufflinks, BoostC++, Eigen, samtoolsのインストールが併せて必要である (*)。
さてネットブックで行うRNA-seqデーター解析(2)で行ったように、今シェアフォルダに以下のようなファイルが出来ているはずである。
SRR886461.sort.bam
SRR886462.sort.bam
SRR886463.sort.bam
SRR886464.sort.bam
これらソートされたBAMファイルをつかい今回は各遺伝子の発現量の推定を行う。
これはcufflinksと呼ばれるソフトウエアパッケージを用いて行われ、
このうち
一つのファイルから絶対的な発現量を推定するcufflinksと、
複数のサンプルを比較するcuffdiff
が主に使われるものである。
cufflinksについてはアラフォーからのハーバード留学研究編009:ド素人(ウエット系)のcufflinks解析(1)のところで少し述べたので、
今回はcuffdiffについて中心的にのべてみる。
大概は実験群とコントロール群の比較をすることがおおいので、こちらの方が重要かもしれない。
基本的には
$cuffdiff (オプション)reference.gtf sample1.bam, sample2.bam,...., sampleN.bam control1.bam, control2.bam...controlM.bamのように行うとよい。
オプションの部分はなくても動くが、アウトプットフォルダを決めたりやサンプルの名前を入力できたり、した方がよいので、オプションの指定方法についてもマニュアルを見ておいた方がよいかもしれない。
主なものは
-p コンピューターのコア数
-o output folder :アウトプットを保存するディレクトリ名
-L label1, label2... :サンプルの仮名(ラベル)設定
くらいである。
ラベルの設定がなぜかうまく設定できないので、(アラフォーからのハーバード留学研究編010:ド素人(ウエット系)のcufflinks解析(2)参照)今回はラベル設定はしないこととした(デフォルトでq1,q2,q3,q4となる)(**)
実際のオペレーションは
$ cd /mnt/hgfs/shared
sharedフォルダにうつって
$ cuffdiff -p 2 UCSC_mm9.gtf -o LT_HSC_VS_ST_HSC_cuffdiff_result SRR886461.sort.bam, SRR886462.sort.bam SRR886463.sort.bam, SRR886464.sort.bam
とうちこめばよい。基本は上気つのBAMファイルを、染色体情報と発現量を関連付けて、LT_HSC_VS_ST_HSC_cuffdiff_resultというフォルダに出力するというものである。
するとトータル5-6時間の計算が行われ(***)
Processed 21125 loci.
Performed 86516 isoform-level transcription difference tests
Performed 79102 tss-level transcription difference tests
Performed 74672 gene-level transcription difference tests
Performed 70942 CDS-level transcription difference tests
Performed 6057 splicing tests
Performed 3600 promoter preference tests
Performing 5416 relative CDS output tests
Writing isoform-level FPKM tracking
Writing TSS group-level FPKM tracking
Writing gene-level FPKM tracking
Writing CDS-level FPKM tracking
のようなログメッセージが出れば一応成功と言ってもよいのではないだろうか?
またLT_HSC_VS_ST_HSC_cuffdiff_resultフォルダには
cds_exp.diff
cds.diff
cds.fpkm_tracking
gene_exp.diff
genes.fpkm_tracking
isoform_exp.diff
isoforms.fpkm_tracking
promoters.diff
splicing.diff
tss_group_exp.diff
tss_groups.fpkm_tracking
というファイルが出来ているはずである。
テキストファイルなので、今後はこれをエクセルで読み込んで処理するか、Rなどを用いて処理することが可能である。ここまでくれば大体のプロセスは終わったようなものである。(ネットブックで行うRNA-seqデーター解析(3.5)に続く)
(*)もう少しだけ詳しい説明は以下を参照
アラフォーからのハーバード留学IT編006:バカチョンBoostC++ビルト
アラフォーからのハーバード留学IT編007:サルでもできるcufflinksセットアップ
も参照のこと。
(**)そのうち解決法を見つけたい
(***)寝る前にセットして、朝結果が出ている感じなので、早くはないものの、使えなくはないスピードである。正直なところ29800円のネットブックなんかでこんなことができてしまうのはかなり衝撃である。