あなたにもできる!ハーバード留学!!~アラフォーからのボストン留学体験記

アラフォー研究者のボストン留学体験ブログ。
研究・生活・英語・ITを中心に留学ライフハックスをお教えします!

ネットブックで行うNGS解析003:ネットブックで行うRNA-seq(2)

2014-05-11 11:05:29 | ネットブックで行うNGS解析
 ネットブックで行うRNA-seqデーター解析(1)に引き続き、ここでは、シーケンス生データーを発現量解析であるcufflinksにかけられる形(ソートされたBMAファイルに)に変換することを試みる。
 生データーに染色体情報を関連付け、さらに染色体の順番に並べる作業である。

具体的には

1)Bowtieによるマッピング(fastq->SAM変換)
2)SAM→BAM変換
3)BAMソート

の3つのステップからなる。

1)Bowtieによるマッピング(fastq->SAM変換)
このステップはTophatというソフトで行う方がより正確なようであるが、Tophatを試みたところ今のシステムではうまくいかなかった(アラフォーからのハーバード留学研究編013:何となくTophatインストール)。メモリ不足が原因というbiopapyrusさんのブログの指摘もあり、BowtieもしくはBowtie2だというまくいくのでBowtieをこころみることととする。

 Bowtieのインストールはネットブックで行うRNA-seqデーター解析(1)で述べたように、バカチョンで
$ sudo aptitude install bowtie (*)
でOKなはずである。

次に実際にbowtieを行う上で、マッピングに必要なファイルをsharedフォルダ(**)に用意することが必要である


(1)インデックス化されたゲノム情報(ebwtファイル)

 主な生物種であれば、自分で作る必要性がない。ここからダウンロードする)
もしなければ、ゲノム情報(ここからダウンロード)を使ってbowtie-buildを行う。

(2)fastaフォーマットのゲノム情報(リファレンスゲノム。ここからダウンロード UCSC_㎜9.faなど)。

今回はUCSCの㎜9を使用することとした(Ensemble由来だと相性が悪いこともあるのでこのシリーズ(㎜9や㎜10)が一番無難。

indexファイルはこの場合㎜9.1.ebwtのような名前(インデックス名)がついているので、faファイルもそれに準じて名前を変えておいた方がよい(mm9.faなど)

(3)RNA-seqの生データーであるfastqファイル
ネットブックで行うRNA-seqデーター解析(1)で用意した

SRR886461.fastq
SRR886462.fastq
SRR886463.fastq
SRR886464.fastq

の4つのファイルである。
である。

実際のBowtieのオペレーションはbiopapyrusさんのサイトを参照するとよい。

一番簡単な形で行うと

$ bowtie オプション インデックス FASTQファイル 出力SAMファイル
となる。

実際にはマウスの実験データーであるSRR88461.sraファイル(シングルリードである)をベースにつくったfastqファイルをマッピングしてみると

$ bowtie -S -p 2 ㎜9 SRR886461.fastq SRR886461.sam

と打ち込むと計算が始まり、30分くらいで結果がである。一応OKそうな結果である。なお-SはSAMファイルを出すためのオプション、-pはコア数である。サンプルがペアエンドの場合やSOLiDのcsfastaの場合は、biopapyrusさんのサイトを参照のこと。

またbowtieのピットフォールについて、後で気が付いたことを述べておいた。もしbowtieがスムーズにいかないときは、もしかするとこういうことかもしれない。アラフォーからのハーバード留学研究編025:Bowtieのピットフォール参考のこと。

2)SAMをBAMに変換する
本来は1)のステップで出てきたSRR886461.samをソートしてそのままcufflinksに流せるはずなのであるが、なぜかうまくいかないので(*)、ここでsamtoolsを使いSAM->BAM変換を行う。この方が情報量が少なくなるので後々便利という話もある(**)

実際には

$ samtools view -bS XXX.sam > XXX.bam
と打ち込めばよいから

$ samtools view -bS SRR884661.sam > SRR886461.bam
のように行う。

詳しくはNGS surfur's wiki参照。

これで変換が終わったのでこのBAMファイルを染色体番号順に並び替えるBAMソートを行う。

3)BAMソートも同じくsamtoolsを用いて行う。

これもNGS surfur's wikiに書かれている通り

$ samtools sort XXX.bam XXX.sort
とやればよいので

$ samtools sort SRR886461.bam SRR886461.sort
のようにとすればよい。(***)

最終的に
SRR886461.sort.bam
SRR886462.sort.bam
SRR886463.sort.bam
SRR886464.sort.bam
というファイルが4つできているはずである。

これでこのステップは完了である。
ネットブックで行うRNA-seqデーター解析(3)に続く)

(*)本来は
sort -k 3,3 -k 4,4n SRR886461.sam > SRR886461.sorted.sam
(http://cufflinks.cbcb.umd.edu/manual.html#input)でソートできるはずでこれをもとに、cufflinksがかけられるはずであるが、biostarの記事のようになぜか

Error: this SAM file doesn't appear to be correctly sorted! current hit is at Contig10010|nucleolin-:26, last one was at Contig1000|---NA---:198 Cufflinks requires that if your file has SQ records in the SAM header that they appear in the same order as the chromosomes names in the alignments. If there are no SQ records in the header, or if the header is missing, the alignments must be sorted lexicographically by chromsome name and by position.

といったエラーメッセージがである。

(**)漫画時々研究者さん参照。BAMの方が容量も小さいし、後の解析に色々便利とある。

(***)$ samtools sort SRR886461.bam SRR886461.sort.bamと間違って打ち込まない。SRR886461.sort.bam.bamというアウトプットファイルになる。


最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。