ネットブックで行うNGS解析003：ネットブックで行うRNA-seq(2)

2014-05-11 11:05:29 | ネットブックで行うNGS解析

　ネットブックで行うRNA-seqデーター解析(1)に引き続き、ここでは、シーケンス生データーを発現量解析であるcufflinksにかけられる形（ソートされたBMAファイルに）に変換することを試みる。
　生データーに染色体情報を関連付け、さらに染色体の順番に並べる作業である。

具体的には

1)Bowtieによるマッピング（fastq->SAM変換）
2)SAM→BAM変換
3)BAMソート

の３つのステップからなる。

1)Bowtieによるマッピング（fastq->SAM変換）
このステップはTophatというソフトで行う方がより正確なようであるが、Tophatを試みたところ今のシステムではうまくいかなかった(アラフォーからのハーバード留学研究編013：何となくTophatインストール)。メモリ不足が原因というbiopapyrusさんのブログの指摘もあり、BowtieもしくはBowtie2だというまくいくのでBowtieをこころみることととする。

　Bowtieのインストールはネットブックで行うRNA-seqデーター解析(1)で述べたように、バカチョンで
$ sudo aptitude install bowtie (*)
でOKなはずである。

次に実際にbowtieを行う上で、マッピングに必要なファイルをsharedフォルダ(**)に用意することが必要である

(１）インデックス化されたゲノム情報（ebwtファイル）

　主な生物種であれば、自分で作る必要性がない。ここからダウンロードする）
もしなければ、ゲノム情報（ここからダウンロード）を使ってbowtie-buildを行う。

(２）fastaフォーマットのゲノム情報（リファレンスゲノム。ここからダウンロード　UCSC_㎜9.faなど)。

今回はUCSCの㎜9を使用することとした（Ensemble由来だと相性が悪いこともあるのでこのシリーズ（㎜9や㎜10）が一番無難。

indexファイルはこの場合㎜9.1.ebwtのような名前（インデックス名）がついているので、faファイルもそれに準じて名前を変えておいた方がよい（mm9.faなど）

(３）RNA-seqの生データーであるfastqファイル
ネットブックで行うRNA-seqデーター解析(1)で用意した

SRR886461.fastq
SRR886462.fastq
SRR886463.fastq
SRR886464.fastq

の4つのファイルである。
である。

実際のBowtieのオペレーションはbiopapyrusさんのサイトを参照するとよい。

一番簡単な形で行うと

$ bowtie オプションインデックス　FASTQファイル出力SAMファイル
となる。

実際にはマウスの実験データーであるSRR88461.sraファイル(シングルリードである)をベースにつくったfastqファイルをマッピングしてみると

$ bowtie -S -p 2 ㎜9 SRR886461.fastq SRR886461.sam

と打ち込むと計算が始まり、30分くらいで結果がである。一応OKそうな結果である。なお-SはSAMファイルを出すためのオプション、-pはコア数である。サンプルがペアエンドの場合やSOLiDのcsfastaの場合は、biopapyrusさんのサイトを参照のこと。

またbowtieのピットフォールについて、後で気が付いたことを述べておいた。もしbowtieがスムーズにいかないときは、もしかするとこういうことかもしれない。アラフォーからのハーバード留学研究編025：Bowtieのピットフォール参考のこと。

２）SAMをBAMに変換する
本来は１）のステップで出てきたSRR886461.samをソートしてそのままcufflinksに流せるはずなのであるが、なぜかうまくいかないので(*)、ここでsamtoolsを使いSAM->BAM変換を行う。この方が情報量が少なくなるので後々便利という話もある(**）

実際には

$ samtools view -bS XXX.sam > XXX.bam
と打ち込めばよいから

$ samtools view -bS SRR884661.sam > SRR886461.bam
のように行う。

詳しくはNGS surfur's wiki参照。

これで変換が終わったのでこのBAMファイルを染色体番号順に並び替えるBAMソートを行う。

3)BAMソートも同じくsamtoolsを用いて行う。

これもNGS surfur's wikiに書かれている通り

$ samtools sort XXX.bam XXX.sort
とやればよいので

$ samtools sort SRR886461.bam SRR886461.sort
のようにとすればよい。(***）

最終的に
SRR886461.sort.bam
SRR886462.sort.bam
SRR886463.sort.bam
SRR886464.sort.bam
というファイルが４つできているはずである。

これでこのステップは完了である。
（ネットブックで行うRNA-seqデーター解析(3)に続く）

(*)本来は
sort -k 3,3 -k 4,4n SRR886461.sam > SRR886461.sorted.sam
(http://cufflinks.cbcb.umd.edu/manual.html#input)でソートできるはずでこれをもとに、cufflinksがかけられるはずであるが、biostarの記事のようになぜか

Error: this SAM file doesn't appear to be correctly sorted! current hit is at Contig10010|nucleolin-:26, last one was at Contig1000|---NA---:198 Cufflinks requires that if your file has SQ records in the SAM header that they appear in the same order as the chromosomes names in the alignments. If there are no SQ records in the header, or if the header is missing, the alignments must be sorted lexicographically by chromsome name and by position.

といったエラーメッセージがである。

(**)漫画時々研究者さん参照。BAMの方が容量も小さいし、後の解析に色々便利とある。

(***)$ samtools sort SRR886461.bam SRR886461.sort.bamと間違って打ち込まない。SRR886461.sort.bam.bamというアウトプットファイルになる。

最新の画像［もっと見る］

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

ブックマーク

日系ボストニアンサポートライン: ボストンの情報掲示板。お役立ち情報他、緊急ニュースなども迅速に飛び交っている。twitterはフォローすべき。　
Boston Internet Community: ボストンのお役立ち情報掲示板。不動産情報などもあって便利。
toastmasters international: スピーチクラブであるtoastmastersのサイト。近くのクラブはこれで探すとよい。
toastmasters general club: ＭＧＨのtoastmasterクラブ。わがホームグラウンド。
クリニック開業と集患のポイント staff 小山聡美の活動レポート: きめの細かな病院経営の秘訣を掲載するブログ。
がんの分子腫瘍学・遺伝学: ちょっとマニアックながん・医学入門
再生医療が描く未来 -iPS細胞とES細胞-: 京大の研究者が記す極めてハイエンドな再生医療入門
安希のレポート: 新進気鋭のジャーナリストあきさんのブログ。視点がすばらしい
イノベーションのための参考書: ちょっと辛口なアフォリズム集
Make a difference....: 当ブログの英語版をtumblrで作ってみました！
gooブログトップ
スタッフブログ

アクセス状況

アクセス
閲覧	41	PV
訪問者	36	IP
トータル
閲覧	1,078,709	PV
訪問者	535,428	IP
ランキング
日別	24,649	位
週別	17,422	位

goo blog おすすめ

おすすめブログ

@goo_blog

お客さまのご利用端末からの情報の外部送信について

goo blog お知らせ

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！