Broad Insititute講習の最後にGSEA(Gene set enrichment analysis Broad Instituteが開発した発現解析の手法の一つ。フリーソフトなのと過去の研究者が発表した発現アレーデーターと自分の発現アレーのデーターを簡単に直接比較できるので、結構多方面で使われていて、個人的には革新的な技術だと思っている)の話がでていたので、gene setの良いデーターベースがないかちょっと質問していたら(結局Broadの
MSigDBとのこと)、ラボの後ろに座っているポスドクが「何きいていたの?」と聞いてくる。
「gene setのいいデータベースを聞いていた」というとアレーとかの解析に詳しいと思ったのか、「RNA-seqも解析できるか?」と聞いてくる。講習でRNA-seqデータをgctファイル(GSEAで利用可能なファイルフォーマット)データーに変換できるといっていたのでたぶんできると答えたことからそのポスドクのRNA-seqデーター解析を手伝う羽目になる(まあ勉強になるからいいか!)
まずRNA-seqのデーターはBAMファイル形式になっているので、それをgctファイルに変換するためにGene patternのCufflinksにかけようとするが、2GB以上は送れない(FTPでおくれるらしいのだが、うまくcufflinksにもっていけない)。またRNA-seq用各遺伝子のアノテーションファイルであるGTFファイルも不明である。
一つだけ2GB以下のファイルがあり、アノテーションファイルはおそらくgene patternのサイトにリンクがある
FTPサイトからダウンロードできるらしいので、cufflinksにかけてみるがうまくfpkm値をだしてくれない!!(どうやらバグっぽい。そろそろ治っているかもしれないが?)
ちなみに
BroadのサイトにはWe recommend that you run these modules on a local GenePattern serverとあるが、ダウンロード版のcufflinksはmacの方が相性がよいようで(*)、すぐには使えない。ここでも先日新調したコンピューターがmacだったらと思えてしまう。
困り果てて、よくよく聞いてみるとRNA-seqは業者に頼んだらしく、各遺伝子のfpkm値(RNAの発現量に対応)をエクセルファイルにしたものをもっているとのこと。それを利用してgctを作成し、GSEAそのほかの解析を行うことができた。結構面白い結果というか信じられないくらい興味深い結果が得られた。
ただ問題はフィルターをかける場合どのようにすればよいかということ。
fpkmはアレー解析の値ともダイナミックレンジが違い、同じようにフィルターをかけるとデーターがものすごく少なくなってしまう。あとすべてのfkpm値が0となってしまう遺伝子が結構あり、これがGSEAを行った際に結構悪さする感じである。
日本でお世話になったBioinfomaticianの友人に聞くと、彼らも同様の疑問を持っているらしくとりあえずフィルターはかけず、すべてのデーターGSEAにかけているのだとか。。一応今回はすべてのfkpmが0になるものだけのぞき、GSEAを行ってみる。ちなみに
お手本論文によるとBroadの人たちはranked gene list(GNK)でGSEAをかけているらしい(**)。
それはさておき、なかなかRNA-seq面白い!
(*)
cufflinksはMac版かLinux版しかない。
後日談であるが、結局Cufflinksなども含めて、RNA-seqデーターを扱うことを少し勉強してみた。
自前のエイサーのネットブック(ネットブックでできるのがすごい)にLinux(Ubuntu)をVMware Playerを使ってWindow上に導入してみることから始め、Bowtie, samtool,cufflinksなどを動かしてみた。
意外とネット上にはいろいろな資料がちらばっているもので、もろウエット系アナログ人間の私でも何とかできそうな気になるくらいまでは習得できる。
備忘録がてら、その顛末を
シリーズ「ネットブックで行うRNA-seqデーター解析」としてまとめてみた。
第一弾は、準備編
アラフォーからのハーバード留学研究編015:ネットブックで行うRNA-seqデーター解析(1)である。ご興味があれば、お読みください。
(**)gctじゃないじゃん!!