最近ひさびさにbowtie(*)を行ってみたが、以前「アラフォーからのハーバード留学研究編014:最後の難関?bowtieをクリア」で書いたようにバカチョンではいかず苦労した。
まず
$ bowtie -S -p 2 ㎜9 SRRXXXXXXX.fastq SRRXXXXXXX.sam
(XXXXXXXは任意の番号です)
とやると、
could not locate a bowtie index corresponding to basename "mm9"
というエラーメッセージが出てくる。
最初最近VMware Playerを入れなおしたので、そのせいでPATHが通っていないのかと思ったが、
そうこうしているうちに、ハードドライブの容量が足りないというVMwareのエラーメッセージが出た。
よくみると、fastqファイルを10個(一個あたり10GBくらいある)PCに入れたのがまずかったらしく、これで100GB食ってしまって、仮想メモリに使える容量がなくなっていたのだ(ネットブックでハードが250GBだったのが問題であった)。
そこで必要なfastqファイルのみPCに残しあとは外付けハードにいれて、Bowtieを走らせてみると、今度はこのメッセージがでない。
しかしながら、別のエラーメッセージ
Out of memory allocating the ebwt[] array for the Bowtie index. Please try again on a computer with more memory.
に悩まされる。以前6GBくらいのfastqファイルを扱った時は難なくうごいたのであるが、fastqファイルが2倍になると作業量は2倍ではすまないらしい。
そこで仮想メモリは、実際の物理メモリとは関係がないはずなので、どこまで最大限あげられるのが調べてみた。
仮想PCで学ぶ「体当たり」Windowsシステム管理:第7回 VMware Playerを使う(前) (3/3)によると、仮想メモリのサイズは最大8GB(32 bitシステムの場合)もしくは32GB(64 bitシステムの場合)割り当てられるらしい。
まず仮想メモリのサイズをチェックしてみると、デフォルトの1GBになっている。これをどこまで上げられるか、今使っているAcerのネットブックでためしてみると、4GBまで上げることが可能らしい。
仮想メモリを上げたのち、再度エイヤっと
$ bowtie -S -p 2 ㎜9 SRRXXXXXXX.fastq SRRXXXXXXX.sam
bowtieを動かしてみると、こんどはスムーズにうごく。
しかし前回6GBの時はすべての動作が終わるのに30分程度だったのが今度はほぼ一日かかってしまう。
やはり、
fastqファイルが2倍になると作業量は2倍ではすまないのだろうか?
あとfastqファイルと、bowtieの後でできるsamファイルは、ほぼ同じ大きさになるので、これまたハードドライブの容量を食ってしまう。
解析が終わり次第、外付けハードに移しておかないと、PCのパフォーマンスが落ちる原因となる。
三菱スペースソフトウエアのサイトでも指摘されているが、
「次世代シーケンサーでは、やはりデータを保存するストレージが一番苦労」するということらしい。
ちなみにこのサイトによると(一部改編),
「データが巨大ならメモリもたくさん必要なのでは?
ものすごいコンピュータでなければ動かないのでは?
そこで、マッピングソフト"bowtie"を使った場合のメモリの使用量を社内環境(CPU:64bit Xeon 2.5Gb × 4 core, 搭載メモリ:24GB, OS:Linux 2.6.18)で、レファレンス配列がHuman GRCh37、サンプルが1000万リードXPaired-end 75bp (6GB?)で検証してみました。
検証の結果、最大使用メモリ2.9GB、実行時間200分でした。
Bowtieは、ゲノムをメモリに読込みますが、リードは読込みませんので、
実行途中でメモリ使用量はほとんど変化がありませんでした。」
とあるから、メモリは3GBくらいでも十分?
デュアルコアのネットブックだと多少頼りないが、クアドコアノートがあれば、かなり対応できそう(**)。
(*)bowtieはRNA-seq解析の最初のステップである染色体情報へのマッピングを行う過程です。スパコンがないとこんなことはできないのではないか、と誰しも思うかもしれません。かくなる私もそう思っていました。実はフリーソフトを組み合わせればネットブックでも何とか可能です。そして下の方でちょっと述べているようにちょっとハイスペックなノートPCだとかなり対応できると思います。
RNA-seqデーターちょっといじってみたい人のために、備忘録がてら、私の体験をまとめてみました(完璧なものではありませんが、私のようなド素人がちょっと遊んでみるにはよいかもしれません)。
ご興味のある方はアラフォーからのハーバード留学研究編015:ネットブックで行うRNA-seqデーター解析(1)などで準備して、まずは手始めに日曜コンピューターバイオロジストしてみてはいかがでしょう?
(**)今だとCore i7搭載で、8GBのメモリ、1TBハードで、8-9万円くらいかー。。うーむ。。
まず
$ bowtie -S -p 2 ㎜9 SRRXXXXXXX.fastq SRRXXXXXXX.sam
(XXXXXXXは任意の番号です)
とやると、
could not locate a bowtie index corresponding to basename "mm9"
というエラーメッセージが出てくる。
最初最近VMware Playerを入れなおしたので、そのせいでPATHが通っていないのかと思ったが、
そうこうしているうちに、ハードドライブの容量が足りないというVMwareのエラーメッセージが出た。
よくみると、fastqファイルを10個(一個あたり10GBくらいある)PCに入れたのがまずかったらしく、これで100GB食ってしまって、仮想メモリに使える容量がなくなっていたのだ(ネットブックでハードが250GBだったのが問題であった)。
そこで必要なfastqファイルのみPCに残しあとは外付けハードにいれて、Bowtieを走らせてみると、今度はこのメッセージがでない。
しかしながら、別のエラーメッセージ
Out of memory allocating the ebwt[] array for the Bowtie index. Please try again on a computer with more memory.
に悩まされる。以前6GBくらいのfastqファイルを扱った時は難なくうごいたのであるが、fastqファイルが2倍になると作業量は2倍ではすまないらしい。
そこで仮想メモリは、実際の物理メモリとは関係がないはずなので、どこまで最大限あげられるのが調べてみた。
仮想PCで学ぶ「体当たり」Windowsシステム管理:第7回 VMware Playerを使う(前) (3/3)によると、仮想メモリのサイズは最大8GB(32 bitシステムの場合)もしくは32GB(64 bitシステムの場合)割り当てられるらしい。
まず仮想メモリのサイズをチェックしてみると、デフォルトの1GBになっている。これをどこまで上げられるか、今使っているAcerのネットブックでためしてみると、4GBまで上げることが可能らしい。
仮想メモリを上げたのち、再度エイヤっと
$ bowtie -S -p 2 ㎜9 SRRXXXXXXX.fastq SRRXXXXXXX.sam
bowtieを動かしてみると、こんどはスムーズにうごく。
しかし前回6GBの時はすべての動作が終わるのに30分程度だったのが今度はほぼ一日かかってしまう。
やはり、
fastqファイルが2倍になると作業量は2倍ではすまないのだろうか?
あとfastqファイルと、bowtieの後でできるsamファイルは、ほぼ同じ大きさになるので、これまたハードドライブの容量を食ってしまう。
解析が終わり次第、外付けハードに移しておかないと、PCのパフォーマンスが落ちる原因となる。
三菱スペースソフトウエアのサイトでも指摘されているが、
「次世代シーケンサーでは、やはりデータを保存するストレージが一番苦労」するということらしい。
ちなみにこのサイトによると(一部改編),
「データが巨大ならメモリもたくさん必要なのでは?
ものすごいコンピュータでなければ動かないのでは?
そこで、マッピングソフト"bowtie"を使った場合のメモリの使用量を社内環境(CPU:64bit Xeon 2.5Gb × 4 core, 搭載メモリ:24GB, OS:Linux 2.6.18)で、レファレンス配列がHuman GRCh37、サンプルが1000万リードXPaired-end 75bp (6GB?)で検証してみました。
検証の結果、最大使用メモリ2.9GB、実行時間200分でした。
Bowtieは、ゲノムをメモリに読込みますが、リードは読込みませんので、
実行途中でメモリ使用量はほとんど変化がありませんでした。」
とあるから、メモリは3GBくらいでも十分?
デュアルコアのネットブックだと多少頼りないが、クアドコアノートがあれば、かなり対応できそう(**)。
(*)bowtieはRNA-seq解析の最初のステップである染色体情報へのマッピングを行う過程です。スパコンがないとこんなことはできないのではないか、と誰しも思うかもしれません。かくなる私もそう思っていました。実はフリーソフトを組み合わせればネットブックでも何とか可能です。そして下の方でちょっと述べているようにちょっとハイスペックなノートPCだとかなり対応できると思います。
RNA-seqデーターちょっといじってみたい人のために、備忘録がてら、私の体験をまとめてみました(完璧なものではありませんが、私のようなド素人がちょっと遊んでみるにはよいかもしれません)。
ご興味のある方はアラフォーからのハーバード留学研究編015:ネットブックで行うRNA-seqデーター解析(1)などで準備して、まずは手始めに日曜コンピューターバイオロジストしてみてはいかがでしょう?
(**)今だとCore i7搭載で、8GBのメモリ、1TBハードで、8-9万円くらいかー。。うーむ。。