バイオインフォマティックスにはド素人の、ウエットバイオロジスト&アナログ系のアラフォーであるが、先日来ひょんなことからバイオインフォの勉強にはまってしまうようになってしまった。
ネットで調べながら行うと意外なことに予想以上の学習効果があり日々進歩があること、また29800円のエイサーネットブックでありながら結構いろいろなことができるためだ。
実際使っている環境は
PC:Acer Aspire One(AO756-H 14C/K)
CPU:Intel, Celeron CPU847@1.47GHz (コア数2/スレッド数2)
RAM:4.00GB
HDD:300GB
OS:Windows 8(64bit)
である。
そこでネットブックで行うRNA-seq解析について、自分の勉強方々、サルでもできるようにマニュアル化してみることにした。(専門的な知識はNGS sufer's wikiなど参照してください)
実際に行う過程は
0)準備段階
1)NCBIサイトのSRAサイトからRNA-seqデーター(sraファイル)をダウンロード
2)sraファイルを、汎用性の高いfastqファイルに変換:sratoolkit
3)生データーの解析(1):シーケンスデーターを染色体上にマッピング:Bowtieなど
4)生データーの解析(2):発現量の推定&遺伝子との対応付け:samtools, cufflinksなど
5)発現解析:Gene Ontology(GO)解析、GSEA解析など
の5つからなる。
このブログ記事シリーズ「ネットブックで行うRNA-seqデーター解析」では
主に1-4の部分を、SRAサイトにあるデーターを使って行う。
0)準備段階であるが、
(1)Window+Linux環境を整える
(2)必要なソフトウエアをインストールすること
が必要になってくる。
(1)Window+Linux環境を整える
bowtie, samtools, cufflinksなどRNA-seqデーターを扱うソフトウエアは、MacかLinuxをベースのものが多い。このためMac(コマンドラインが動かせないといけない)もしくはLinuxマシンでないといけない。
筆者はwindowsユーザーであるため、Linuxを動かす方法をネットで調べたところ仮想マシンでLinuxをwindow上で動かすのが一番簡単なようである。このシステムではWindowシステムと仮想Linuxシステム(VMplayer+Ubuntu)のshare folderが設定できるので、両方のシステムでファイルがいじれて非常に使い勝手がよい。初心者的はこれにいろいろRNA-seqデータを出し入れして解析するのが便利である。
ちなみにはshare folderはデフォルト(というか以下の埼玉大学の後藤 祐一先生のブログの通りにやれば)は
Windows側(shareフォルダの置きかたにもよるが)からは、
C:\User\VertualMachines\shared
Linux側からは/mnt/hgfs/shared
(これはルートディレクトリにあって、なぜかuserディレクトリにない。userディレクトリは/computer name(home)/VertualMachine name(user)になっている気がする)
に存在する。
★仮想化Linux(Windows+Linux)については以下を参照して取り組んでほしい。
特に埼玉大学の後藤 祐一先生のブログを参照するとすぐに使えるようになる。ここではshare folderおよびコマンドaptitudeを把握するのがポイントである。筆者のネットブックではコア数2、使用メモリ2GB、使用HDD 100GBで設定し安定して動いている。
アラフォーからのハーバード留学IT編005:アナログ人間のWindows+Linux
アラフォーからのハーバード留学IT編008:超簡単windows8+Linux
なおLinuxコマンドについては必要なものをその都度覚えていくのがよさそうである。心配な人はまずはLinux ちょー入門でも覚えておくとよい。また基本的には大文字と小文字を区別するシステムなので、それについても注意が必要である。
よくつかうものについては少しのべておく
(1)sudo
(2)aptitude
(3)cd
(1)sudoはシステムの管理者の権限で行うコマンドであり、ソフトウエアのインストールやそのセットアップに使うことがおおい。
$sydo aptitude install bowtieのように、$sudo 個々のコマンド名で使用されることが多い。またそのコマンドにはパスワードを必要とし、そのパスワードはUbuntuセットアップ時のものをつかう。
(2)aptitudeはソフトウエアのインストールをバカチョンでやってくれるコマンド(ソフトウエア名)である。非常に便利なのでUbuntuセットアップ後にインストールした方がよい。aptitudeのインストールは、
端末を起動し
$ sudo apt-get install aptitude
と打ち込めばOKである。
これがインストールされると、ほかのソフトウエアをインストールするには
$ sudo aptitude search キーワード
で探すといい。例えばBowtie入れたいときは、
$ sudo aptitude search bowtieと打ち込めばキーワードが出てくる。
またインストールも簡単で、
$ sudo aptitude install ソフトウェアパッケージ名(aptitude searchで表示された名前)
で一瞬でインストールできる。
(3)cd
フォルダからフォルダへ(ディレクトリからディレクトリ)移動するコマンドで一番よく使うコマンドではないかと思う。
$ cd (userディレクトリ(端末で一番最初にでてくるディレクトリにかえる)
$ cd .. (ひとつ前のディレクトリにいく)
$ cd / (ルートディレクトリにいく)
$ cd ~/(userディレクトリ(端末で一番最初にでてくるディレクトリにかえる)
$ cd /mnt/hgfs/shared (Windowsとのシェアフォルダに行く)
を覚えておけばことは足りるであろう。
(2)必要なソフトウエアをインストールする
★Bowtieのインストール&セットアップについては以下を参照してセットアップしておいてほしい。基本は
$ sudo aptitude install bowtie
で一発である。
アラフォーからのハーバード留学研究編014:最後の難関?bowtieをクリア
★samtools, cufflinksインストール&セットアップについては以下のサイトを参照のこと。
BoostC++, cufflinks, samtools, eiganのインストール&セットアップが日必要である。
基本的には以下のの4つで一発である。
$ sudo apt-get install libboost-dev
(BoostC++インストール)
$ sudo aptitude install cufflinks
(cufflinksインストール)
$ sudo aptitude install samtools
(samtoolsインストール)
$ sudo aptitude install libeigen3-dev
(eiganライブラリインストール)
アラフォーからのハーバード留学IT編006:バカチョンBoostC++ビルト
アラフォーからのハーバード留学IT編007:サルでもできるcufflinksセットアップ
次に
1)NCBIサイトのSRAサイトからRNA-seqデーター(sraファイル)をダウンロードを行う。
RNA-seqに限らず、Chip-seq、MeDIP-seqなど次世代シークエンサーのデーターは、NCBIのSequence Read Archive (SRA)サイトから入手可能である。キーワード検索して興味のあるデータを探してみるとよいであろう。
ここでは最も未分化な血液幹細胞であるLT-HSCとやや分化した血液幹細胞であるST-HSCのRNA-seqデーターを使ってみることにする。
SRAサイトに移動。hematopoieticで検索。ヒットした
LT-HSC1:SRR886461.sra
LT-HSC2:SRR886462.sra
ST-HSC1:SRR886463.sra
ST-HSC2:SRR886464.sra
からSRR886461.sra~SRR886464.sraの4つのファイルをダウンロード(時間がかかります)。
Lhaplusか何かで解凍するとよい(windowsで行うのがはやいです)。
そして
2)sraファイルを、汎用性の高いfastqファイルに変換:sratoolkit
の過程をおこないます。
これはNCBIのサイトにおいてある生データのファイル形式がSRAファイルとなっており、解析するためにはこれを汎用性のあるfastaqファイルに変換しないといけないためである。この変換にはNCBIの提供するsra-toolkitをダウンロードする必要がある。
Linux版でもできないことはないが、パスを通すのがちょっと面倒なので、初心者はwindows版をダウンロードして、これでsra->fastq変換を行うのがよいかもしれない。
ダウンロードしたファイルをLhaplusか何かで解凍すると、sratoolkit.2.3.3-3-win64というフォルダができる。その中のbinフォルダの中に、fastq-dumpというアイコンがあるのでこれにsraファイルをドラッグ&ドロップすると解析が始まる(これも結構時間がかかり1ファイルあたり数時間かかる)。
終わるとSRR886461.fastqという感じのファイルができる(5-6GBくらいか?)。これはシーケンスデーターをfasta形式でいれたものである。
これをもとに染色体への関連付け(マッピング)を行うのが次のステップである。
なおwindows版はペアエンドの場合も一つのfastqファイル(本来は2つになるべき)になってしまうため、ペアエンドのデーターの場合は使えないことに注意。
Linux版のインストールはアラフォーからのハーバード留学研究編011:とまどいのsra -> fastq変換の脚注に書いたので参照のこと。
最後に参考になるサイトを重複も含めてのべておく
1)Linux 基本コマンド
Linux ちょー入門
Ratポータル 基本コマンド集
2)Samtoolsの使い方
NGS Sufer's Wiki
3)Cufflinkの使い方
Wolf EarsさんのTophat・Cufflinksを用いた遺伝子発現解析の方法 (4)
Ken Osakiさんの発現解析パイプラインを作るぞ! その1: TopHat の使い方
Ken Osakiさんの発現解析パイプラインを作るぞ! その2: TopHat の使い方 2
4)Reference.gtfの入手サイト
Broad InstituteのFTPサイト
(ネットブックで行うRNA-seqデーター解析(2)に続く)
ネットで調べながら行うと意外なことに予想以上の学習効果があり日々進歩があること、また29800円のエイサーネットブックでありながら結構いろいろなことができるためだ。
実際使っている環境は
PC:Acer Aspire One(AO756-H 14C/K)
CPU:Intel, Celeron CPU847@1.47GHz (コア数2/スレッド数2)
RAM:4.00GB
HDD:300GB
OS:Windows 8(64bit)
である。
そこでネットブックで行うRNA-seq解析について、自分の勉強方々、サルでもできるようにマニュアル化してみることにした。(専門的な知識はNGS sufer's wikiなど参照してください)
実際に行う過程は
0)準備段階
1)NCBIサイトのSRAサイトからRNA-seqデーター(sraファイル)をダウンロード
2)sraファイルを、汎用性の高いfastqファイルに変換:sratoolkit
3)生データーの解析(1):シーケンスデーターを染色体上にマッピング:Bowtieなど
4)生データーの解析(2):発現量の推定&遺伝子との対応付け:samtools, cufflinksなど
5)発現解析:Gene Ontology(GO)解析、GSEA解析など
の5つからなる。
このブログ記事シリーズ「ネットブックで行うRNA-seqデーター解析」では
主に1-4の部分を、SRAサイトにあるデーターを使って行う。
0)準備段階であるが、
(1)Window+Linux環境を整える
(2)必要なソフトウエアをインストールすること
が必要になってくる。
(1)Window+Linux環境を整える
bowtie, samtools, cufflinksなどRNA-seqデーターを扱うソフトウエアは、MacかLinuxをベースのものが多い。このためMac(コマンドラインが動かせないといけない)もしくはLinuxマシンでないといけない。
筆者はwindowsユーザーであるため、Linuxを動かす方法をネットで調べたところ仮想マシンでLinuxをwindow上で動かすのが一番簡単なようである。このシステムではWindowシステムと仮想Linuxシステム(VMplayer+Ubuntu)のshare folderが設定できるので、両方のシステムでファイルがいじれて非常に使い勝手がよい。初心者的はこれにいろいろRNA-seqデータを出し入れして解析するのが便利である。
ちなみにはshare folderはデフォルト(というか以下の埼玉大学の後藤 祐一先生のブログの通りにやれば)は
Windows側(shareフォルダの置きかたにもよるが)からは、
C:\User\VertualMachines\shared
Linux側からは/mnt/hgfs/shared
(これはルートディレクトリにあって、なぜかuserディレクトリにない。userディレクトリは/computer name(home)/VertualMachine name(user)になっている気がする)
に存在する。
★仮想化Linux(Windows+Linux)については以下を参照して取り組んでほしい。
特に埼玉大学の後藤 祐一先生のブログを参照するとすぐに使えるようになる。ここではshare folderおよびコマンドaptitudeを把握するのがポイントである。筆者のネットブックではコア数2、使用メモリ2GB、使用HDD 100GBで設定し安定して動いている。
アラフォーからのハーバード留学IT編005:アナログ人間のWindows+Linux
アラフォーからのハーバード留学IT編008:超簡単windows8+Linux
なおLinuxコマンドについては必要なものをその都度覚えていくのがよさそうである。心配な人はまずはLinux ちょー入門でも覚えておくとよい。また基本的には大文字と小文字を区別するシステムなので、それについても注意が必要である。
よくつかうものについては少しのべておく
(1)sudo
(2)aptitude
(3)cd
(1)sudoはシステムの管理者の権限で行うコマンドであり、ソフトウエアのインストールやそのセットアップに使うことがおおい。
$sydo aptitude install bowtieのように、$sudo 個々のコマンド名で使用されることが多い。またそのコマンドにはパスワードを必要とし、そのパスワードはUbuntuセットアップ時のものをつかう。
(2)aptitudeはソフトウエアのインストールをバカチョンでやってくれるコマンド(ソフトウエア名)である。非常に便利なのでUbuntuセットアップ後にインストールした方がよい。aptitudeのインストールは、
端末を起動し
$ sudo apt-get install aptitude
と打ち込めばOKである。
これがインストールされると、ほかのソフトウエアをインストールするには
$ sudo aptitude search キーワード
で探すといい。例えばBowtie入れたいときは、
$ sudo aptitude search bowtieと打ち込めばキーワードが出てくる。
またインストールも簡単で、
$ sudo aptitude install ソフトウェアパッケージ名(aptitude searchで表示された名前)
で一瞬でインストールできる。
(3)cd
フォルダからフォルダへ(ディレクトリからディレクトリ)移動するコマンドで一番よく使うコマンドではないかと思う。
$ cd (userディレクトリ(端末で一番最初にでてくるディレクトリにかえる)
$ cd .. (ひとつ前のディレクトリにいく)
$ cd / (ルートディレクトリにいく)
$ cd ~/(userディレクトリ(端末で一番最初にでてくるディレクトリにかえる)
$ cd /mnt/hgfs/shared (Windowsとのシェアフォルダに行く)
を覚えておけばことは足りるであろう。
(2)必要なソフトウエアをインストールする
★Bowtieのインストール&セットアップについては以下を参照してセットアップしておいてほしい。基本は
$ sudo aptitude install bowtie
で一発である。
アラフォーからのハーバード留学研究編014:最後の難関?bowtieをクリア
★samtools, cufflinksインストール&セットアップについては以下のサイトを参照のこと。
BoostC++, cufflinks, samtools, eiganのインストール&セットアップが日必要である。
基本的には以下のの4つで一発である。
$ sudo apt-get install libboost-dev
(BoostC++インストール)
$ sudo aptitude install cufflinks
(cufflinksインストール)
$ sudo aptitude install samtools
(samtoolsインストール)
$ sudo aptitude install libeigen3-dev
(eiganライブラリインストール)
アラフォーからのハーバード留学IT編006:バカチョンBoostC++ビルト
アラフォーからのハーバード留学IT編007:サルでもできるcufflinksセットアップ
次に
1)NCBIサイトのSRAサイトからRNA-seqデーター(sraファイル)をダウンロードを行う。
RNA-seqに限らず、Chip-seq、MeDIP-seqなど次世代シークエンサーのデーターは、NCBIのSequence Read Archive (SRA)サイトから入手可能である。キーワード検索して興味のあるデータを探してみるとよいであろう。
ここでは最も未分化な血液幹細胞であるLT-HSCとやや分化した血液幹細胞であるST-HSCのRNA-seqデーターを使ってみることにする。
SRAサイトに移動。hematopoieticで検索。ヒットした
LT-HSC1:SRR886461.sra
LT-HSC2:SRR886462.sra
ST-HSC1:SRR886463.sra
ST-HSC2:SRR886464.sra
からSRR886461.sra~SRR886464.sraの4つのファイルをダウンロード(時間がかかります)。
Lhaplusか何かで解凍するとよい(windowsで行うのがはやいです)。
そして
2)sraファイルを、汎用性の高いfastqファイルに変換:sratoolkit
の過程をおこないます。
これはNCBIのサイトにおいてある生データのファイル形式がSRAファイルとなっており、解析するためにはこれを汎用性のあるfastaqファイルに変換しないといけないためである。この変換にはNCBIの提供するsra-toolkitをダウンロードする必要がある。
Linux版でもできないことはないが、パスを通すのがちょっと面倒なので、初心者はwindows版をダウンロードして、これでsra->fastq変換を行うのがよいかもしれない。
ダウンロードしたファイルをLhaplusか何かで解凍すると、sratoolkit.2.3.3-3-win64というフォルダができる。その中のbinフォルダの中に、fastq-dumpというアイコンがあるのでこれにsraファイルをドラッグ&ドロップすると解析が始まる(これも結構時間がかかり1ファイルあたり数時間かかる)。
終わるとSRR886461.fastqという感じのファイルができる(5-6GBくらいか?)。これはシーケンスデーターをfasta形式でいれたものである。
これをもとに染色体への関連付け(マッピング)を行うのが次のステップである。
なおwindows版はペアエンドの場合も一つのfastqファイル(本来は2つになるべき)になってしまうため、ペアエンドのデーターの場合は使えないことに注意。
Linux版のインストールはアラフォーからのハーバード留学研究編011:とまどいのsra -> fastq変換の脚注に書いたので参照のこと。
最後に参考になるサイトを重複も含めてのべておく
1)Linux 基本コマンド
Linux ちょー入門
Ratポータル 基本コマンド集
2)Samtoolsの使い方
NGS Sufer's Wiki
3)Cufflinkの使い方
Wolf EarsさんのTophat・Cufflinksを用いた遺伝子発現解析の方法 (4)
Ken Osakiさんの発現解析パイプラインを作るぞ! その1: TopHat の使い方
Ken Osakiさんの発現解析パイプラインを作るぞ! その2: TopHat の使い方 2
4)Reference.gtfの入手サイト
Broad InstituteのFTPサイト
(ネットブックで行うRNA-seqデーター解析(2)に続く)