あなたにもできる!ハーバード留学!!~アラフォーからのボストン留学体験記

アラフォー研究者のボストン留学体験ブログ。
研究・生活・英語・ITを中心に留学ライフハックスをお教えします!

ハーバード留学研究3年目編002:CRISPRスクリーニング用ソフトMageck挑戦

2015-06-17 23:22:30 | ハーバード留学研究3年目編
CRISPR スクリー二ング用ソフトMageckのダウンロード

先日CRISPRスクリーニングの予備解析用シーケンスが終わったので、その解析をするためのソフトウエアMAGECKを導入した。ちょいインストールその他に手間取ったので覚書程度にその手順を書いておく。

MAGECKのダウンロードはsource forgeのサイトから可能である。ここからダウンロードする。Zipファイルのダウンロード自体は問題なく数分で終わる。

CRISPR スクリー二ング用ソフトMageckファイルの展開

次にこのファイルを展開しないといけないが、普通には展開できない。パスワードが必要だからである。
mageck.help@gmail.com にpasswordという表題でメールを送ると、自動的にpasswordが送られてくる。

このパスワードを使えば、WindowsでLhaplusなどのソフトで展開するのも一つの選択肢であるが、その後Unix, Phython, Cの環境下にでないとソフトウエアが使えないので、Ubuntuなどの環境を先に整えないといけない。Macを使うのがオススメかもしれない。

最近Macを手に入れたので、Macでのインストールをこころみた。

その後はMageckサイトのYoutube Mageck Tutorial 1がMacでのインストールなので、参考になる。



Macのターミナル端末(ダウンロードフォルダで圧縮ファイルをクリックすると自動的に開いた気がする)で

$ cd ~/Download (いらないかも)
$ unzip mageck-0.5.0.zip
してDownloadフォルダにそのまま展開する(この時パスワード要求)

strong>CRISPR スクリー二ング用ソフトMageckファイルのイストール

$ cd mageck-0.5.0
して展開されたフォルダに移動

$ sudo python setup.py install

でinstallが終わる(Macのユーザーパスワードが聞かれる)。なおsudoがないとアクセス権がないと言われる。
なお

$ python setup.py install --prefix=$HOME

でやると、なぜかうまくpathがとおらない。

CRISPR スクリー二ング用ソフトMageckのデモ

$ cd demo
$ cd demo1
$ ./run.sh


$ cd ..
$ cd demo2
$ ./runmageck.sh

でデモができる。うまくいかない時は、pathが通っていない。
チュートリアルにあるように、shファイルを使わず実際にマニュアルでコマンドを打ち込んでもよいと思う。うまくいっているとフォルダ内にdemo.gene_sumarry.txtファイルができているので、

$less demo.gene_sumarry.txt

のようにしてこれを表示させるとよい。答え合わせは、youtubeファイルにのっている。

これでソフト自体はうまく動いていることがわかるので、demo3を行う。

これは2つのfastqファイルおよびライブラリーファイルをダウンロードした後、実際にMageckを利用して、

fastqファイルのダウンロードは
ERR376998 (plasmid file)
ERR376999 (ES cell file)

ライブラリーファイルのダウンロードは
sourceforgeのサイトより、yusa_library.csv.zipをダウンロードすればよい。

なおdemoに進む前に、結果を表示させるのにRを使用するので、Rをインストールしておいたほうがよい。あらかじめインストールしていないと、Rscriptや--pdf-reportなどが使えない。

Rのダウンロードについては、公式サイトから、
R-3.2.0.pkgのようなパッケージ一式をダウンロードするとよい。インストールはRのパッケージを展開すると自動的にはじまる。

また利便性のために、demo用ファイルは、demo3のようなフォルダをつくってそこで展開するのがよいと思われる。

基本的にはチュートリアルにあるように

$ mageck count -l yusa_library.csv -n escneg --sample-label "plasmid,ESC1" --trim-5 23 --sgrna-len 19 --fastq ERR376998.fastq ERR376999.fastq

でマッピングしてくれる。

$less escneg.count.txtで最初が以下のようなファイルが表示できればうまくいっている。

sgRNA Gene plasmid ESC1
chr19:5884430-5884453 SLC25A45 13 32
chr11:58831475-58831498 OLFR312 94 108
chr4:49282352-49282375 E130309F12RIK 85 128

解析は、
$ mageck test -k escneg.count.txt -t ESC1 -c plasmid -n esccp
もしくは
$ mageck test -k escneg.count.txt -t ESC1 -c plasmid -n esccp --pdf-report
で行う。
$less esccp.gene_summary.txtで最初が以下のようなファイルが表示できればうまくいっている。

id num lo.neg p.neg fdr.neg rank.neg goodsgrna.neg lo.pos p.pos fdr.pos rank.pos goodsgrna.pos
ZFP945 5 1.0 1.0 0.999999 19150 0 9.6166e-07 5.4287e-06 0.05198 1 5
TRP53 5 0.95411 0.95409 0.999999 17901 0 1.0347e-06 5.4287e-06 0.05198 2 4
PDAP1 5 0.85937 0.86223 0.999999 15753 1 7.6412e-06 2.8178e-05 0.174505 3 2

詳細な結果は、--pdf-reportをつかうか
$ Rscript esccp.R

でpdfファイルが作成されるので、それを参照すればよい。

うまくいっているとこちらのファイルのようなものがでる。

CRISPR スクリー二ング用ソフトMageckの実際

CRISPRスクリーニングに利用したライブラリーのファイルが実際の解析には必要である。

Geckoライブラリーを利用しているのであれば、sourceforgeのサイトからダウンロードできる。
例えばマウスのGeckoライブラリーであれば、mouse_geckov2_library_combine.csv.zipをダウンロードすればよい。
あとは大体demo3と同じように、必要なfastqファイルとライブラリーファイルを同じフォルダーで展開し、demo3と同様にすれば解析が終わる。今回はシーケンスファイルがそんなに大きくないので多数のファイルを解析してもそんなに時間はかからなかった。

注意点は、
シーケンスのどの部分を解析しなくてよいかを指定する--trim-5オプションと
--trim-5 23 (シーケンスの5’から23塩基は共通配列のため解析しない)

sgrnaの長さを指定する--sgrna-lenオプションである。
--sgrna-len 19(Geckoは20)

また--sample-label のラベルの数は実際のサンプル数(replicationがないならfastqファイル数と同じ)と同じにする

サンプルの同士(fastqファイルの塊)はスペースで区切り、replicationがあるものに関してはfastqファイル同士を,で区切る。また,のあとにはスペースは入れないのが原則である。

実際のマッピングは以下で、

$ mageck count -l mG* -n sortC_13 --sample-label "sort1,sort2,sort3,control1" --trim-5 26 --sgrna-len 20 --fastq A8_R1.fastq,B11_R1.fastq A9_R1.fastq,B12_R1.fastq A10_R1.fastq,C1_R1.fastq A6_R1.fastq,B10_R1.fastq

解析は

$ mageck test -k sort1C_13.count.txt -t sort1,sort2,sort3 -c control1 -n sort1C_13_result --pdf-report

で可能である(*)

(*)はずである。というのも結果についてはちょい自信がない感じであった。近いうちに詳しい人に聞く予定なので、また追記します!

追記(20150911_1):結局結果は大丈夫でしたが、サンプルの質が今ひとつという結果だった。これもいろいろピットフォールがあるようで、なかなか難しい。

追記(20150912): mageck test -kは、Text形式のspread sheetでも利用可能である。この場合、windows formatted textでないと、エラーメッセージがでる。

INFO @ Sat, 12 Sep 2015 XX:XX:XX: Welcome to MAGeCK. Command: test
INFO @ Sat, 12 Sep 2015 XX:XX:XX: Loading count table from Miseq_Counts.txt
INFO @ Sat, 12 Sep 2015 XX:XX:XX: Processing 1 lines..
DEBUG @ Sat, 12 Sep 2015 XX:XX:XX: Parsing error in line 1 (usually the header line). Skip this line.
INFO @ Sat, 12 Sep 2015 XX:XX:XX: Loaded 0 records.

-> the input file (Miseq_Counts.txt) should be windows-formatted text when using Mac.

最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。