あなたにもできる!ハーバード留学!!~アラフォーからのボストン留学体験記

アラフォー研究者のボストン留学体験ブログ。
研究・生活・英語・ITを中心に留学ライフハックスをお教えします!

ハーバード留学研究3年目編002:CRISPRスクリーニング用ソフトMageck挑戦

2015-06-17 23:22:30 | ハーバード留学研究3年目編
CRISPR スクリー二ング用ソフトMageckのダウンロード

先日CRISPRスクリーニングの予備解析用シーケンスが終わったので、その解析をするためのソフトウエアMAGECKを導入した。ちょいインストールその他に手間取ったので覚書程度にその手順を書いておく。

MAGECKのダウンロードはsource forgeのサイトから可能である。ここからダウンロードする。Zipファイルのダウンロード自体は問題なく数分で終わる。

CRISPR スクリー二ング用ソフトMageckファイルの展開

次にこのファイルを展開しないといけないが、普通には展開できない。パスワードが必要だからである。
mageck.help@gmail.com にpasswordという表題でメールを送ると、自動的にpasswordが送られてくる。

このパスワードを使えば、WindowsでLhaplusなどのソフトで展開するのも一つの選択肢であるが、その後Unix, Phython, Cの環境下にでないとソフトウエアが使えないので、Ubuntuなどの環境を先に整えないといけない。Macを使うのがオススメかもしれない。

最近Macを手に入れたので、Macでのインストールをこころみた。

その後はMageckサイトのYoutube Mageck Tutorial 1がMacでのインストールなので、参考になる。



Macのターミナル端末(ダウンロードフォルダで圧縮ファイルをクリックすると自動的に開いた気がする)で

$ cd ~/Download (いらないかも)
$ unzip mageck-0.5.0.zip
してDownloadフォルダにそのまま展開する(この時パスワード要求)

strong>CRISPR スクリー二ング用ソフトMageckファイルのイストール

$ cd mageck-0.5.0
して展開されたフォルダに移動

$ sudo python setup.py install

でinstallが終わる(Macのユーザーパスワードが聞かれる)。なおsudoがないとアクセス権がないと言われる。
なお

$ python setup.py install --prefix=$HOME

でやると、なぜかうまくpathがとおらない。

CRISPR スクリー二ング用ソフトMageckのデモ

$ cd demo
$ cd demo1
$ ./run.sh


$ cd ..
$ cd demo2
$ ./runmageck.sh

でデモができる。うまくいかない時は、pathが通っていない。
チュートリアルにあるように、shファイルを使わず実際にマニュアルでコマンドを打ち込んでもよいと思う。うまくいっているとフォルダ内にdemo.gene_sumarry.txtファイルができているので、

$less demo.gene_sumarry.txt

のようにしてこれを表示させるとよい。答え合わせは、youtubeファイルにのっている。

これでソフト自体はうまく動いていることがわかるので、demo3を行う。

これは2つのfastqファイルおよびライブラリーファイルをダウンロードした後、実際にMageckを利用して、

fastqファイルのダウンロードは
ERR376998 (plasmid file)
ERR376999 (ES cell file)

ライブラリーファイルのダウンロードは
sourceforgeのサイトより、yusa_library.csv.zipをダウンロードすればよい。

なおdemoに進む前に、結果を表示させるのにRを使用するので、Rをインストールしておいたほうがよい。あらかじめインストールしていないと、Rscriptや--pdf-reportなどが使えない。

Rのダウンロードについては、公式サイトから、
R-3.2.0.pkgのようなパッケージ一式をダウンロードするとよい。インストールはRのパッケージを展開すると自動的にはじまる。

また利便性のために、demo用ファイルは、demo3のようなフォルダをつくってそこで展開するのがよいと思われる。

基本的にはチュートリアルにあるように

$ mageck count -l yusa_library.csv -n escneg --sample-label "plasmid,ESC1" --trim-5 23 --sgrna-len 19 --fastq ERR376998.fastq ERR376999.fastq

でマッピングしてくれる。

$less escneg.count.txtで最初が以下のようなファイルが表示できればうまくいっている。

sgRNA Gene plasmid ESC1
chr19:5884430-5884453 SLC25A45 13 32
chr11:58831475-58831498 OLFR312 94 108
chr4:49282352-49282375 E130309F12RIK 85 128

解析は、
$ mageck test -k escneg.count.txt -t ESC1 -c plasmid -n esccp
もしくは
$ mageck test -k escneg.count.txt -t ESC1 -c plasmid -n esccp --pdf-report
で行う。
$less esccp.gene_summary.txtで最初が以下のようなファイルが表示できればうまくいっている。

id num lo.neg p.neg fdr.neg rank.neg goodsgrna.neg lo.pos p.pos fdr.pos rank.pos goodsgrna.pos
ZFP945 5 1.0 1.0 0.999999 19150 0 9.6166e-07 5.4287e-06 0.05198 1 5
TRP53 5 0.95411 0.95409 0.999999 17901 0 1.0347e-06 5.4287e-06 0.05198 2 4
PDAP1 5 0.85937 0.86223 0.999999 15753 1 7.6412e-06 2.8178e-05 0.174505 3 2

詳細な結果は、--pdf-reportをつかうか
$ Rscript esccp.R

でpdfファイルが作成されるので、それを参照すればよい。

うまくいっているとこちらのファイルのようなものがでる。

CRISPR スクリー二ング用ソフトMageckの実際

CRISPRスクリーニングに利用したライブラリーのファイルが実際の解析には必要である。

Geckoライブラリーを利用しているのであれば、sourceforgeのサイトからダウンロードできる。
例えばマウスのGeckoライブラリーであれば、mouse_geckov2_library_combine.csv.zipをダウンロードすればよい。
あとは大体demo3と同じように、必要なfastqファイルとライブラリーファイルを同じフォルダーで展開し、demo3と同様にすれば解析が終わる。今回はシーケンスファイルがそんなに大きくないので多数のファイルを解析してもそんなに時間はかからなかった。

注意点は、
シーケンスのどの部分を解析しなくてよいかを指定する--trim-5オプションと
--trim-5 23 (シーケンスの5’から23塩基は共通配列のため解析しない)

sgrnaの長さを指定する--sgrna-lenオプションである。
--sgrna-len 19(Geckoは20)

また--sample-label のラベルの数は実際のサンプル数(replicationがないならfastqファイル数と同じ)と同じにする

サンプルの同士(fastqファイルの塊)はスペースで区切り、replicationがあるものに関してはfastqファイル同士を,で区切る。また,のあとにはスペースは入れないのが原則である。

実際のマッピングは以下で、

$ mageck count -l mG* -n sortC_13 --sample-label "sort1,sort2,sort3,control1" --trim-5 26 --sgrna-len 20 --fastq A8_R1.fastq,B11_R1.fastq A9_R1.fastq,B12_R1.fastq A10_R1.fastq,C1_R1.fastq A6_R1.fastq,B10_R1.fastq

解析は

$ mageck test -k sort1C_13.count.txt -t sort1,sort2,sort3 -c control1 -n sort1C_13_result --pdf-report

で可能である(*)

(*)はずである。というのも結果についてはちょい自信がない感じであった。近いうちに詳しい人に聞く予定なので、また追記します!

追記(20150911_1):結局結果は大丈夫でしたが、サンプルの質が今ひとつという結果だった。これもいろいろピットフォールがあるようで、なかなか難しい。

追記(20150912): mageck test -kは、Text形式のspread sheetでも利用可能である。この場合、windows formatted textでないと、エラーメッセージがでる。

INFO @ Sat, 12 Sep 2015 XX:XX:XX: Welcome to MAGeCK. Command: test
INFO @ Sat, 12 Sep 2015 XX:XX:XX: Loading count table from Miseq_Counts.txt
INFO @ Sat, 12 Sep 2015 XX:XX:XX: Processing 1 lines..
DEBUG @ Sat, 12 Sep 2015 XX:XX:XX: Parsing error in line 1 (usually the header line). Skip this line.
INFO @ Sat, 12 Sep 2015 XX:XX:XX: Loaded 0 records.

-> the input file (Miseq_Counts.txt) should be windows-formatted text when using Mac.

ハーバード留学英語3年目編002:Sushiを英語で説明してみると結構大変だった

2015-06-17 21:59:34 | ハーバード留学英語3年目編
"Organize your Speech"でSushiをお題にしてみる
toastmastersで2回目のスピーチの課題は"Organize your Speech"である。要は流れをもったスピーチを作ることが課題とされる。

大目標としては

1)アウトラインがしっかりとしたスピーチ構成にする

2)メッセージがクリアにつたわるようにmain points, sub points,support materialsをつくる

3)各パーツのつながりを工夫する(transition words, statesments, questions as you move frome one idea to another)

4)Open, body, conclusionをしっかりと作る


ことになる。

なおアウトラインについては

1)時系列(chronological)

2)場所的つながり(Spaial)

3)因果関係(Causal)

4)比較(comparative)

5)トピックス(topical)

6)問題解決

といったパターンの中から、話に合ったものを縦糸として選ぶことになる。

toastmastersのスピーチは毎回テーマが決まっていて、だんだんと難易度が高い課題に挑戦していくので、非常に勉強になる。
今回はice breakした後でちょっとだけ本格的になった課題があてがわれたようだ。

基本的には自分が良く知っている話題の中から選んでいくのがよいことになる。

ぱっと思いつかなかったので、Sushiをトピックスをテーマに、sushiとは何か?、何を食べればよいのか?、どのように食べればよいのか?といった形でスピーチを構成することを考えた。さしずめ5のtopicalなアプローチである。

しめサバって英語でどういう?

スピーチを作り始めてはたと行き詰ったのが、寿司用語を英語であまりしらないということである。

わからなかったのは、

1)酢飯:sushi rice or vinegared rice

2)しめサバ:salted and (or) vinegared mackerelもしくはmarinated mackrel
これ結構難しいです。正確にはsalted and vinegared mackerelちょっと京都の鯖寿司の話をしたかったのですが、「若狭湾で大量に水揚げされた鯖は、一塩(ひとしお)した後、熊川の人たちが背負うなどして京都へ向けて運びました。http://www.kepco.co.jp/corporate/info/community/wakasa/ew/hurusato/28next.html)」というようなことをぴたっというには、salted mackerelとサクッといったほうが良いと思いました。

3)コク:rich taste, rich flavor
ちなみに「コクがあって美味い。の「コク」を英語で」にある

また、4つの基本的味(sweet, sour, bitter and salty,)の他にumamiと言うアジがあると世界的に認められるようになってからはこれをthe fifth tasteと呼ばれるようになりましたね。 これがコクなんでしょうか。 この点でいれば、savoryと言う既存単語がよく使われますね。

あいまいなsome hidden/unknown taste makes this soup so (rich and) tastyと言う風に「なぜだか分からないけど何かこのスープの味を格別なものにしているね」と言う表現に持っていけると思います。


という記述も参考になりました。うまみという英語がないのも興味深い点です。

4)うまい:tasty

5)各種寿司ネタ

1: サーモン:Salmon
2:  ブリ:Yellow Tail  
3:  マグロ赤味:Tuna(lean)  
4:  中トロ:Tuna(fatty)  
5:  鉄火巻き:Tuna roll
6:  えんがわ:Flatfish     
7:  えび:Shrimp        
7:  いくら:Salmon Caviar       
9:  いか:Squid       
10: ほたて:Scallop    

といったところである。

Sushi; What it is, What to eat, How to eat

さて実際は
1)これから夏休みになるので外食する機会も多いでしょう。なので今回はsushiについて話すことにしました。

2)Sushiというとnigiriかrollが主にここではみることが多いでしょうが、Sushiとは酢飯をつかった料理の総称なので、いくつものカテゴリーがある。



3)鯖寿司のように生の魚をつかわないものや



4)いなりずしのように魚しか使わないものもある



5)これで寿司とは何かわかったと思うので次は何を食べたらよいかである。

6)おすすめの寿司とは、一番人気の握りずしをたべてみることである。今一番人気の握りずしとはサーモンである。これに理由があり、サーモンの寿司の調理法は完璧に標準化されているので、どこでも同じようなサーモンの寿司が食べられる、合わせてサーモンはキングサーモンやトラウトがつかわれていので、多くの国で手に入りやすい。このためサーモンの寿司には当たりはずれがないからだ。



7)どのように食べたらいいか?について、3つのコツをお教えする。

醤油をつけすぎない

醤油は魚の部分につける

わさびをつけすぎない



8)これまで、sushiの What it is, What to eat, How to eatについて話したが、多分sushiが食べたくなったであろう。おすすめはBrookline特にCoolidge cornerに来ること。日本食のclusterがあるからである。中でも
おすすめはshikiです。Enjoy summer and hopfelly enjyo sushi!



という展開にした。

複雑な構成のところはやはり課題がある

Sushiとなるとみんな興味をもってくれ、本番はおおむね好評であった。ただやはり鯖寿司のところは、鯖寿司の説明、生魚が手に入りにくい京都の寿司が鯖寿司である理由、祭りとの関係などをふれたため、ちょっと構成が複雑になり、しゃべるのにちょっととちってしまった。やはり構成は出来るだけ、簡便にしておくのが無難である。

また思った以上に寿司について英語で知識が入っていないかったので苦労したがいい経験でした。

あと意外とうけたのがhow to eatの醤油やワサビの使い方のところであったのがおもしろいとこですね。こういう小ネタがよいのでしょうね。

なおつかったmaterialも今後の参考ににブログに載せてみました。スペルミスがあるかもですが、ちょっとした大作です。