goo blog サービス終了のお知らせ 

あなたにもできる!ハーバード留学!!~アラフォーからのボストン留学体験記

アラフォー研究者のボストン留学体験ブログ。
研究・生活・英語・ITを中心に留学ライフハックスをお教えします!

アラフォーからのハーバード留学研究編022:ちょっとうれしい知らせ

2014-01-03 12:35:29 | アラフォーからのハーバード留学研究編
来年度の給料をゲットするために、昨年4つの奨学金に応募していた。3つが内部(internal)、1つが外部の団体から(external)の奨学金である(*)。一番期待していた一つである内部の奨学金が昨年末20日に決定といっていたが、音沙汰がなかったので駄目とがっかりしていたら、昨日Approveされたという知らせが来ていた。

駄目だと思っていただけに一際うれしいし、何よりも推薦状やproposalのreviewでお世話になった現在および前の研究室のボスや共同研究者先のボスのサポート、そして親切にもこまめにproposalを添削してくれた同僚のポスドクのサポート(**)に感謝したい。これらのサポートがなくてはこの奨学金をもらうのは難しかったのではないかと思う。

これで少なくともあと一年はこちらで研究できそうで(***)、アメリカの経済が悪い中、異国からやって来たちょっと英語も変な研究者に奨学金を出すということは非常にありがたいことだし、身が引き締まる思いだ。

ある本にでていたワンフレーズを思い出した。

どんなに小さくても、火種がある限りは、息を吹きかけることをあきらめてはいけない。

あきらめずにそっと息を吹きかけ続けているうちに、ぼっと炎があがるときが来る。

強く吹いたら、かぼそい火種は消えてしまう。

あきらめずに、そっと吹きつづけることが大切だ。

宮本輝「水のかたち 下」より)

昨年はいろいろ不利な状況が重なり、不覚にも息を吹きかけることをあきらめそうになった。非常に小さい火種でも、あきらめずに息を吹きかけていると、ちょっとは反応するものだ。あきらめずに、そっと吹きづづけること、頂いたチャンスを生かして学べるものは最大限学んで行くこと。今年の目標である。

(*)学会主催の奨学金など外部の奨学金やグラントの多くは、博士号取得後の年数が多いと応募できず、私のようなケースでは極端に不利になる。内部のものも含め丹念に応募可能なものをピックアップするのが重要であろう。詳細は、アラフォーからのハーバード留学研究編020:アメリカで奨学金応募&参考になるサイトにちょっと記しておいた。

(**)見るに見かねてか、proposal見てあげるよと言ってくれた同僚には頭が上がらない。

(***)とれないと最悪3月までで留学が打ち切りの可能性があり、内心憂鬱であった。最低一年伸びたので、いくつかアイディアが試せそうだし、またアメリカでしか学べないものも学ぶ機会を作れそうである。とりあえずじっくりと戦略の練り直しが出来そうでありがたい。

アラフォーからのハーバード留学研究編021:仕事納めの時期に

2013-12-21 12:16:06 | アラフォーからのハーバード留学研究編
 アメリカでは、年始の休暇があまりないためにクリスマス前の週末が仕事納めとなるようである。実際子供の学校も今週金曜日(本日)までだし、仕事場(ラボ)のクリスマスパーティ兼忘年会といった感じの催しも先週末から今週に行われている。

 今年を振り返ってみると、ビザの手続きに始まり、入国後の手続き、グラント申請、残してきた論文の後始末など、なんだか書類仕事に追われていてあっという間に時間がたってしまった。グラント4つ、宿題となっていた論文の後始末はぎりぎりまでかかったしまったが何とかこなすことができた。

 また本質的なこちらでの仕事という意味では、予想以上にいろいろなことを試すことができたものの、基礎となるものをestablishするには至らなかった。英語についても、どこから手を付けてよいのやら多くの課題が残っている。ぎりぎり合格点かもしれないが、結果が付いてくるかどうか?

 ただ無事にここまで過ごせたのは一番の良いことかもしれない。サポートしてくださった皆さんに感謝。家族に感謝。健康に感謝。

 ちなみにウォールストリートジャーナル日本版が2013年の10大ニュースを発表していた。

 1位 米政府一部閉鎖と債務不履行の危機
 2位 国内外から注目を集める「アベノミクス」
 3位 金融緩和から出口探る米FRB
 4位 米国NSA盗聴問題
 5位 シリア内戦
 6位 中国 薄熙来(はくきらい)失脚
 7位 相次ぐIT企業の大型再編
 8位 福島第1原発の汚染水問題
 9位 ボーイング機事故
 10位 世界各地の異常気象

これを見ているとアメリカの景気が今一つなのにひきづられてぱっとしない一年だなと思う(これ以外にもボストンマラソンの事件もあった)。何か行き詰まりというか閉塞感のある時代を象徴しているようだ。

 今年の一字は何になるのだろうか?自分は「恕(じょ)」という字を選びたい。

アラフォーからのハーバード留学研究編020:アメリカで奨学金応募&参考になるサイト

2013-11-20 13:07:23 | アラフォーからのハーバード留学研究編
                


今年応募が可能な最後の奨学金の提出が本日終わった。
4つ目ともなればだいぶ慣れてくるが(*)、結局締切当日までバタバタすることが多い。5日前までに事務部門の審査を経て提出になるのであるが、手間取るのが研究室のお偉方からの推薦状もしくはコラボレーションのオファーレターの取得。研究室のヘッド(PI)はみな一応に忙しく、ポスドクの推薦状などは優先順位が低いからだ。このあたり督促するのに少し神経を使うが、意外とトラブルことはそんなにない。

この辺がアメリカ時間たる所以である。このギリギリ感が普通なのだと認識するまでに結構時間がかかる(**)。

大概の場合必要なものは以下の6点(4、6はオプショナルである)

1)CV(NIHのbioskechフォーマットであることが多い)
2)研究の概要(Summary or Abstruct)
3)研究計画(Research Proposal)
4)予算計画 (ポスドクの給料用のグラントだとラボのグラント担当のマネジャーが適切な数字を入れてセットアップしてくれるので、あまり悩まなくてよい)
5)推薦状(2-3通が普通:大体今の研究室のボス、元の研究室のボス、共同研究先の研究室のボス)もしくはコラボレーションのオファーレター
6)キャリアプラン

である。

今回Research Proposalを書く上で学んだこととしては、

1)非常に参考になるのがNIHのサイトである。
NIH bioskechproposalのサンプルが参考になる。

2)Proposalは参考文献も入れ詳しく書かなくてはいけず、日本の科研費の申請書よりはめんどくさい(***)。

必要とされる項目は

•Specific aims
•Background and significance
•Preliminary data
•Experimental design and methods
•Potential scientific and medical impact
•References

であることが多い。

ボスから言われた注意点としては

•一年のグラントであればAimは1-2ぐらいが限度。三年くらいだと3個くらいらしい。
•summary or abstructの字数に余裕があれば、そこにもAimを入れておいた方がよい。
•Preliminary dataは、あるデータ全部でなくショッキングなものを、ちら見させる感じで。。
Marketing Scientistsという本でも同じようなコメントがある)
•Potential scientific and medical impactには、予想される結果とその意義、future plan, また予想通りの結果が出なかったときの対処法や意味ある結果の出し方などを盛り込むとよい。

とのこと。

3)あまり使わなかったが、よさそうなリソースとして
MGHのCrafting Your CV NarrativeというキャリアディベロップセミナーのVideo

Drafting your chef's letterというキャリアディベロップセミナーの講義資料(****)
Marketing Scientistsという本
が参考になるかもしれない。

これでうまくいくとよいのですが。。まずはCross fingersです。

(*)話によると10個書いて一個当たるといわれているので、これでも少ない?ただ年限のため出せるものが少ないので、リサーチ関連の内部のニュースレターを丹念に探して見つけて、これが精いっぱいである。

(**)一週間前に、推薦状をボスにたのんだら、"When is the due? A week after? This is not so urgent!"といわれた。

(***)英語で書かないといけないというのもある。ボス&同僚にreviewしてもらう時間も考慮して書かないといけない。最初の年は大体締切一か月前にグラントの情報を知るパターンが多いので、1-2週間で最初のドラフトを書き上げないといけないのが一苦労である。

(****)推薦状やオファーレターもドラフトを申請者が書いてからお願いするのが普通であり、これを書くのも日本人には一苦労である。



アラフォーからのハーバード留学研究編019:ネットブックで行うRNA-seqデーター解析(4)

2013-11-02 12:34:04 | アラフォーからのハーバード留学研究編
 同様の内容をIT編で書いた。ブラッシュアップしたいのだが、現時点でまだできていないので、現状を載せておく(スペース確保のため)。

 ネットブックで行うRNA-seqデーター解析(3)でLT-HSCとST-HSCのデータがcuffdiffで処理されて、LT_HSC_VS_ST_HSC_cuffdiff_resultというフォルダにはいっているはずである。
 
 またネットブックで行うRNA-seqデーター解析(3.5)でその可視化ソフトであるcummeRbundがRにインストールされたはずである。

 今回はこのcummeRbundを用いて可視化を試みることとする(*)
なお準備としてRおよびcummeRbundのコマンドの概要を少し知っておいた方がよい。

Rに関しては二階堂愛さんのRの基礎が少し難しいがよいだろう(なお練習問題は必ずしも解けなくても大丈夫。オブジェクト指向の概要とコマンドの概要がわかればよい)。

cummeRbundに関してはinsilicodb.orgが英語だが割と実用的でよい。日本語のものはcummeRbund manualをそのまま訳したものが多く今一つ使いにくいが、
牧場の朝さんのと
二階堂愛さんのRNA-seqデーター解析
がわりかし使いよい。

まずLT_HSC_VS_ST_HSC_cuffdiff_resultフォルダから、diffという拡張子がついたデーターファイルをcuffというオブジェクトによみこむ(**)。

> cuff <- readCufflinks("LT_HSC_VS_ST_HSC_cuffdiff_result")

うまく読み込めていれば
>cuff
とやるとその概要を次のように表示してくれるはずである。
CuffSet instance with:
4 samples
23306 genes
30563 isoforms
25977 TSS
22856 CDS
139494 promoters
155862 splicing
113886 relCDS

遺伝子(genes)、アイソフォーム(isoforms)、転写開始点(TSS)などなどの情報。
ここでちょっとした分析を行うなら、

>csBoxplot(genes(cuff))
とやると各群のboxplotを表示してくれる(***)


>csDensity(genes(cuff))
とやると、densityplotを表示してくれる


さらに
> csDendro(genes(cuff))
とやると、樹形図を表示してくれる


そして
>csVolcanoMatrix(genes(cuff))
とやると、ボルケーノプロットを表示してくれる


 次にgenediffというオブジェクトに差のある遺伝子データ(genes)を読み込む。

> genediff <- diffData(genes(cuff))

全部を出すとちょっとめんどうなので、その最初の部分だけを表示させると

>head(genediff)

gene_id sample_1 sample_2 status value_1 value_2 log2_fold_change
1 0610005C13Rik q1 q2 NOTEST 0.0000 0.00000 0.00000e+00
2 0610007N19Rik q1 q2 OK 0.0000 3.78706 1.79769e+308
3 0610007P14Rik q1 q2 OK 197.9410 83.90660 -1.23821e+00
4 0610008F07Rik q1 q2 NOTEST 0.0000 0.00000 0.00000e+00
5 0610009B14Rik q1 q2 NOTEST 0.0000 0.00000 0.00000e+00
6 0610009B22Rik q1 q2 OK 94.5476 105.75900 1.61668e-01
test_stat p_value q_value significant
1 0.00000e+00 1.0000000 1.000000 no
2 1.79769e+308 0.1660150 0.533321 no
3 1.79123e+00 0.0732564 0.492534 no
4 0.00000e+00 1.0000000 1.000000 no
5 0.00000e+00 1.0000000 1.000000 no
6 -1.81075e-01 0.8563090 0.968486 no

このようなデーター構成になっていることがわかる。一番前にgene_idがあることに注目してこの差のある遺伝子のIDを取ってくると、

>genediffdataID <- genediff_data[,1]
として、

>genediffdataID
(前略)
[2293] "Tmem180" "Tmem194" "Tmem38a" "Traf3ip2"
[2297] "Trdmt1" "Trim23" "Tstd3" "Ttll1"
[2301] "Ubald1" "Ube2e2" "Ubxn11" "Vpreb3"
[2305] "Wdr12" "Wnk1" "Xist" "Zbtb34"
[2309] "Zfp354a" "Zfp446" "Zfp523" "Zfp551"
[2313] "Zfp605" "Zfp810" "Zfp846" "Zfp90"
[2317] "Zfp92" "Zfyve19" "Zscan2"

とちゃんとIDがとれていることがわかる。

このgenediffdataIDは列ベクトル(Columun Vector)であるが、このIDをもとにデーターを取ってくる作業をするためには行ベクトル(Row Vector)である必要があり、転置変換を行う(****)。

> genediffdataID <- t(genediffdataID)

そしてmyGenesというオブジェクトにcuffというオブジェクトからこのgenediffdataIDを持つ遺伝子の情報だけとってくると、

>myGenes <-getGenes(cuff, genediffdataID)

Getting gene information:
FPKM
Differential Expression Data
Annotation Data
Replicate FPKMs
Counts
Getting isoforms information:
FPKM
Differential Expression Data
Annotation Data
Replicate FPKMs
Counts
Getting CDS information:
FPKM
Differential Expression Data
Annotation Data
Replicate FPKMs
Counts
Getting TSS information:
FPKM
Differential Expression Data
Annotation Data
Replicate FPKMs
Counts
Getting promoter information:
distData
Getting splicing information:
distData
Getting relCDS information:
distData

とデーターがとってこられる。

例えばmyGenesをもとにヒートマップを書かせてみると、

> csHeatmap(myGenes)
遺伝子が多すぎてわかりませんが、次のようになる。


myGenesをもとに4群でクラスター分析すると、

>k.means <-csCluster(myGenes, k=4)

その状況をグラフに書かせてみると、
> k.means.plot <- csClusterPlot(k.means)
> k.means.plot



q1,q2:LT-HSC
q3,q4:ST-HSC

であったので、もしあなたが血液学者なら、もっとも未分化な血液幹細胞LT-HSCで多く出ている遺伝子が何かしりたいところだろう。このクラスターのうち、q1,q2での発現が,q3,q4より多い、クラスター2のデーターがほしくなるはずである。

>k.means
とやると、クラスター分析のデーターをだしてくれ
(前略)
Mpst 2 3 0.4569913751
Ino80b 2 3 0.4508379672
Zfp697 2 3 0.4463841894
5730577I03Rik 2 3 0.4462468051
Ttc23 2 1 0.4423819910
Bai3 2 1 0.4386712043
Sh3pxd2a 2 3 0.4293128230
Nab2 2 3 0.4288460352
Jag1 2 4 0.4265375878
(中略)
C77080 2 4 -0.2102395161
D5Ertd605e 2 4 -0.2228394545
Srr 2 4 -0.2498411870
(後略)

とどんな遺伝子かわかる。
この遺伝子群のヒートマップをたとえば書かせてみるには、この遺伝子群のIDをエクセルにコピペして(*****)、タブ区切りのtxtファイルをつくる。

それをRに読み込んで、転置し

> CL2ID <- read.table("CL2.txt" , header=F, sep="t")
> CL2ID <- t(CL2ID)

データーをcuffから、Genes_CL2にとってきて、
>Genes_CL2 <-getGenes(cuff, CL2ID)
>csHeatmap(Genes_CL2)



これだと数が多いのでちょっとヒートマップで何かを言うことが難しい。

そこで発現量が高く(status列がOK)、統計的に優位なものだけ(significant列がyes)のものだけgenediffオブジェクトからとってくることとする(******)。

> genediff_data <- genediff[((genediff$status == 'OK')& (genediff$significant == 'yes')),]

なおこの操作をおこなうとgenediffオブジェクトのデーターは一部失われる。(*******)
IDをとって、データーをmyGenes2にいれ
> genediffdataID2 <- genediff_data[,1]
> genediffdataID2 <- t(genediffdataID2)
> myGenes2 <-getGenes(cuff, genediffdataID2)

4群のクラスター分析を行い
> k.means <-csCluster(myGenes2, k=4)
> k.means.plot <- csClusterPlot(k.means)
> k.means.plot
図をかかせてみると、

やはり遺伝子数はまだ多そうである。

統計的にいいのかどうかはわからないが6群でクラスター分析を行い
プロットすると、
> k.means <-csCluster(myGenes2, k=6)
> k.means.plot <- csClusterPlot(k.means)
> k.means.plot


クラスター6が面白そうである。
>k.means
でこの遺伝子がなにかしらべ、やや多いので上から50個をエクセルでCL6-50.txtファイルにいれ

> CL6ID <- read.table("CL6-50.txt" , header=F, sep="t")
> CL6ID <- t(CL6ID)
> Genes_CL6 <-getGenes(cuff, CL6ID)
> csHeatmap(Genes_CL6)
とやると

わりとみられる感じになる(********)。
また
>csHeatmap(Genes_CL6, cluster ='both')
とやると遺伝子の側でもクラスタリングしてくれる。


もう少しブラッシュアップしないといけないであろうが何とか、LT-HSCに高そうな遺伝子が取れてきているようである。ただ本当にValidなものなのかは、ほかのアレーやRNA-seqデーターを参照して分析しないといけないであろう。。




(*)ネットブックで行うRNA-seqデーター解析(4)としたかったのだが、ちょっとまだまとめきれていないので、IT編とした。
(**)この操作がRの基本である。
(***)cuffdiffでラベルがうまくつけられなかったつけがここにでている。q1,q2,q3,q4...
あと一部の群で0の値があり、それが少しデーターをおかしくしている気がする。
(****)そのままやると変なエラーメッセージがでます。
(*****)このあたりがド素人的な所以。。
(******)insilicodb.orgにあるスクリプトのようにp値(α値)で区切ってもよいのかもしれない。
 ちなみにα=0.05をカットオフにして、ヒートマップを書かせると
 > mySigGeneIds<-getSig(cuff,alpha=0.05,level='genes')
 > myGenes3<-getGenes(cuff,mySigGeneIds)
 > csHeatmap(myGenes3,cluster='both')
 
 のようになる。まだまだやのうー!
(*******)条件にあったものが消えている。
(********)gene_idが2重に表示される理由がまだ分からない。

アラフォーからのハーバード留学研究編018:ネットブックで行うRNA-seqデーター解析(3.5)

2013-10-18 13:27:04 | アラフォーからのハーバード留学研究編
 アラフォーからのハーバード留学研究編017:ネットブックで行うRNA-seqデーター解析(3)で得られたように、今やcuffdiffやcufflinksの結果といったRNA-seqの初期解析データがあるはずだ。

次のステップはこれらのデーターをどう料理するかであるが、二階堂愛さんのRNA-seq Analysis With R/Bioconductorなどのページによると、統計処理に適したRという言語をいれて、そのうえでcummeRbund(カマーバンドというらしい)というRNA-seqデーター解析用のソフト(パッケージという)を走らせて、その可視化を行うことになる。

 これにはR+cummeRbundのインストールが必要であるが、初心者がはまりがちな落とし穴があるのでネットブックで行うRNA-seqデーター解析(3.5)として述べておく。

落とし穴とは

1)Rのパッケージインストールは管理者権限が必要である(やり方は下記参照)
2)cummeRbundを使うには、あらかじめRのグラフィック作成パッケージであるggplot2のインストールが必要である(デフォルトで入っていない)

の2点である。

 Rは最新版(3.0.2)をこちらからダウンロード(さらに最新版があればそれを)。

これをwindowsに指示通りにインストールする(デフォルト設定でよい)。


次に管理者権限でRを立ち上げる。これには(デフォルト設定で)ディスクトップ上にあるRのアイコンをRのアイコンを右クリックし、出てくるメニューで管理者として実行の部分をクリックする。詳しくはこちらのサイト(画像つきで詳しく説明)(これはパッケージのインストールの時のみで通常起動はアイコンをクリックするだけでよい)
 
するとRコンソールがでてくるので、

次にggplot2のインストールを行う₍*₎。

>install.packages("ggplot2", dependencies=TRUE)

とタイプすればよい。

次にcummeRbundのインストールを行う₍**₎。

>source("http://bioconductor.org/biocLite.R")
>biocLite("cummeRbund")

とタイプするだけでよい。
なおなにかきかれたらaと答えればよい

最後にインストールがうまくいっているか確認のためにcummeRbundの読み込み。
> library(cummeRbund)

とタイプすると

要求されたパッケージ ggplot2 をロード中です
Find out what's changed in ggplot2 with
news(Version == "0.9.3.1", package = "ggplot2")
要求されたパッケージ reshape2 をロード中です
要求されたパッケージ fastcluster をロード中です

次のパッケージを付け加えます: ‘fastcluster’
以下のオブジェクトはマスクされています (from ‘package:stats’) :

hclust

要求されたパッケージ rtracklayer をロード中です
要求されたパッケージ GenomicRanges をロード中です
要求されたパッケージ IRanges をロード中です
要求されたパッケージ Gviz をロード中です
要求されたパッケージ grid をロード中です

次のパッケージを付け加えます: ‘cummeRbund’

以下のオブジェクトはマスクされています (from ‘package:GenomicRanges’) :

promoters

以下のオブジェクトはマスクされています (from ‘package:IRanges’) :

promoters

となって、うまくcummeRbundが読み込まれるはずである。

最後にここで

> readCufflinks()

といれると

Creating database C:/Users/USERID/Documents/cuffData.db
Reading C:/Users/USERID/Documents/genes.fpkm_tracking
以下にエラー file(file, "rt") : コネクションを開くことができません
追加情報: 警告メッセージ:
In file(file, "rt") :
ファイル 'C:/Users/USERID/Documents/genes.fpkm_tracking' を開くこと

とうまくcummeRbundが動いていることがわかる。
もしエラーメッセージがでると何らかの原因でインストールがうまくいっていないことが考えられる。たとえばRとcummeRbundのバージョンがうまく合っていないこともある。この場合Rを最新版に変えてみるとうまくいくことがある。

なおここまでくれば次のデーターの可視化がすぐにでもできる状態である。

。(ネットブックで行うRNA-seqデーター解析(4)に続く)

₍*)Rのグラフィック作成パッケージ“ggplot2”についてより

₍**₎おまじない。東京大学の門田先生のサイト、Rで塩基配列解析より。ちなみにすごい情報量です。