あなたにもできる!ハーバード留学!!~アラフォーからのボストン留学体験記

アラフォー研究者のボストン留学体験ブログ。
研究・生活・英語・ITを中心に留学ライフハックスをお教えします!

ハーバード留学研究3年目編004:Rでクラスタリング2(正規化&hclust)

2015-09-21 23:36:51 | ハーバード留学研究3年目編
門田先生の著書「トランスクリプトーム解析」が素晴らしい

先日東大の門田幸二先生の「トランスクリトーム解析」を手に入れた。全くの初心者にはちょっと難易度が高い本であるが、少し慣れてきた人にとっては使い勝手の良い本である。

アレーデーターの読み込み&正規化
先日のhuman白血病幹細胞がうまくクラスタリングされないのではないか?という問題をもう少しエクステンシブに扱ってみた。前回の解析ではすでにプロセスされているデーターテーブルを使ったが、まずアレーファイルを全部読み込んで自分で正規化なども行ってみることとする。

まず読み込みであるが、RでArrayExpressというライブラリーをつかってつぎのように読み込むことができる。

>#installing ArrayExpress
>source("https://bioconductor.org/biocLite.R")
>biocLite("ArrayExpress")

>#library(ArrayExpress)

>#get raw data stored in GSE30375
>param <- "GSE30375"
>hoge <- getAE(param,type="raw",extract=F)

これでワーキングディレクトリにE-GEOD-30375.raw.1.zipができているはずである。これを解凍してやると、ワーキングデレクトリに幾つかのCELファイルができる。解凍はRでもできるようなのだが、いまひとつうまくいかないので、Macのterminalで
> mkdir GSE30375
> unzip E-GEOD-30375.raw.1.zip
> mv *.CEL GSE30375
としてGSE30375というフォルダにうつす。

その後自分的はワーキングディレクトリを、GSE30375に移して(ここからR)

> setwd
>#normalization of the raw files with MAS5 and write a table for the out put
>out_f <- "hoge1.txt"
>hoge <- ReadAffy()
>eset <- mas5(hoge)

でMAS5による正規化が終わる。

発現情報は
>data <- exprs(eset)

で取り出せる。
ファイルに落としたければ
>out_f <- GSE30375_MAS.txt

>write.exprs(eset,file=out_f)
でよい。

pheatmapによる解析
前にもやったようにpheatmapで解析すると、

>library(pheatmap)
>y <- cor(data)
>pheatmap(y)

これだとちょっとみにくいので
>pheatmap(y,show_colnames=F,fontsize=6)



やっぱり正規化をあたらてめて行っても、うまく白血病幹細胞CD34+CD38-がわかれていなさそうである!
そこで少しサンプル数をしぼってみると

サンプル数15



サンプル数10


サンプル数6


サンプル数3


といった形で、同じ番号(たとえばX1)のサンプル(同じ患者由来)がクラスタリングしやすく、白血病幹細胞かどうかといったことはあまりクラスタリングに影響しないようであった。

ちなみにCD34+CD38-とunsortedのAMLサンプルだけを比較しても同じようなことが言える。



hclustによる解析
門田先生の本に習って、その他のクラスタリングもためしてみる。

1-spearmanだけやってみましたが
>data.dist <- as.dist(1-cor(data,method= "spearman"))
>out <- hclust(data.dist, method = "average")
>plot(out)



のようにCD34+CD38-とunsortedのAMLサンプルでクラスタリングさせても、2群うまく分かれてくれない。門田先生の記述によると、このような場合には2つの群の遺伝子発現があまり違わない時に起こるようである!白血病幹細胞はバルクの白血病細胞と比べて違わなくてもよいのかと思う。。

ちなみにここからはきちんと理解していないが、differentiallyに発現する遺伝子(DEG)を抽出してくると、

>source("https://bioconductor.org/biocLite.R")
>biocLite("limma")

>data <- log2(data)
>colnames(data) <- c(paste("LSC_",1;23,sep=""),paste("Bulk_",1:15,sep=""))

>data.c1 <- c(rep(1,23),rep(2,15))
>design <- model.matrix(~ as.factor(data.c1))
>fit <- lmFit(data,design)
>out <- eBayes(fit)

>p.value <- out$p.value[,ncol(design)]
>q.value <- p.adjust(p.value,method="BH")
>ranking <- rank(p.value)

>tmp <- cbind(rownames(data),data,p.value,q.value,ranking)

>write.table(tmp,file="AML_MAS_DEG.txt",sep="\t",append=F,quote=F,row.names=F)

>topTable(out,coef=colnames(design)[ncol(design)],adjust="BH",number=8)


となって優位にp<0.01かつFDR<0.1を満たすDEGは2個しかなく、クラスタリングからも想定されたように、少なくともこのデーターセットに関しては、白血病幹細胞の特異的な遺伝子発現というものは観察できないようである。

ハーバード留学研究3年目編003:R でクラスタリング(pheatmap)

2015-09-19 11:16:42 | ハーバード留学研究3年目編
Rのpheatmapで割りと楽にClusteringができるみたいですね。

ためしにS.ArmstrongのグループのAMLデーター(GSE18483)をre analysisしてみました。ざっくりやっても、Normal&白血病幹細胞(LGMP)はうまく別にClusteringできるみたいですね。



ちなみに別のS.ArmstrongのグループのAMLデーター(GSE20377)を解析してみるとやはり同様のNormal&白血病幹細胞(LGMP)の比較のせいか、うまくClusteringできるようである。



べつのTC.SomervailleたちのグループのAMLのデーター(GSE13796)はこんな感じであり、彼らの言う白血病幹細胞に近いckit(CD117)positive AML from Spleenはより成熟した白血病細胞であるckit negative AML from Spleenと別にClusteringされ、前者はmyeloblastに後者は成熟好中球に近くClusteringされているので、わりとreasonableな結果かもしれない。ただBM由来のAML細胞が別にClusteringされているのはちょっと気になる。



とここまでマウスの白血病モデルのデーターを解析してみたが、人のはどうなのだろうかとおもって試しに、白血病幹細胞(CD34+CD38-)とソートしていない白血病細胞があるデーターを解析してみた。John Dickのところのデーター(GSE30375)なのでそんなに変なデーターではないと思うのだけれど、



結果はこんな感じで、いまひとつ白血病幹細胞がclusteringされない?!

テクニカルな問題なのか?

それとも最近Cellに、白血病細胞の表面抗原と内部のシグナルが相関しないという話がでていた(the surface phenotypes of leukemic blasts do not necessarily reflect their intracellular state.)けれど、これもそういったことを意味しているのだろうか?

ちなみにRのスクリプトは

>install.packages("pheatmap")

>library(pheatmap)

>x <- read.table(file="filename.csv",row.names=1, header=T,sep=",")

>x <- as.matrix(x)

>y <- cor(x)

>pheatmap(y,show_rownames = FALSE, show_colnames = TRUE)

といった形になる。



ハーバード留学生活3年目編004:医療費交渉&HMO?PPO?deductible?

2015-09-18 23:33:47 | ハーバード留学生活3年目編
入院費は退院時に支払わなくて良い
つい先日、ひょんなことから、子供が風邪をこじらせてBoston Children's Hospitalに入院することになった!それ自体は2日ですっかり良くなってことなきを得たのだけれど、問題は医療費の支払い!

以前夜間救急にかかった時も、保険(その時は旅行者保険)でカバーされたものの1000ドル程度の請求がトータルで来ていたので、今回は入院までしたので、ちょい不安になりました。

まず退院時、てっきり何かを払うものだと思っていたので、ビクビクしながら会計に行きましたが、結局あとから請求するのでということで払わなくてよかったのでした。。この辺り日本と大分違います!

HMOか?PPOか?
ただ登録されていた保険が以前の旅行者保険で、登録されている保険の変更が必要になりました。その時きかれたのが、

HMOか?

PPOか?

ということ。普段意識していなくてよくわからないと言ったら、調べてくれました。Partners Plusは、PPOのようですね。

仕組みの説明としては、

HMOs vs. PPOs – What Are the Differences Between HMOs and PPOs?の説明がわかりやすいのですが、基本的には、

HMOはプライマリーケア医が全てをコントロールしくみであり、プライマリーケア医をしていないといけず、病院の紹介などもプライマリーケア医にお伺いを立てないといけないけれど、co-paymentなど患者自体が直接払わなくて良い。

PPOは特にプライマリーケア医の介在を必要としなくて良いしくみであり、好きな医療機関にかかられるが、co-paymentや最低支払い金額(Deductible)など患者負担があり、またその額もPPOnetwork内だと安いが、network外だと高い。

というようなシステムである。

また我々の入っているPartnersの保険は、2階建てのしくみになっておりmBlueSheild BlueCrossのネットワークの上に、2階部分のPartners Preferred Networkがあり、この中の医療機関にかかる場合は自己負担はほぼゼロになる。ハーバードの医療機関の多くがこのPartners Preferred Networkにはいっているので、結構ありがたいシステムであるということになっている。

実際の支払いは? Boston Children's HospitalはPartners Preferred Networkではない?

以上のようなわけで、待つこと数週間いよいよ請求書がやってきた!手持ちのブックレット(2014年版)には、Boston Children's HospitalはPartners Preferred Networkにはいっているので、請求されて食事代など保険でカバーされない部分だろうと思って開けてみると、

totalコストが1300ドル強(*)、そのうちPPOのDeductibleの250ドルが請求されていた。

腑に落ちないので、Blue Shield MAに電話で問い合わせてみると、結局Boston Children's HospitalはPartners Preferred Networkに去年まではいっていたのだけれど、今年から抜けてしまったのだそうだ。。

まあ普通Partnersにはいっている人の多くは若い世代が多いので、かかるとすれば子供の医療費!Boston Children's Hospitalがはいっていると、コストが大きすぎたのだろうか?何かケチな感じもします。。

ちなみに現在のPartners Preferred Networkにはいっている医療機関はこちら。いずれにせよ入院を何回かするとちょっと大変ですね!

(*)点滴もしてレントゲンもとったりしたので、もうチョイあるかと思いきやこのくらいに抑えられていた。たった二日でこんな感じなので、2週間も入院すれば一財産くらいのお金は請求されそうである。やはりアメリカの医療制度は怖い!!