あなたにもできる!ハーバード留学!!~アラフォーからのボストン留学体験記

アラフォー研究者のボストン留学体験ブログ。
研究・生活・英語・ITを中心に留学ライフハックスをお教えします!

ハーバード留学IT2年目編003:連続量のphenotypeラベルを使ったGSEA

2014-05-11 11:43:36 | ハーバード留学IT2年目編
そんなに詳しいわけでもないのだけれど、ウエット系のラボなので周りもバイオインフォマティックス的なことに関しては同レベルであり、アナログ系おっちゃんでも多少扱ったことのあるGene set enrichment analysis(GSEA)でも、使ったことがない人が多く、たまに聞かれる。ご存じのとおりGSEAは一般的にはある2群間を比較した時に、どちらかにあるGene set(平たく言うとgene signatureみたいなもの)が偏って含まれるかどうか調べる手法である(*)。

ただ素人の怖さというか、こういう場合結構知らないことを聞かれることも多く、人助けと思っていると自分が勉強になることも多い。

先日勉強になったケースは、

ある既存のマイクロアレーデータ(データーセット)(**)の中で、ある遺伝子Aの発現量の高い群と低い群を比較した時に、あるGene setとの間に相関があるかどうか調べたいというものであった。

ちょっと困ったのは基本的には、GSEAは2群にぴっちり分けたサンプル間(カテゴリカル)の遺伝子発現の差とGene setの相関をみるものである(***)。データーセットをエクセルなどを使い遺伝子Aの低い順から高い順に並べ替えることはできるものの、ここで問題となるのは、遺伝子Aの発現量の高い群と低い群に分けるカットオフ値をどうするか、実際的にはPhenotypeラベルをどうするかという問題である。

マイクロアレーデーターによっては個々のサンプルのphenotype(悪性腫瘍の再発の有無など)がわかっており、カットオフ値を簡単に決められるものも少なくない。ただ問題はそういった情報が使えないとき、どうカットオフ値を決めればよいかである。

基本的にはROC曲線を書いて、Gene setとの相関がよくでるところと、p値がすくないところでカットオフ値を決めるしかないのかなと思いつつ、何となく重労働な気がして、困ってしまった。

そんな時ふとGSEAのclsファイルのマニュアルを見ていると、なんと遺伝子発現量とかタイムポイントとかの連続量でもGSEAのPenotypeラベルとして使えることが分かった(****)。

これは目からうろこで、すごいと感動してしまった。
以前ノーベル物理学賞を受賞したファイマンさんの伝記(*****)を読んでいた時に、ファイマンさんが並列型コンピューターの機能を解析するのに、その当時コンピューター学者の間では離散的な方程式で解析するのが多かったのを連続量の方程式で表し驚かれたという記事が心に留まったことがあった。また違うのだろうけど、このGSEAもカテゴリカルな処理をしないといけないと思っていただけに、おじさんびっくりである!!

ちなみに実際この連続量のclsファイルを使った解析をするには、統計量(metrics for ranking genes)がPearson等でないといけないらしく(******)、この場合にはGSEAのダウンロード版でなく、gene patternサイトにあるオンライン版でないと解析できない。

ちなみに下図はお試しでやってみたものであるけれど、遺伝子Aの発現量の高さとGene set Xとの相関が出せて感動的である。

これでタイムコースをとったようなアレーデータも解析可能なことが分かったし、かなり勉強になった。




(*)微妙に言い回しがちがっているかもしれないけれど、詳しくはここを参照のこと。

(**)データーセットはGEOサイトなどから取ってきてね。

(***)実際的には、A群とB群を比較したい場合、データーセットのうちどこからどこまでがA群でどこからどこまでがB群かを指定するphenotype label(clsファイルとして指定)をどう記述するかにかかわってくる。

(****) GSEAのclsファイルのマニュアルによると、連続量のphenotypeラベルのフォーマットは以下のようになる。

Continuous phenotypes are used for time series experiments or to define the profile of a gene of interest (gene neighbors). A CLS file that defines continuous labels can contain one or more labels. The following example shows a CLS file that defines two continuous labels:

#numeric
#AFFX-BioB-5_st
206.0 31.0 252.0 -20.0 -169.0 -66.0 230.0 -23.0 67.0 173.0 -55.0 -20.0 469.0 -201.0 -117.0
-162.0 -5.0 -86.0 350.0 74.0 -215.0 193.0 506.0 183.0 350.0 113.0 -17.0 29.0 247.0 -131.0
358.0 561.0 24.0 524.0 167.0 -56.0 176.0 320.0
#AFFX-BioDn-5
75.0 142.0 32.0 109.0 -38.0 -80.0 62.0 39.0 196.0 -42.0 199.0 49.0 171.0 327.0 115.0
-71.0 85.0 80.0 270.0 182.0 208.0 -94.0 292.0 233.0 34.0 0.0 59.0 233.0 48.0 466.0 -7.0
-96.0 297.0 38.0 208.0 -15.0 30.0 357.0

The first line contains the text "#numeric" which indicates that the file defines continuous labels.

The remainder of the file defines the continuous phenotypes. For each phenotype:

The first line defines the name of the phenotype; for example, #AFFX-BIOB-5_st.

The second line contains a value for each sample in the .gct file. Typically, your word processor wraps the second line of the phenotype definition, as shown in the example.

(*****)もう絶版の様ですが、「さようならファインマンさん」は素敵な本でした。

(******)マニュアルによると
Pearson, Cosine, Manhattan, Euclideanとあるらしいけれども
以下のように基本的にはPearsonを選んでおけばよいようである。
Pearson is the only metric that does not require the two profiles to use the same unit of measure; therefore, Pearson is the only metric that can be used with a time series phenotype. For the same reason, of the continuous phenotype metrics, Pearson is the most useful for analyzing categorical phenotypes.

最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。