あなたにもできる!ハーバード留学!!~アラフォーからのボストン留学体験記

アラフォー研究者のボストン留学体験ブログ。
研究・生活・英語・ITを中心に留学ライフハックスをお教えします!

ハーバード留学IT2年目編004:バイオ研究用お役立ちフリーソフトウエアをまとめてみた

2015-02-13 22:51:46 | ハーバード留学IT2年目編
近いうちにコンピューターを買い替えようと思っているので、移行がうまくいくように、今使っていて便利な研究で使えるお役立ちフリーソフトウエアをまとめてみました。

1)画像処理

GIMP2(photoshopに近い)
 
Fuji(Image Jのフルセット版)

あとフリーソフトではないが、
MATLABも重要である。

2)PDFファイル

primoPDF(PDFファイル印刷)

PDF Xchange Viewer(コメント機能でちょっとしたPDFへの書き込みが可能)

Mandely(PDFの文献管理ソフトとして便利)


3)ファイルの解凍圧縮


Lhaplus(ファイルの解凍圧縮はこれ一発で十分)

4)DNAシーケンス関連

APE(DNAシーケンスエディター。ちょっとしたことならこれでOK)

CLC Sequence viewr(多機能なソフト。タンパク配列のアラインメントもできるのが魅力)

Finch TV(DNA シーケンス生データーのviewer)

DNASTAR(まだ使ったとこないですが、NGSにも対応していて便利との話。ただしフルバージョンにはライセンスが必要)

4)RNA-seq関連

基本的にはVMplayer+ubuntu,Bowtie, R, cufflinksがまずは情報が多いのでおすすめである。
詳しくはネットブックで行うNGS解析002:ネットブックで行うRNA-seq(1)を。

最近ではisoform解析にMISO (Mixture of Isoforms)Sashimi Plot(isoformのデーターをIGWにプロットするソフト)が便利らしい。Pythonが必要なので、ちょっと勉強せねば。。

ちなみにbioinfomaticsやっている人の話だと(ボストン留学体験記参照)

① R
② Perl
③ Python


の3種が必要で、② Perl, ③ Pythonを学ぶにはcodeacademyがよいらしい。

Wikipediaの説明によると、codeacademyは

Codecademy はHTMLやCSSなどマークアップ言語及びPython、PHP、Javascript、Rubyなどのプログラミング言語関連のコーディング講座を無料で提供しているオンラインプラットフォームである。

2012年6月時点で5万人以上の利用者が1億件以上の演習を終えており、ニューヨークタイムズやTechCrunch[6]など多くのブログやウェブサイトから高評価を得ている。

利用者の参加を促すため、課題完了時のバッジ付与や合計点数を公開する機能があるほか、利用者が新しい課目を作成し公開することができる。

という感じらしい。日本語もあって面白そうである。ちょっと時間をみつけてやってみたい。

まだまだいろいろありそうですが、気が付き次第追加していきます!!

ハーバード留学IT2年目編003:連続量のphenotypeラベルを使ったGSEA

2014-05-11 11:43:36 | ハーバード留学IT2年目編
そんなに詳しいわけでもないのだけれど、ウエット系のラボなので周りもバイオインフォマティックス的なことに関しては同レベルであり、アナログ系おっちゃんでも多少扱ったことのあるGene set enrichment analysis(GSEA)でも、使ったことがない人が多く、たまに聞かれる。ご存じのとおりGSEAは一般的にはある2群間を比較した時に、どちらかにあるGene set(平たく言うとgene signatureみたいなもの)が偏って含まれるかどうか調べる手法である(*)。

ただ素人の怖さというか、こういう場合結構知らないことを聞かれることも多く、人助けと思っていると自分が勉強になることも多い。

先日勉強になったケースは、

ある既存のマイクロアレーデータ(データーセット)(**)の中で、ある遺伝子Aの発現量の高い群と低い群を比較した時に、あるGene setとの間に相関があるかどうか調べたいというものであった。

ちょっと困ったのは基本的には、GSEAは2群にぴっちり分けたサンプル間(カテゴリカル)の遺伝子発現の差とGene setの相関をみるものである(***)。データーセットをエクセルなどを使い遺伝子Aの低い順から高い順に並べ替えることはできるものの、ここで問題となるのは、遺伝子Aの発現量の高い群と低い群に分けるカットオフ値をどうするか、実際的にはPhenotypeラベルをどうするかという問題である。

マイクロアレーデーターによっては個々のサンプルのphenotype(悪性腫瘍の再発の有無など)がわかっており、カットオフ値を簡単に決められるものも少なくない。ただ問題はそういった情報が使えないとき、どうカットオフ値を決めればよいかである。

基本的にはROC曲線を書いて、Gene setとの相関がよくでるところと、p値がすくないところでカットオフ値を決めるしかないのかなと思いつつ、何となく重労働な気がして、困ってしまった。

そんな時ふとGSEAのclsファイルのマニュアルを見ていると、なんと遺伝子発現量とかタイムポイントとかの連続量でもGSEAのPenotypeラベルとして使えることが分かった(****)。

これは目からうろこで、すごいと感動してしまった。
以前ノーベル物理学賞を受賞したファイマンさんの伝記(*****)を読んでいた時に、ファイマンさんが並列型コンピューターの機能を解析するのに、その当時コンピューター学者の間では離散的な方程式で解析するのが多かったのを連続量の方程式で表し驚かれたという記事が心に留まったことがあった。また違うのだろうけど、このGSEAもカテゴリカルな処理をしないといけないと思っていただけに、おじさんびっくりである!!

ちなみに実際この連続量のclsファイルを使った解析をするには、統計量(metrics for ranking genes)がPearson等でないといけないらしく(******)、この場合にはGSEAのダウンロード版でなく、gene patternサイトにあるオンライン版でないと解析できない。

ちなみに下図はお試しでやってみたものであるけれど、遺伝子Aの発現量の高さとGene set Xとの相関が出せて感動的である。

これでタイムコースをとったようなアレーデータも解析可能なことが分かったし、かなり勉強になった。




(*)微妙に言い回しがちがっているかもしれないけれど、詳しくはここを参照のこと。

(**)データーセットはGEOサイトなどから取ってきてね。

(***)実際的には、A群とB群を比較したい場合、データーセットのうちどこからどこまでがA群でどこからどこまでがB群かを指定するphenotype label(clsファイルとして指定)をどう記述するかにかかわってくる。

(****) GSEAのclsファイルのマニュアルによると、連続量のphenotypeラベルのフォーマットは以下のようになる。

Continuous phenotypes are used for time series experiments or to define the profile of a gene of interest (gene neighbors). A CLS file that defines continuous labels can contain one or more labels. The following example shows a CLS file that defines two continuous labels:

#numeric
#AFFX-BioB-5_st
206.0 31.0 252.0 -20.0 -169.0 -66.0 230.0 -23.0 67.0 173.0 -55.0 -20.0 469.0 -201.0 -117.0
-162.0 -5.0 -86.0 350.0 74.0 -215.0 193.0 506.0 183.0 350.0 113.0 -17.0 29.0 247.0 -131.0
358.0 561.0 24.0 524.0 167.0 -56.0 176.0 320.0
#AFFX-BioDn-5
75.0 142.0 32.0 109.0 -38.0 -80.0 62.0 39.0 196.0 -42.0 199.0 49.0 171.0 327.0 115.0
-71.0 85.0 80.0 270.0 182.0 208.0 -94.0 292.0 233.0 34.0 0.0 59.0 233.0 48.0 466.0 -7.0
-96.0 297.0 38.0 208.0 -15.0 30.0 357.0

The first line contains the text "#numeric" which indicates that the file defines continuous labels.

The remainder of the file defines the continuous phenotypes. For each phenotype:

The first line defines the name of the phenotype; for example, #AFFX-BIOB-5_st.

The second line contains a value for each sample in the .gct file. Typically, your word processor wraps the second line of the phenotype definition, as shown in the example.

(*****)もう絶版の様ですが、「さようならファインマンさん」は素敵な本でした。

(******)マニュアルによると
Pearson, Cosine, Manhattan, Euclideanとあるらしいけれども
以下のように基本的にはPearsonを選んでおけばよいようである。
Pearson is the only metric that does not require the two profiles to use the same unit of measure; therefore, Pearson is the only metric that can be used with a time series phenotype. For the same reason, of the continuous phenotype metrics, Pearson is the most useful for analyzing categorical phenotypes.

ハーバード留学IT2年目編002:Ubuntuでインターネット接続できないときの対処法

2014-05-11 10:13:43 | ハーバード留学IT2年目編
最近PCの調子が悪くて、システムを一度復元した。その後いろいろなソフトウエアを入れなおさないと行けず、Ubuntu(Linux)もその一つだった。
Ubutuoを入れた直後は、問題なくパッケージのインストールも
sudo aptitude install

sudo apt-get install
でうまくいっていたのだけれど、しばらくしてからほかのパッケージを入れたくなってインストールしようとすると全くこれらのコマンドが効かなくなり、
UbuntuのサイトやSourceForgeのサイトが見つからないとのエラーメッセージがでてくる(*)。

エラーメッセージを頼りに検索してみると、どうやらUbuntuからインターネット接続がうまくいかない状況になっていたらしい(**)。確かに右上の扇形のネットワークアイコンも白抜きになっている。

調べたサイト「よまの間:ubuntu 12.10 アップデート後にネットワークに接続できない問題」 によると、ネットワークマネージャーという設定ファイルの設定がおかしくなってしまったために、ネットワークに接続できなくなったようだ。

こうなった時の対処法を同サイトを頼りに(***)

> cd /etc/NetworkManager
とし
>less NetworkManager.conf
としてネットワークマネジャーのファイルを読んでみると、

確かに同サイトの言うとおり

[ifupdown]セクションmanagedの値が次のようにfalseになっている

[ifupdown]
managed=false

このfalseの部分をtrueに書き換えればよいらしい。
でもどうやって?ワードなどでファイルをつくって書き換えようにもうまくいかない。

いくつか調べるとviエディターをつかってやるのが一番手っ取り早いらしい。例えばUbuntuのupsplash.confやinetd.confを編集しようとすると書き込み禁止となっている...などを参考に

> sudo vi NetworkManager.conf

ただこのviエディターが曲者で、まったく直感的にできておらず、四苦八苦して、

[ifupdown]
managed=true

とできた。
参考にしたviエディターサイトは、viエディタの使い方がよかった。

これをやってから、右上の扇方の部分をクリックして無線LANをオンにするとUbuntuでインターネットにつながり、パッケージのインストールもできた。

やはり初心者にはハードルが高い。

(*)あとで実際のエラーメッセージ入れます。
(**)面白いことにwindowsからのインターネット接続はうまくいっているのですが。。
(***)アナログ系アラフォーオッチャン的対処法(笑)

ハーバード留学IT2年目編001:FACSクラスタリングソフト SPADEをつかってみる

2014-04-24 13:56:09 | ハーバード留学IT2年目編
                

以前から気になっていたのだけれどStanfordのGarry Nolan研で開発されたFACSやMassデーターのクラスタリングソフトSPADEがあった。FACSのデーターを樹形図に変えてくれ、場合によっては新たな細胞の集団が見いだせるという非常にパワフルなツールだ。

まだ日本にいたころにNature Biotechnologyで読んで非常に興味を持っていたのだけれど、知識がなくて手が出なかった。

つい最近これがここからダウンロードできると死って試してみた。
インストールも簡単といいたいところであるが、場合によっては結構難航する。

注意点は
1)Rのバージョンアップごとに互換性がないこともあり、3.0以上であるものが推奨されるもののどれがよいかわからない。一応3.0.1は動いている。

2)RのバージョンによってはBioconductorのアップグレードをした方がよいこともある(igraph0を利用するバージョンであれば、Bioconductorをアップグレードした方がよい)

>source("http://bioconductor.org/biocLite.R")
>biocLite("BiocUpgrade")

でよいよいと思いますが、場合によって大量のアップグレードが必要になることもあり要注意です。

3)Rはwindows7の場合管理者として実行(Rのアイコンを右クリックするとでてくる)しないといけない

4)Cytoscapeは2.8.Xで、最新版のCytoscape 3.0では適切に動かない

5)同じようにインストールしても、PCによってうまく動かないことがある(*)

である。

幸運なことに一番最初に行ったインストールはなぜかうまくいき、何とかこのシステムをつかうことができた。



上図のようにFACSデーターをクラスタリングするとそれっぽいデーターになる。次はこれが何を意味するのかが問題であるが、意外とうまくFACSの抗体を選んでやらないと情報不足で、クラスタリングの樹形図の各枝が何を意味するのかまったく不明である(**)。

使い勝手が良いんだか、悪いんだかといったソフトである。バグも多いし。。
まっつ今後の研究課題でしょうか?

(*)この原因はよくわからないが、なぜかCytoscapeとRが連動しない。何かのバグっぽいのだけれど。
(**)上図はマウス骨髄細胞のFACSデーターをもとにしている。c-kit抗体の染色をみており、赤い部分がc-kit陽性の細胞群なのでおそらくHSPCといった集団がこの部分にクラスタリングされているということだと思うのであるが、あとの枝の部分は何を意味するのか分からない部分も多い。論文にでてくるように都合よくいかないものである。

また以下の図が、SPADEの論文のサプリメントにあるマウス骨髄細胞のFACSデータをもとに新たにSPADEで解析させてみた図である。ぱっとやってみた感じでは、論文の図とはだいぶ異なる図になる。このあたりももう少し検討が必要である。