あなたにもできる!ハーバード留学!!~アラフォーからのボストン留学体験記

アラフォー研究者のボストン留学体験ブログ。
研究・生活・英語・ITを中心に留学ライフハックスをお教えします!

アラフォーからのハーバード留学IT編009:VMplayer フリーズ!!とその対処

2013-09-29 01:30:57 | アラフォーからのハーバード留学IT編
 Linux(Ubuntu)がVMplayerごとフリーズしてしまった。原因はRNA-seqデータ解析用のbowtieインデックスを作っている最中(これが結構時間がかかり24時間くらいたってもまだやっている。。)、ゲストOSをサスペンドしようとして設定を保存している途中にフリーズしてしまった。

 VMplayerを止めようとしている最中なので、さらにパワーオン状態になったままで、パワーオフすることができない。

1)仮想マシン側でCTRL+ALT+DELTEをする時の方法Control+Alt+insertをためすが、効かない。
 
 2)CTRL+ALT+DELTEをおしてタスクマネジャーをだし、VMplayerを強制的に終了させるが、VMPlayerを再度立ち上げると、「仮想マシンはビジー状態です」というエラーがでてubuntuが立ち上がらない。(*)

 3)ホストを再起動して、VMplyerを立ち上げるが、一度ubuntuが立ち上がるが再度フリーズ。。(**)

 4)ホストを再再起動してVMplyerを立ち上げようとしるが、「パワーオン中にエラーが発生しました」のメッセージがでて立ち上がない(***)
 
 5)googleでエラーメッセージを検索、ivystarさんのVMware Authorization Serviceが停止している場合の対処方法を参考に、

 windowsのスタートメニューから「コントロールパネル」を選択し、

「表示方法」が「小さいアイコン」となっている場合は一覧の中から「管理ツール」をクリックし

「サービス」をクリックしてサービスウィンドウを開く

さらに一覧から「VMware Authorization Service」を探し、プロパティを開く、

 参考ブログには「するとサービス状態が「停止」になっています」とあるが実際はなぜか起動中になっていた。
 
 ものはためしというか最悪再インストールだなと思い、

  ここを一度停止させ「開始」ボタンを押して起動させた。
  
  そして、あとはいつも通りVMware Playerを起動して仮想マシンを起動すれば。。

 
なんと、Ubuntuがもどってきた。そのあとは通常に機能している。


(*)OKwaveでは結構みんないい加減なことを答えている

(**)「再起動はホスト側のPCを壊す可能性があり出来れば避けたく思っています」という意見もあっておっちゃんはビビるが、「bowtieごときでホストPCがこわれるはすがねー」と強気に強制終了(笑)

(***)「パワーオン中にエラーが発生しました」のエラーの場合gooleった感じだと、VMware Authorization Serviceが起動していないことがほとんどのようである。似たようなサスペンド時のエラーの報告もある。今回のようにVMware Authorization Serviceが停止していなかった場合も、このサービスを一度停止して再度開始するとOKなのかどうかはわからないが。。
このあたりが素人の強さである。

アラフォーからのハーバード留学英語編030:電車が遅延していますってどういう?

2013-09-27 18:04:21 | アラフォーからのハーバード留学英語編
 ボストンの地下鉄は時間通りに来ないのはいうまでもないが、たまに故障などですごく遅れる。
 そんな時は車内放送がかかる、ワード単位で聞き取り大体の意味はわかるのだが、実際はどのようにいっているのだろうか?

 たとえば今日のMBTAのサービスアラート(日々かわります)をみてみると

 Green Line D branch experiencing minor eastbound delays due to disabled train at Riverside Station.

 遅延が発生しています:experiencing delays

 っていうのが日本人の感覚では何か新しい(experienceなんだ)。

 あと遅延は可算名詞であることもちょっと驚きである。

 

アラフォーからのハーバード留学研究編011:とまどいのsra -> fastq変換

2013-09-26 13:09:11 | アラフォーからのハーバード留学研究編
 手持ちのデータだけだと面白くないので、RNA-seqデータをデータベースから入手してみることとした。最近ではNCBIのSequence Read Archive (SRA)サイトに落ちているようで、検索すれば望みのデーターがある程度はそろっている。

 ただ問題なのはファイル形式がSRAファイルとなっており、解析するためにはこれをfastaqファイルに変換しないといけないことだ。この変換にはNCBIの提供するsra-toolkitをダウンロードする必要がある。

 普通はWolfearさんのサイトを参考にして、

$ tar zxvf sratoolkit.2.3.3-3-ubuntu64.tar.gz

と展開すればよいのだろうが、実際にsra->つかうfastq-dumpを動かすべく

 $ sratoolkit.2.3.3-3-ubuntu64/bin/fastq-dump 

とやってみるがコマンドがありませんとエラーが出る。
よくよく見ているとUbuntuが32ビット版だったようで動かないようである(アホくさ)。

32ビット用sra toolkitをみつけて、ダウンロードする。

これは[Arch] debパッケージを展開するを参考に

 $ ar vx sra-toolkit_2.1.7a-1ubuntu2_i386.deb

とやったのち

 $ tar xvf data.tar.gz

で展開できるが、libraryのpathがうまくとおっていないらしく、またしてもfastq-dump
をすると

 error while loading shared libraries: libsradb.so.3: cannot open shared object file: No such file or directory

というエラーがでる

  Help with libsradb.so.3 error in SRA Toolkitにでてくる対処法を試すが、効果なし。。。(*)


まあド素人オッチャンの限界である。

あきらめてwindows版をダウンロードして、これでsra->fastq変換を行う。
Lhaplusか何かで解凍すると、sratoolkit.2.3.3-3-win64というフォルダができる。その中のbinフォルダの中に、fastq-dumpというアイコンがあるのでこれにsraファイルをドラッグ&ドロップすると解析が始まる。
これはスムースに行くようである。何ともやはり素人にはwindows+Linuxのシステムにしておくことが不可欠である。(**)


(*)
$ find / - name 'libsradb*' -printと

findでしらべても、lisradbが usr/libの中にないようである。

結局ライブラリもダウンロードが必要である。

$ wget http://mirrors.kernel.org/ubuntu/pool/universe/s/sra-sdk/sra-toolkit-libs0_2.1.7a-1ubuntu2_i386.deb

$ ar vx sratoolkit-lib*

として解凍し

さらに

$ tar zxvf control*
$ tar zxvf data*

とすると共有ライブラリの中にlibsradb.so.3がインストールされる。

$export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/PC name/usr/lib/

Help with libsradb.so.3 error in SRA Toolkitにならってパスを通すと、一応sratoolが使えるようになる。


(**)問題ないが結構時間がかかる。
なおwindows版は、Wolfearさんのサイトも指摘している通り、ペアエンドの場合も一つのファイルになってしまうため、ペアエンドのデーターの場合は使えないことに注意。

アラフォーからのハーバード留学生活編022:キッパとイノベーションについて考える

2013-09-26 12:41:32 | アラフォーからのハーバード留学生活編
                

 今住んでいる場所の近くにはユダヤ人の方が多く住んでおられ、男性は小さなお子さんから成人した方まで、小さい帽子のようなもの(というかお椀のようなもの)を頭にピンでとめておられる。女の子も白くビーズでデコレーションした同じような帽子をかぶっているのを目にするが、数としては少ない(これは違うタイプのものなのかもしれない)

 調べてみるとこれはキッパ、もしくはキッパーと呼ばれるもので、ユダヤ教徒に特有のもので頭上に神がいることを表すというか意識するものらしい。俗説では河童のお皿のモデルになったのではという話もあるようである。

 このキッパ、宗教的な意味合い以外にも実利的な意味があるかもしれないと考えたりする。最近読んでいたビジネス本「非常識な成功法則【新装版】」の中に、集中力を高める方法として後頭部の後ろの方に意識をもっていく、後頭部の上の方から自分を俯瞰するようなトレーニング(後頭部にミカンを意識するので別名ミカン・トレーニングというらしい)のことが載っていた。スポーツ選手などが行っておりある程度効果的な方法であるが、キッパを日常的にかぶって、後頭部に神を意識するということは、このようなトレーニングを日常的に行っていることかもしれない。

 カプセル内視鏡、太陽電池自動車(*)などイスラエルの技術系ベンチャーの優秀性をうたったアップル、グーグル、マイクロソフトはなぜ、イスラエル企業を欲しがるのか?によると、真にイノベーティブな技術はイスラエル発のものが多く、表題のようにアップル、グーグル、マイクロソフトなどグローバルなIT企業がイスラエルのベンチャーの技術をほしがっているのだとか。同書によるとその秘訣はイスラエル軍との関連によることがクローズアップされいたが、意外とキッパによるミカントレーニングが効いているのかもしれない。イノベーションの秘密はあの帽子かもしれない。。

(*)イスラエル発太陽電池自動車ベンチャー、ベタープレイスは残念ながら今年清算したらしい。
 

アラフォーからのハーバード留学研究編010:ド素人(ウエット系)のcufflinks解析(2)

2013-09-25 11:22:36 | アラフォーからのハーバード留学研究編
 前のブログアラフォーからのハーバード留学研究編009:ド素人(ウエット系)のcufflinks解析(1)で、染色体情報と発現情報を比べるcuffcompareについてのべた。

 それ以外にも複数のRNA-seqを比較する方法であるcuffdiffも非常に有用である。大概は実験群とコントロール群の比較をすることがおおいので、こちらの方が重要かもしれない。
 
 基本的には
$cuffdiff (オプション)reference.gtf sample1.bam, sample2.bam,...., sampleN.bam control1.bam, control2.bam...controlM.bamのように行うとよい。((*)でのべるようにカンマ、スペースの区切り方を勘違いして痛い目にあった。この例が正しい)

オプションの部分はなくても動くが、アウトプットフォルダを決めたりやサンプルの名前を入力できたり、した方がよいので、オプションの指定方法についてもマニュアルを見ておいた方がよいかもしれない。

主なものは

-p コンピューターのコア数
-o output folder
-L label1, label2...

くらいであるが。。

トーシローバイオロジストとしてはpathとかうつの面倒なので(オイオイ)、

sharedフォルダにうつって(cd /mnt/hgfs/shared)

$cuffdiff -o results -L condition1,condition2 Mus_musculus_UCSC_mm9.gtf condition1.bam, condition2.bam

とおこなった。-Lのオプションにバグがあるのか(*)、マニュアル通りしていすると

Error: number of labels must match number of conditions

というバグが出る。


質問サイトだと、bamファイル指定部分のコンマの後のスペースを抜くべしと書いてあるが、これは無効である。ラベル指定部分のコンマの後のスペースを除くと動いた。

これが終わると、resultsフォルダには

cds_exp.diff
cds.diff
cds.fpkm_tracking
gene_exp.diff
genes.fpkm_tracking
isoform_exp.diff
isoforms.fpkm_tracking
promoters.diff
splicing.diff
tss_group_exp.diff
tss_groups.fpkm_tracking

というファイルが出来ている。

これらのファイルはエクセルで読むことができるので、
そのあとは有意な発現(FPKM>1など)をしている遺伝子の中から、表計算で処理して興味深い遺伝子をとってくるもよし、いろいろいじるのもよしである。
これまでの解析だとisoformの情報うまく処理されておらず、いじれなかったのでちょい楽しみである(**)。

またもう少し統計的に凝ったいじり方をする場合にはRとそれに基づいたソフトウエアパッケージである
cummeRboundやEdgeRなどを利用すると良いようである。

現在これについては検討中である(***)。こうご期待!!

(*)ラベルなしにすると正常に動いているようなので
よくよく調べてみると、
インプットファイルはsample, control の順番にファイルを指定し、replication しているサンプルをコンマで区切り、sample と control の区切りはスペース文字である(このあたりが紛らわしい)が、ラベルは一つ一つカンマで区切るとのことであった。
正しくは $cuffdiff -o results -L condition1,condition2 Mus_musculus_UCSC_mm9.gtf condition1.bam condition2.bam
と指定すべきなのであった(恥ずかしい。。)

(**)最近DNMT3のisoformの制御がESの機能に重要とかいう報告がでているようである。
Cell. 2013 May 23;153(5):1149-63

(***)以下のサイトで研究中である。両方ともRというかオブジェクトの雰囲気がわからないとつらそうである(汗)特に完璧を目指すとつらそうなので、おっちゃんはぼちぼちいきます。
牧場の朝さんのRでNGSデータ(RNA-Seqによる発現データ)を可視化する
二階堂愛さんのRとBioconductorでNGS解析: 2限 RNA-seq データ解析