中田真秀(なかたまほ)のブログ

研究について、日常について、その他。

PubchemQC Project 100万分子突破!

2014-11-11 10:20:09 | 日記
PubchemQC Project 100万分子突破!
 1001704 molecules (excited states are available for 1001133 molecules) last updated : Tue Nov 11 01:16:45 JST 2014


PubchemQCプロジェクトについては、このまえCBI学会で話したスライドをslideshareにアップしたので参考にしていただきたい。

前回の10万分子突破はPubchemQC Project 10万分子突破! 116869分子2014/5/20だったので半年で10倍程度に増えたことになる。

ただしトリックはあって、今回は5000万程度の登録された分子及び混合物を一旦分子量の小さい順に並べなおして小さいものから説いてゆくということをしている。

* 一旦全てのpubchemのデータをダウンロード
* 全てマージして、分子量でソートを掛ける

ということである。分子量が小さい分子は計算が早く終るので(もちろん必ずしもそうではないが、普通に考えるとだいたい成立する)数を稼ぐにはよい。いずれにせよ、時間が経つに連れ計算機のリソースは増えるため(≒ムーアの法則)、非力なコンピュータで大きな分子を計算させて時間をロスするのはもったいない。

確かに、pubchemには低分子が多い。例えば、分子量100万分子目は、

$ head -1000000 Compound_sorted_list | tail -1
176.120846 69667152 InChI=1S/C6H6F2N2O2/c1-6(7,8)4-2-3(5(11)12)9-10-4/h2H,1H3,(H,9,10)(H,11,12)

たったの176である。これが200万に増えると

$ head -2000000 Compound_sorted_list | tail -1
201.18478 71385979 InChI=1S/C9H7N5O/c1-5-2-3-7-6(4-5)8(15)10-9-11-12-13-14(7)9/h2-4H,1H3,(H,10,11,13,15)

それでも200超えるくらいである。
では、1000万分子めは?

$ head -10000000 Compound_sorted_list | tail -1
278.38976 10826476 InChI=1S/C14H14O2S2/c1-17-12-7-10(8-13(18-2)14(12)16)9-3-5-11(15)6-4-9/h3-8,15-16H,1-2H3

それでも278分子量である。
2000万分子でも分子量が340程度ということが解る。

$ head -20000000 Compound_sorted_list | tail -1
343.8273 6935454 InChI=1S/C19H19ClN2O2/c1-13-5-7-16(8-6-13)22-18(23)12-17(19(22)24)21-10-9-14-3-2-4-15(20)11-14/h2-8,11,17,21H,9-10,12H2,1H3/p+1/t17-/m0/s1


300を超えるのは、1350万分子目程度である。

$ head -13491000 Compound_sorted_list | tail -1
300.083883 20565748 InChI=1S/C10H7BrFN3O2/c11-4-9-14-13-5-15(9)8-2-1-6(12)3-7(8)10(16)17/h1-3,5H,4H2,(H,16,17)


400を超えるのは、3000万分子くらいである。

$ head -30000000 Compound_sorted_list | tail -1
400.468023 40641246 InChI=1S/C25H22FN3O/c1-24(2,3)23(30)21-20(18-10-6-7-11-19(18)26)25(14-27,15-28)22-17-9-5-4-8-16(17)12-13-29(21)22/h4-13,20-22H,1-3H3/p+1/t20-,21-,22-/m1/s1


だいたい、100万分子で、500GバイトくらいHDDが必要である。df -hおよびdfの結果@pubchemqc.riken.jpは、

/dev/sdb1 2.7T 516G 2.1T 20% /data
/dev/sdb1 2884152536 540182108 2197440792 20% /data

となっていた。

今のリソースでは5000-10000分子/日程度であるが、RICCの運用が終了しHOKUSAIの運用が開始されたらどうなるかかなり不透明である。たとえばfireflyは動かないし(smashにしようと思っている)、GAMESSはpost FX10マシンでは無駄が多い。そして富士通に聞くと、HOKUSAIに入るジョブスケジューラーは1コアに2mpiプロセスを貼り付けることが出来ないみたいである。東大と同じらしい。なんでやねん。

HOKUSAIのベンチではpost fx10はsandybridge程度と結構善戦していてビックリだったのだが...

最新の画像もっと見る

コメントを投稿