最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

TSUBAME 2.0 上での SDPARA

2011年11月28日 20時36分44秒 | Weblog
現在、TSUBAME 2.0 のような CPU + GPU 構成のマシンで動作する SDPARA の開発を行っている。まず TSUBAME 2.0 の仕様や性能は以下の通りになる。

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯1ノードあたりの性能(倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF

ここでは以下の超巨大 SDP を解くと仮定して、性能見積りを行ってみる。



これまでの実験結果から、この種の問題を解く際には Cholesky 分解の実行時間が全体の実行時間のほとんど(95%以上)を占めると予想される。また、これまで実験から反復回数を 40 回と仮定する。このとき Cholesky 分解に必要な計算量とメモリ量は以下の通りである。

◯計算量 : 6.0291e+17 FLOP
◯メモリ量: 1.35Tbytes(実際には2倍近くかかる)

以下の仮定1と仮定2を比べると CPU + GPU と CPU の比率は 10 倍以上となる。かなり粗めの計算なので値は参考程度に。ちなみに現在 TSUBAME 2.0 で開発中の Cholesky (CPU + GPU)の性能効率は 25% 程度になる。

◯仮定1:ノード数 1350, Cholesky 分解(CPU + GPU)性能効率 40%
このときの計算能力は 1350 * 1698(GF) * 0.40 = 9.1692e+14 FLOPS なので、6.0291e+17 / 9.1692e+14 * 40 = 約 26,300秒

◯仮定1:ノード数 1350, Cholesky 分解(CPU)性能効率 40%
このときの計算能力は 1350 * 153(GF) * 0.40 = 8.2620e+13 FLOPS なので、6.0291e+17 / 8.2620e+13 * 40 = 約 291,900秒

◯仮定3:ノード数 1350, Cholesky 分解(CPU + GPU)性能効率 25%
1350 * 1698(GF) * 0.25 = 5.7308e+14 FLOPS なので、6.0291e+17 / 5.7308e+14 * 40 = 約 42,082 秒

◯仮定4:ノード数 300, Cholesky 分解(CPU + GPU)性能効率 40%
300 * 1698 * 0.40 = 2.0376e+14 FLOPS なので、6.0291e+17 / 2.0376e+14 * 40 = 約 118,360 秒

コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« Graph500 November 2011 の結... | トップ | HOKKE-19 : グラフ処理 »
最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

Weblog」カテゴリの最新記事