TSUBAME 2.0 上での SDPARA

2011年11月28日 20時36分44秒 | Weblog

現在、TSUBAME 2.0 のような CPU + GPU 構成のマシンで動作する SDPARA の開発を行っている。まず TSUBAME 2.0 の仕様や性能は以下の通りになる。

◯東工大 TSUBAME 2.0
HP Proliant SL390s G7 1408台
HP Proliant SL390s G7
CPU: Intel Xeon 2.93GHz 6コア×2ソケット = 12コア(Hyperthreading時 = 24コア)
GPU: NVIDIA Tesla M2050 3GPU
Memory: 54GB (一部は96GB)
SSD: 120GB (一部は240GB)
ネットワーク: QDR InfiniBand x 2 = 80Gbps

◯１ノードあたりの性能（倍精度)
CPU 140GF(2.93GHz) + GPU 1545GF = 1685GF
CPU 153GF(3.2GHz : TB) + GPU 1545GF = 1698GF

ここでは以下の超巨大 SDP を解くと仮定して、性能見積りを行ってみる。

これまでの実験結果から、この種の問題を解く際には Cholesky 分解の実行時間が全体の実行時間のほとんど(95%以上)を占めると予想される。また、これまで実験から反復回数を 40 回と仮定する。このとき Cholesky 分解に必要な計算量とメモリ量は以下の通りである。

◯計算量 : 6.0291e+17 FLOP
◯メモリ量： 1.35Tbytes(実際には２倍近くかかる)

以下の仮定１と仮定２を比べると CPU + GPU と CPU の比率は 10 倍以上となる。かなり粗めの計算なので値は参考程度に。ちなみに現在 TSUBAME 2.0 で開発中の Cholesky (CPU + GPU)の性能効率は 25% 程度になる。

◯仮定１：ノード数 1350, Cholesky 分解(CPU + GPU)性能効率 40%
このときの計算能力は 1350 * 1698(GF) * 0.40 = 9.1692e+14 FLOPS なので、6.0291e+17 / 9.1692e+14 * 40 = 約 26,300秒

◯仮定１：ノード数 1350, Cholesky 分解(CPU)性能効率 40%
このときの計算能力は 1350 * 153(GF) * 0.40 = 8.2620e+13 FLOPS なので、6.0291e+17 / 8.2620e+13 * 40 = 約 291,900秒

◯仮定３：ノード数 1350, Cholesky 分解(CPU + GPU)性能効率 25%
1350 * 1698(GF) * 0.25 = 5.7308e+14 FLOPS なので、6.0291e+17 / 5.7308e+14 * 40 = 約 42,082 秒

◯仮定４：ノード数 300, Cholesky 分解(CPU + GPU)性能効率 40%
300 * 1698 * 0.40 =　2.0376e+14 FLOPS なので、6.0291e+17 / 2.0376e+14 * 40 = 約 118,360 秒

« Graph500 November 2011 の結... | トップ | HOKKE-19 : グラフ処理 »

このブログの人気記事

最新の画像［もっと見る］

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

アクセス
閲覧	689	PV
訪問者	400	IP
トータル
閲覧	5,061,219	PV
訪問者	1,296,677	IP

	【gooブロガー・先着】dアカウント連携でdポイント2,000pt
	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

最適化問題に対する超高速＆安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心