最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

某スパコンと SDPARA その5

2010年03月25日 23時07分54秒 | Weblog
以前の SDPARA の論文(計算機環境は今日と大きく異なるが)や近日中に発表する SDPARA の論文では、
1:Schur complement 行列の計算(F1, F2, F3 式)は scale up しやすい
2:Parallel Cholesky 分解(ScaLAPACK による)は、1と比べると scale up しない。
という性質がある。これらの結果等から考察すると某スパコンでは F3 式の計算時間がもう少し速くなってもいいはずである。このシステムでは AMD Opteron(Barcelona) の 4-way なので、合計で 16 コアあるのだが、メモリや L3 キャッシュの性能を考えると、同時に使用するコア数はもう少し減らした方が良いかもしれない。しかし、Intel Xeon 系はコア数を最大まで使っても SDPA(SDPARA)では性能が上がることが多い。というわけで、やはり Intel 系の方がお薦めである(金額は高めだが)。

○ソフトウェア : SDPARA 7.3.2
○実験結果

SDPA クラスタ
16プロセス x 8スレッド : 4004.9s(24反復 : pdOPT)
F3 式計算時間 = 2625.7s, 65.6%
Cholesky 分解計算時間 = 1601.2s, 40.0%

某スパコン
128プロセス x 16スレッド : 1770.8s(24反復 : pdOPT)
F3 式計算時間 = 957.7s, 54.3%
Cholesky 分解計算時間 = 509.9s, 28.9%


○ SDPA クラスタ
16 Nodes, 32 CPUs, 128 CPU cores;
CPU : Intel Xeon 5460 3.16GHz (quad cores) x 2 / node
Memory : 48GB / node
NIC : GbE x 2 and Myrinet-10G x 1 / node
OS : CentOS 5.4 for x86_64

○ 某スパコン
128 Nodes, 512 CPUs, 2048 CPU cores; (今回使用した分のみ)
CPU : AMD Opteron 8356 2.3GHz (quad cores) x 4 / node
Memory 32GB / node
NIC : GbE x 2 and Infiniband x 4 / node
OS : RHEL 4.x for x86_64
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする