SDPA 内部のマルチスレッド化その４

2009年12月29日 15時45分40秒 | Weblog

前回の SDPA に関する数値実験で何故２４コアもある計算サーバ１が８コアの計算サーバ２に負けるのかという問題があるので、もう少し詳しく調べてみた。

ソフトウェア
○: SDPA 7.3.2β : GotoBLAS2 1.09 + MUMPS 4.9.2

○計算サーバ１
CPU : AMD Opteron 8439 (2.80GHz / 6MB L3) x 4
Memory : 128GB (32 x 4GB / 800MHz)
gcc : 4.4.2
OS : Fedora 12 for x86_64
環境変数 : OMP_NUM_THREADS = 24

○計算サーバ２
CPU : Intel Xeon 5550 (2.66GHz / 8MB L3) x 2
Memory : 72GB (18 x 4GB / 800MHz)
gcc : 4.4.2
OS : Fedora 12 for x86_64
環境変数 : OMP_NUM_THREADS = 8

●問題１ : FH2+.1A1.STO6G.pqgt1t2p.dat-s
計算サーバ１ : 66.1s(30回) 24スレッド
計算サーバ２ : 96.4s(30回) 8 スレッド

F3 式の計算にかかる時間は
計算サーバ１ : 76.9s (24スレッド合計)
計算サーバ２ : 135.1s (8スレッド合計)
となっていて、これは明らかに CPU 数が４個あって、メモリチャンネルも多い計算サーバ１の方が有利になる。

●問題２ : mcp2000-01.dat-s
計算サーバ１ : 95.9s(16回) 24スレッド
計算サーバ２ : 46.2s(16回) 8 スレッド

例えば固有値計算などでは以下のような差が付いている。
計算サーバ１ : 14.7s (24スレッド合計)
計算サーバ２ : 5.4s (8スレッド合計)

●問題３ : thetaG51.dat-s
計算サーバ１ : 118.8s(28回) 24スレッド
計算サーバ２ : 83.6s(28回) 8 スレッド

F3 式の計算にかかる時間は
計算サーバ１ : 35.3s (24スレッド合計)
計算サーバ２ : 65.1s (8スレッド合計)
また Cholesky 分解にかかる時間は
計算サーバ１ : 66.9s (24スレッド合計)
計算サーバ２ : 43.4s (8スレッド合計)
となっている。

F3 式のようにコア単位で独立かつ並列に計算できる部分に関しては、Istanbul 24 コアが有利で、行列積のように全てのコアを用いて計算する場合には Nehalem-ep 8 コアの方が速い。

« 停電によるサーバ停止　１２... | トップ | SDPA 内部のマルチスレッド化... »

このブログの人気記事

最新の画像［もっと見る］

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

日	月	火	水	木	金	土
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

アクセス
閲覧	609	PV
訪問者	275	IP
トータル
閲覧	5,041,968	PV
訪問者	1,284,549	IP

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

最適化問題に対する超高速＆安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心