藤澤先生から
Opteron Magny-Cours 2.4GHz 12x4コアのマシンをアクセスさせてもらった。そこで、Rgemm dd のベンチマークをとってみた。
今回は、gccを用いた。Intel ComposerはAMDの石ではパフォーマンスが出ない可能性があるため、それを比較するためである。
* マシン:AMD Opteron Magny-Cours 2.4GHz 12x4 = 48 cores
* MPACK 0.7.0 (SVN)
* gcc 4.6.3
* reference implementation + openmp
* Rgemm (dgemm like routine), すべて正方行列、初期値はランダムな行列。
* スレッド数は1,2,4,8,16,...など変えた
ピークパフォーマンスが、3.5GFlopsから3GFlopsまで落ちている。行列のサイズが大きくなるとほぼ同様のパフォーマンス下落がみられた。
Opteron Magny-Cours 2.4GHz 12x4コアのマシンをアクセスさせてもらった。そこで、Rgemm dd のベンチマークをとってみた。
今回は、gccを用いた。Intel ComposerはAMDの石ではパフォーマンスが出ない可能性があるため、それを比較するためである。
* マシン:AMD Opteron Magny-Cours 2.4GHz 12x4 = 48 cores
* MPACK 0.7.0 (SVN)
* gcc 4.6.3
* reference implementation + openmp
* Rgemm (dgemm like routine), すべて正方行列、初期値はランダムな行列。
* スレッド数は1,2,4,8,16,...など変えた
ピークパフォーマンスが、3.5GFlopsから3GFlopsまで落ちている。行列のサイズが大きくなるとほぼ同様のパフォーマンス下落がみられた。
※コメント投稿者のブログIDはブログ作成者のみに通知されます