SDPARA のマルチスレッド化の効果の目安として、以下のマシンで SDPA のマルチスレッド化の効果を見てみる(マルチスレッド化のアルゴリズムはほぼ同じなので)。もともと高速ということもあるのだが、Core i7 のマルチスレッド化の効果が低い。またクロック周波数を考慮すると Opteron が健闘しているのがわかる。高いバンド幅(20GBytes/sec. 以上)と共有3次キャッシュという似た特徴を持つ Core i7 と Opteron だがマルチスレッド化の効果は随分と異なっている。
○実行マシン1:AMD Opteron 2384 (2.7GHz) : メモリ 32GB : CentOS 5.2 for x86_64
○実行マシン2:Intel Core i7 965(3.2GHz) : メモリ 12GB : Fedora 10 for x86_64
○実行マシン3:Intel Xeon 5460 (3.16GHz) : メモリ 48GB : CentOS 5.2 for x86_64
○SDPA 7.2.1.?? + GotoBLAS 1.29 + MUMPS 4.8.3 (4 スレッド : OMP_NUM_THREADS=4)
○実験データ
mDIM = 24503
nBLOCK = 3
bLOCKsTRUCT = 153 153 324
CH4.1A1.STO6G.noncore.pqg.dat-s
○マシン1
SDPA 7.2.1. : 107m34.239s(22反復) = 4.87m / 反復
SDPA 7.2.1.rev7 : 76m53.589s(26反復) = 2.94m / 反復
高速化率 = 4.87 / 2.94 = 1.66倍
○マシン2
SDPA 7.2.1 : 73m33.111s(25反復) = 2.93m / 反復
SDPA 7.2.1.rev7 : 51m55.091s(21反復) = 2.45m / 反復
高速化率 = 2.93 / 2.45 = 1.20倍
○マシン3
SDPA 7.2.1 : 100m10.860s(21反復) = 4.77m / 反復
SDPA 7.2.1.rev7 : 64m15.252s(22反復) = 2.91m / 反復
高速化率 = 4.77 / 2.91 = 1.64倍
○実行マシン1:AMD Opteron 2384 (2.7GHz) : メモリ 32GB : CentOS 5.2 for x86_64
○実行マシン2:Intel Core i7 965(3.2GHz) : メモリ 12GB : Fedora 10 for x86_64
○実行マシン3:Intel Xeon 5460 (3.16GHz) : メモリ 48GB : CentOS 5.2 for x86_64
○SDPA 7.2.1.?? + GotoBLAS 1.29 + MUMPS 4.8.3 (4 スレッド : OMP_NUM_THREADS=4)
○実験データ
mDIM = 24503
nBLOCK = 3
bLOCKsTRUCT = 153 153 324
CH4.1A1.STO6G.noncore.pqg.dat-s
○マシン1
SDPA 7.2.1. : 107m34.239s(22反復) = 4.87m / 反復
SDPA 7.2.1.rev7 : 76m53.589s(26反復) = 2.94m / 反復
高速化率 = 4.87 / 2.94 = 1.66倍
○マシン2
SDPA 7.2.1 : 73m33.111s(25反復) = 2.93m / 反復
SDPA 7.2.1.rev7 : 51m55.091s(21反復) = 2.45m / 反復
高速化率 = 2.93 / 2.45 = 1.20倍
○マシン3
SDPA 7.2.1 : 100m10.860s(21反復) = 4.77m / 反復
SDPA 7.2.1.rev7 : 64m15.252s(22反復) = 2.91m / 反復
高速化率 = 4.77 / 2.91 = 1.64倍