SDPA 7 の改造もそろそろ一区切り付けて、公開と論文作成の方に入る予定である。今回は前回の続きでスレッド数を2と4の場合で比較してみる。ただしスレッド数が2と言っても、添付の図にある Schur complement 行列計算の部分が 2 スレッドで GotoBLAS は 4 スレッドで動作させている。
○実行マシン:Intel Core i7 965(3.2GHz) : メモリ 12GB : Fedora 10 for x86_64
○SDPA 7.2.1.rev7 + GotoBLAS 1.29 + MUMPS 4.8.3
○実験データ 1
mDIM = 24503
nBLOCK = 3
bLOCKsTRUCT = 153 153 324
CH4.1A1.STO6G.noncore.pqg.dat-s
1: Schur complement 行列 : 2 スレッド; GotoBLAS : 4 スレッド
54m41.980s(21反復) = 2.59m / 反復
2: Schur complement 行列 : 4 スレッド; GotoBLAS : 4 スレッド
51m55.091s(21反復) = 2.45m / 反復
○実験データ 2
mDIM = 4375
nBLOCK = 1
bLOCKsTRUCT = 300
theta6.dat-s
1: Schur complement 行列 : 2 スレッド; GotoBLAS : 4 スレッド
18.114s(18反復) = 1.00s / 反復
2: Schur complement 行列 : 4 スレッド; GotoBLAS : 4 スレッド
15.864s(18反復) = 0.88s / 反復
○実行マシン:Intel Core i7 965(3.2GHz) : メモリ 12GB : Fedora 10 for x86_64
○SDPA 7.2.1.rev7 + GotoBLAS 1.29 + MUMPS 4.8.3
○実験データ 1
mDIM = 24503
nBLOCK = 3
bLOCKsTRUCT = 153 153 324
CH4.1A1.STO6G.noncore.pqg.dat-s
1: Schur complement 行列 : 2 スレッド; GotoBLAS : 4 スレッド
54m41.980s(21反復) = 2.59m / 反復
2: Schur complement 行列 : 4 スレッド; GotoBLAS : 4 スレッド
51m55.091s(21反復) = 2.45m / 反復
○実験データ 2
mDIM = 4375
nBLOCK = 1
bLOCKsTRUCT = 300
theta6.dat-s
1: Schur complement 行列 : 2 スレッド; GotoBLAS : 4 スレッド
18.114s(18反復) = 1.00s / 反復
2: Schur complement 行列 : 4 スレッド; GotoBLAS : 4 スレッド
15.864s(18反復) = 0.88s / 反復