添付図にある SCM の計算部分を pthread ではなく、OpenMP によってマルチスレッド化した SDPA の実験結果を報告する。
1: SDPA-1
SCM の計算において F3 式の計算部分だけを OpenMP でマルチスレッド化。F1 式と F2 式の計算部分に関してはシングルスレッドで動作させて、呼び出す BLAS はマルチスレッドで動作させる。GotoBLAS 2-1.08 をリンクする。
2: SDPA-2
ほぼ添付図通りの構成だが、F1 式を用いない場合ではSDPA 内の pthread_create, pthread_join の部分を gotoblas_pthread で置き換える。GotoBLAS 2-1.08 をリンクする。
3: SDPA-3
添付図の通りの構成。ただしリンクする GotoBLAS は 1.34 になる。
○実験環境
CPU : Intel Xeon 5550 (2.66GHz / 8MB L3) x 2
Memory : 72GB (18 x 4GB / 800MHz)
OS : Fedora 12 for x86_64
●問題1 : FH2+.1A1.STO6G.pqgt1t2p.dat-s
SDPA-1 : 1m37s
SDPA-2 : 1m37s
SDPA-3 : 1m48s
●問題2 : theta6.dat-s
SDPA-1 : 12.1s
SDPA-2 : 12.2s
SDPA-3 : 13.0s
●問題3 : control11.dat-s
SDPA-1 : 60.8s
SDPA-2 : 停止状態
SDPA-3 : 36.3s
1: SDPA-1
SCM の計算において F3 式の計算部分だけを OpenMP でマルチスレッド化。F1 式と F2 式の計算部分に関してはシングルスレッドで動作させて、呼び出す BLAS はマルチスレッドで動作させる。GotoBLAS 2-1.08 をリンクする。
2: SDPA-2
ほぼ添付図通りの構成だが、F1 式を用いない場合ではSDPA 内の pthread_create, pthread_join の部分を gotoblas_pthread で置き換える。GotoBLAS 2-1.08 をリンクする。
3: SDPA-3
添付図の通りの構成。ただしリンクする GotoBLAS は 1.34 になる。
○実験環境
CPU : Intel Xeon 5550 (2.66GHz / 8MB L3) x 2
Memory : 72GB (18 x 4GB / 800MHz)
OS : Fedora 12 for x86_64
●問題1 : FH2+.1A1.STO6G.pqgt1t2p.dat-s
SDPA-1 : 1m37s
SDPA-2 : 1m37s
SDPA-3 : 1m48s
●問題2 : theta6.dat-s
SDPA-1 : 12.1s
SDPA-2 : 12.2s
SDPA-3 : 13.0s
●問題3 : control11.dat-s
SDPA-1 : 60.8s
SDPA-2 : 停止状態
SDPA-3 : 36.3s