前回に引き続いて SDPARA の特性を見る実験を行った。最近では意外と 16 CPU, 8 スレッドでの実行が良いような気がしてきた。
20709 (mDIM)
22 (nBlock)
13 13 13 13 78 78 169 78 78 169 338 169 169 286 1014 1014 286 3211 3211 1014 1014 -374 (BlockStruct)
○ソルバー SDPARA 7.2.1.rev8 + GotoBLAS 1.31 + MUMPS 4.8.4 + LAPACK 3.2.1
1: 16 CPU x 8 スレッド(OMP_NUM_THREADS=8) ; 32460.84s(34反復)
2: 32 CPU x 4 スレッド(OMP_NUM_THREADS=4) ; 33021.99s(32反復)
3: 64 CPU x 2 スレッド(OMP_NUM_THREADS=2) ; 37034.22s(33反復)
4: 128 CPU x 1 スレッド(OMP_NUM_THREADS=1) ; 38472.63s(32反復)
○ SDPA クラスタ
16 Nodes, 32 CPUs, 128 CPU cores;
CPU : Intel Xeon 5460 3.16GHz (quad cores) x 2 / node
Memory : 48GB / node
HDD : 6TB(RAID 5) / node
NIC : GbE x 2 and Myrinet-10G x 1 / node
OS : CentOS 5.2 for x86_64
Linpack : R_max = 1.435TFlops, R_peak = 1.618TFlops, R_max / R_peak = 88.69%
20709 (mDIM)
22 (nBlock)
13 13 13 13 78 78 169 78 78 169 338 169 169 286 1014 1014 286 3211 3211 1014 1014 -374 (BlockStruct)
○ソルバー SDPARA 7.2.1.rev8 + GotoBLAS 1.31 + MUMPS 4.8.4 + LAPACK 3.2.1
1: 16 CPU x 8 スレッド(OMP_NUM_THREADS=8) ; 32460.84s(34反復)
2: 32 CPU x 4 スレッド(OMP_NUM_THREADS=4) ; 33021.99s(32反復)
3: 64 CPU x 2 スレッド(OMP_NUM_THREADS=2) ; 37034.22s(33反復)
4: 128 CPU x 1 スレッド(OMP_NUM_THREADS=1) ; 38472.63s(32反復)
○ SDPA クラスタ
16 Nodes, 32 CPUs, 128 CPU cores;
CPU : Intel Xeon 5460 3.16GHz (quad cores) x 2 / node
Memory : 48GB / node
HDD : 6TB(RAID 5) / node
NIC : GbE x 2 and Myrinet-10G x 1 / node
OS : CentOS 5.2 for x86_64
Linpack : R_max = 1.435TFlops, R_peak = 1.618TFlops, R_max / R_peak = 88.69%