前回に引き続いて、連続5回の実行を行ってみました。同じパラメータで同じ問題を扱っているにも関わらず、結構大きな値のばらつきがあることがわかります。
◯384GPU
問題2
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3785.917sec --> 287982.261GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3844.550sec --> 283590.257GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3763.697sec --> 289682.437GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3732.305sec --> 292118.976GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3793.094sec --> 287437.412GFlops ###
問題2のサイズ
1484406 = mDIM
2 = nBLOCK
-1777522 1682 = bLOCKsTRUCT
高性能演算サーバシステム (Fujitsu PRIMERGY CX400)
演算ノード 理論演算性能 345.6GFLOPS
主記憶容量 128GB
メモリバンド幅 102.4GB/s
総ノード数 1476ノード
総プロセッサ (コア) 数 2952プロセッサ (23616コア)
理論演算性能(倍精度実数)の総和 966.2TFLOPS
(CPU: 510.1TF, GPGPU[K20m&K20Xm]: 456.1TF)
◯384GPU
問題2
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3785.917sec --> 287982.261GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3844.550sec --> 283590.257GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3763.697sec --> 289682.437GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3732.305sec --> 292118.976GFlops ###
[gpdpotrf] ### END n=1484406, nb=1024, 16x24 procs, ver 50: 3793.094sec --> 287437.412GFlops ###
問題2のサイズ
1484406 = mDIM
2 = nBLOCK
-1777522 1682 = bLOCKsTRUCT
高性能演算サーバシステム (Fujitsu PRIMERGY CX400)
演算ノード 理論演算性能 345.6GFLOPS
主記憶容量 128GB
メモリバンド幅 102.4GB/s
総ノード数 1476ノード
総プロセッサ (コア) 数 2952プロセッサ (23616コア)
理論演算性能(倍精度実数)の総和 966.2TFLOPS
(CPU: 510.1TF, GPGPU[K20m&K20Xm]: 456.1TF)