OpenMP 2.1.0 がリリースされたので、性能を比較してみました。
OpenMPI 2.0.1 & Intel コンパイラ Parallel Studio XE 2016 update4 & MUMPS 5.0.2
[gpdpotrf] ### END n=379350, nb=2048, 4x4 procs, ver 50: 1149.453sec --> 15830.975GFlops ###
OpenMPI 2.1.0 & Intel コンパイラ Parallel Studio XE 2016 update4 & MUMPS 5.0.2
[gpdpotrf] ### END n=379350, nb=2048, 4x4 procs, ver 50: 1144.010sec --> 15906.297GFlops ###
◯追加分
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz x 2 : 10cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 1000GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.3
◯現在の GPU クラスタ
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz x 2 : 8cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 500GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.3
OpenMPI 2.0.1 & Intel コンパイラ Parallel Studio XE 2016 update4 & MUMPS 5.0.2
[gpdpotrf] ### END n=379350, nb=2048, 4x4 procs, ver 50: 1149.453sec --> 15830.975GFlops ###
OpenMPI 2.1.0 & Intel コンパイラ Parallel Studio XE 2016 update4 & MUMPS 5.0.2
[gpdpotrf] ### END n=379350, nb=2048, 4x4 procs, ver 50: 1144.010sec --> 15906.297GFlops ###
◯追加分
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz x 2 : 10cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 1000GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.3
◯現在の GPU クラスタ
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz x 2 : 8cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 500GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.3