CentOS 7.6 + CUDA 10.0 + OpenMPI 4.0.0 + SDPARA 7.6.1 の組み合わせ&GPU クロックアップで実験してみました。
> nvidia-smi -pm 1
>nvidia-smi -i 0 -ac 3004,875
> nvidia-smi -i 1 -ac 3004,875
OpenMPI 4.0.0 では configure 時に --enable-mpi1-compatibility が必要なようです。
../configure --prefix=/usr/local/openmpi-4.0.0.intel.ILP64 CXX=icpc CC=icc F77=ifort FC=ifort FFLAGS="-O2 -m64 -i8 -shared-intel -mcmodel=medium" FCFLAGS="-O2 -m64 -i8 -shared-intel -mcmodel=medium" CFLAGS="-O2 -m64 -shared-intel -mcmodel=medium" CXXFLAGS="-O2 -m64 -shared-intel -mcmodel=medium" --enable-mpi-fortran --enable-mpi-cxx --enable-orterun-prefix-by-default --with-cuda=/usr/local/cuda --enable-mpi-thread-multiple --enable-opal-multi-threads --with-threads --enable-thread-support --enable-mpi1-compatibility
[gpdpotrf] ### END n=433411, nb=2048, 4x4 procs, ver 50: 1472.252sec --> 18433.017GFlops ###
◯追加分
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz x 2 : 10cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 1000GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.6
◯現在の GPU クラスタ
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz x 2 : 8cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 500GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.6
> nvidia-smi -pm 1
>nvidia-smi -i 0 -ac 3004,875
> nvidia-smi -i 1 -ac 3004,875
OpenMPI 4.0.0 では configure 時に --enable-mpi1-compatibility が必要なようです。
../configure --prefix=/usr/local/openmpi-4.0.0.intel.ILP64 CXX=icpc CC=icc F77=ifort FC=ifort FFLAGS="-O2 -m64 -i8 -shared-intel -mcmodel=medium" FCFLAGS="-O2 -m64 -i8 -shared-intel -mcmodel=medium" CFLAGS="-O2 -m64 -shared-intel -mcmodel=medium" CXXFLAGS="-O2 -m64 -shared-intel -mcmodel=medium" --enable-mpi-fortran --enable-mpi-cxx --enable-orterun-prefix-by-default --with-cuda=/usr/local/cuda --enable-mpi-thread-multiple --enable-opal-multi-threads --with-threads --enable-thread-support --enable-mpi1-compatibility
[gpdpotrf] ### END n=433411, nb=2048, 4x4 procs, ver 50: 1472.252sec --> 18433.017GFlops ###
◯追加分
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz x 2 : 10cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 1000GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.6
◯現在の GPU クラスタ
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz x 2 : 8cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 500GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.6