以下のサブシステムを4ノード, 8CPU, 16GPU を使用してみました。
サブシステムB 128ノード(2017年10月稼働開始予定)
CPU Intel Xeon(Skylake)(2.3 GHz, 18 core)× 2 / node
GPU NVIDIA Tesla P100 × 4 / node
Memory 384 GiB
◯ソフトウェア SDPARA 7.6.1
nb は 4608 ぐらいが良さそうです。
[gpdpotrf] ### END n=379350, nb=4096, 4x4 procs, ver 50: 557.713sec --> 32627.834GFlops ###
[gpdpotrf] ### END n=379350, nb=4608, 4x4 procs, ver 50: 553.181sec --> 32895.168GFlops ###
[gpdpotrf] ### END n=379350, nb=5120, 4x4 procs, ver 50: 557.352sec --> 32648.994GFlops ###
[gpdpotrf] ### END n=379350, nb=5632, 4x4 procs, ver 50: 562.348sec --> 32358.921GFlops ###
サブシステムB 128ノード(2017年10月稼働開始予定)
CPU Intel Xeon(Skylake)(2.3 GHz, 18 core)× 2 / node
GPU NVIDIA Tesla P100 × 4 / node
Memory 384 GiB
◯ソフトウェア SDPARA 7.6.1
nb は 4608 ぐらいが良さそうです。
[gpdpotrf] ### END n=379350, nb=4096, 4x4 procs, ver 50: 557.713sec --> 32627.834GFlops ###
[gpdpotrf] ### END n=379350, nb=4608, 4x4 procs, ver 50: 553.181sec --> 32895.168GFlops ###
[gpdpotrf] ### END n=379350, nb=5120, 4x4 procs, ver 50: 557.352sec --> 32648.994GFlops ###
[gpdpotrf] ### END n=379350, nb=5632, 4x4 procs, ver 50: 562.348sec --> 32358.921GFlops ###