以下のサブシステムを4ノード, 8CPU, 16GPU を使用してみました。
サブシステムB 128ノード(2017年10月稼働開始予定)
CPU Intel Xeon(Skylake)(2.3 GHz, 18 core)× 2 / node
GPU NVIDIA Tesla P100 × 4 / node
Memory 384 GiB
◯ソフトウェア SDPARA 7.6.1
nb は大きめの値 4096 が良いようです。
[gpdpotrf] ### END n=211926, nb=1024, 4x4 procs, ver 50: 252.009sec --> 12589.676GFlops ###
[gpdpotrf] ### END n=211926, nb=2048, 4x4 procs, ver 50: 174.627sec --> 18168.554GFlops ###
[gpdpotrf] ### END n=211926, nb=2560, 4x4 procs, ver 50: 164.312sec --> 19309.048GFlops ###
[gpdpotrf] ### END n=211926, nb=3072, 4x4 procs, ver 50: 159.401sec --> 19904.025GFlops ###
[gpdpotrf] ### END n=211926, nb=3584, 4x4 procs, ver 50: 153.131sec --> 20718.983GFlops ###
[gpdpotrf] ### END n=211926, nb=4096, 4x4 procs, ver 50: 152.886sec --> 20752.166GFlops ###
NVIDIA P100 16枚で 32.627TFlops ぐらいの性能です。
[gpdpotrf] ### END n=286552, nb=4096, 4x4 procs, ver 50: 296.537sec --> 26449.033GFlops ###
[gpdpotrf] ### END n=330513, nb=4096, 4x4 procs, ver 50: 408.313sec --> 29474.819GFlops ###
[gpdpotrf] ### END n=379350, nb=4096, 4x4 procs, ver 50: 557.713sec --> 32627.834GFlops ###
サブシステムB 128ノード(2017年10月稼働開始予定)
CPU Intel Xeon(Skylake)(2.3 GHz, 18 core)× 2 / node
GPU NVIDIA Tesla P100 × 4 / node
Memory 384 GiB
◯ソフトウェア SDPARA 7.6.1
nb は大きめの値 4096 が良いようです。
[gpdpotrf] ### END n=211926, nb=1024, 4x4 procs, ver 50: 252.009sec --> 12589.676GFlops ###
[gpdpotrf] ### END n=211926, nb=2048, 4x4 procs, ver 50: 174.627sec --> 18168.554GFlops ###
[gpdpotrf] ### END n=211926, nb=2560, 4x4 procs, ver 50: 164.312sec --> 19309.048GFlops ###
[gpdpotrf] ### END n=211926, nb=3072, 4x4 procs, ver 50: 159.401sec --> 19904.025GFlops ###
[gpdpotrf] ### END n=211926, nb=3584, 4x4 procs, ver 50: 153.131sec --> 20718.983GFlops ###
[gpdpotrf] ### END n=211926, nb=4096, 4x4 procs, ver 50: 152.886sec --> 20752.166GFlops ###
NVIDIA P100 16枚で 32.627TFlops ぐらいの性能です。
[gpdpotrf] ### END n=286552, nb=4096, 4x4 procs, ver 50: 296.537sec --> 26449.033GFlops ###
[gpdpotrf] ### END n=330513, nb=4096, 4x4 procs, ver 50: 408.313sec --> 29474.819GFlops ###
[gpdpotrf] ### END n=379350, nb=4096, 4x4 procs, ver 50: 557.713sec --> 32627.834GFlops ###