GPU使用数を4つほど減らしてみた(160 GPU --> 156 GPU)。そうすると以下のように 160 (PxQ = 10x16) から 156 (PxQ = 13x12)となって、P と Q によるグリッドがより正方形に近くなる。そのため性能も少しだけ向上しているようだ。
◯ ソフトウェア SDPARA 7.6.0-G
○tai30a
[gpdpotrf] ### END n=379350, nb=2048, 10x16 procs, ver 40: 253.520454sec --> 71777.116375GFlops ###
[gpdpotrf] ### END n=379350, nb=2048, 13x12 procs, ver 40: 249.389065sec --> 72966.178862GFlops ###
TSUBAME-KFC - LX 1U-4GPU/104Re-1G Cluster, Intel Xeon E5-2620v2 6C 2.100GHz, Infiniband FDR, NVIDIA K20x
◯ ソフトウェア SDPARA 7.6.0-G
○tai30a
[gpdpotrf] ### END n=379350, nb=2048, 10x16 procs, ver 40: 253.520454sec --> 71777.116375GFlops ###
[gpdpotrf] ### END n=379350, nb=2048, 13x12 procs, ver 40: 249.389065sec --> 72966.178862GFlops ###
TSUBAME-KFC - LX 1U-4GPU/104Re-1G Cluster, Intel Xeon E5-2620v2 6C 2.100GHz, Infiniband FDR, NVIDIA K20x