九大 CX400 での Cholesky 分解の性能値は 128GPU (NVIDIA K20m)で以下の通り。121 GPU で 11x11 のグリッドの方が速そうだが(おそらく 100TFlops を超える)、n が 121万以上と大変大きいので、121 ノードではメモリに入りきらないかもしれない。
[gpdpotrf] ### END n=1218400, nb=1024, 8x16 procs, ver 50: 6108.246sec --> 98703.346GFlops ###
高性能演算サーバシステム (Fujitsu PRIMERGY CX400)
演算ノード 理論演算性能 345.6GFLOPS
主記憶容量 128GB
メモリバンド幅 102.4GB/s
総ノード数 1476ノード
総プロセッサ (コア) 数 2952プロセッサ (23616コア)
理論演算性能(倍精度実数)の総和 966.2TFLOPS
(CPU: 510.1TF, GPGPU[K20m&K20Xm]: 456.1TF)
[gpdpotrf] ### END n=1218400, nb=1024, 8x16 procs, ver 50: 6108.246sec --> 98703.346GFlops ###
高性能演算サーバシステム (Fujitsu PRIMERGY CX400)
演算ノード 理論演算性能 345.6GFLOPS
主記憶容量 128GB
メモリバンド幅 102.4GB/s
総ノード数 1476ノード
総プロセッサ (コア) 数 2952プロセッサ (23616コア)
理論演算性能(倍精度実数)の総和 966.2TFLOPS
(CPU: 510.1TF, GPGPU[K20m&K20Xm]: 456.1TF)