nVidia Tesla C2050の理論性能値は
公称515Gflopsとなっている。これは単純にCUDA コア数とCUDA コア周波数をかけたものとなっている。
448(個) * 1.15GHz = 515.20 Gflops
後藤さんによると、CPUの場合、dgemmは理論性能値の95%がでるが、GPUの場合は80%が限界なんだそうだ。
したがって
1.15*448*0.8 = 412.160 Gflops
のパフォーマンスが出たらここらへんがチューニングの限界、ということなんだそうだ。
公称515Gflopsとなっている。これは単純にCUDA コア数とCUDA コア周波数をかけたものとなっている。
448(個) * 1.15GHz = 515.20 Gflops
後藤さんによると、CPUの場合、dgemmは理論性能値の95%がでるが、GPUの場合は80%が限界なんだそうだ。
したがって
1.15*448*0.8 = 412.160 Gflops
のパフォーマンスが出たらここらへんがチューニングの限界、ということなんだそうだ。
Nehalem, Penryn の場合には 96.9% が理論限界値、80% というのは GPU というより Fermi ね。