研究日誌。

大規模なグラフ処理に対してメモリ階層構造を考慮した高性能なソフトウェアを開発。

最短路ソルバ@tesla。

2009-07-08 23:17:10 | Weblog
CUDA 上で小さな最短路ソルバを動かしてみた。grid も thread も 1 で、並列していない。もともとクエリ並列なので、1クエリで性能が出ないのであれば、並列化の効果もあまり期待はできないだろう。また、クエリ内で並列化をしても、用いているアルゴリズムのダイクストラ法が動的計画法であるということで、性能を出すことは難しいだろう。

以下、実験結果。信じられないほど遅い。
Device Name     : Tesla C1060
Gloval Memory   : 4095 MB
Shared Memory   : 16 kB
Constant Memory : 64 kB
Number of Regs  : 16384
Warp Size       : 32
Frequency       : 1296 MHz

NY(p2p x 10) :  27.55 [sec.](Corei7 965 @ 3.20GHz : 0.130 [sec.])
USA(ss x 1)  : 682.53 [sec.](Corei7 965 @ 3.20GHz : 4.438 [sec.])