CUDA 上で小さな最短路ソルバを動かしてみた。grid も thread も 1 で、並列していない。もともとクエリ並列なので、1クエリで性能が出ないのであれば、並列化の効果もあまり期待はできないだろう。また、クエリ内で並列化をしても、用いているアルゴリズムのダイクストラ法が動的計画法であるということで、性能を出すことは難しいだろう。
以下、実験結果。信じられないほど遅い。
以下、実験結果。信じられないほど遅い。
Device Name : Tesla C1060 Gloval Memory : 4095 MB Shared Memory : 16 kB Constant Memory : 64 kB Number of Regs : 16384 Warp Size : 32 Frequency : 1296 MHz NY(p2p x 10) : 27.55 [sec.](Corei7 965 @ 3.20GHz : 0.130 [sec.]) USA(ss x 1) : 682.53 [sec.](Corei7 965 @ 3.20GHz : 4.438 [sec.])