中田真秀(なかたまほ)のブログ

研究について、日常について、その他。

Rgemm DD C2050 (CUDA4.2版)リリース

2012-10-15 06:37:54 | 日記
アナウンスメール
アーカイブへのリンク
MD5sum a4da6bfcadef19baf692502d6236f0e6

"A Fast implementation of matrix-matrix product in double-double precision
on NVIDIA C2050 and application to semidefinite programming",
Maho Nakata, Yasuyoshi Takao, Shigeho Noda and Ryutaro Himeno",
International Conference on Networking and Computing, Okinawa, Japan, 2012. (To appear)
論文のプレプリント


倍々精度の行列-行列積 Rgemmです
NVIDIA C2050, M2070, M2075, M2090などで動きます。高速です。(16.4GFlops - 26GFlops 精度を落とすとより高速)
CUDA 4.2, 3.2 (CUDA 4.1ではコンパイルエラーにつき動きません)で確認してます。