中田真秀(なかたまほ)のブログ

研究について、日常について、その他。

USB support for VirtualBox 4 on FreeBSD Hans Peter Selasky さんありがとう!

2011-02-25 16:24:50 | 日記
FreeBSDホストで、VirtualBoxの問題はUSBのサポートがないことだった。理由はただ一つ。
VirtualBoxのオープンソース版にはUSBサポートが入っていなかったためだ

(話が逸れるが、
ここも自由の利害が垣間見える一つの例だろう。Linuxコミュニティからは自由なソフトウェアによる
USBサポートするソフトは出なかった。OracleのUSBをサポートバージョンは、自由なソフトではない。
当たり前だがタダでダウンロード、利用できたらほとんどのユーザーは用を達するわけである。
自由なソフトウェアによるVirtual BoxのUSBサポートの一歩が、FreeBSDコミュニティからの、
不断の努力で担保された、と喜ぶべきであろう!
もちろん、私はLinuxコミュニティが悪いとかは言ってない。言うべきでもないし、そんな
立場でもない。それさえ思ったこともない。例えば、Javaの努力はスゴい訳で。
要するに自由の利害が満たされないことで、それをどう担保するかが、利害を持ってるか持ってないか
を見るのにちょうど良いといわけだ。)

Bernhard Froehlichの
Call for Testers: VirtualBox 4.0.4


によると、

> Highlights with 4.0:
> - USB support (by Hans Petter Selasky)

とあった。Hans Petter Selaskyは

Hans Peter Selasky - The new USB stack in FreeBSD と、USB stackの開発者とのことである。

ありがたいことだと思った。ありがとうございます! この声が届きますように。

GotoBLAS2とATLASどっちがいいか:迷いなくGotoBLAS2

2011-02-23 08:59:53 | 日記
GotoBLAS2とATLASどっちがいいか:迷いなくGotoBLAS2。

* 概してGotoBLAS2は数%-数10%高速。

* ATLASは、マルチコア対応もダイナミックではない(autotuningなので仕方ない)
もっともセーフなパッケージでは、1コアで最適化せざるを得ないし、Ubuntuでも
そうなっている。4コアでのdgemmだと、最大でも理論性能値の25%しか得られない。

* ビルドに時間がかかる。GotoBLAS2だと数分、ATLASだと30分 on Core i7 920
しかもATLASはビルドに失敗することがある。

* サポートされているプラットフォームもそんなに違いが無い。


C2050 Fermi and magma dgemm 300GFlops

2011-02-22 15:17:40 | 日記
$ ./testing_dgemm
device 0: Tesla C2050, 1147.0 MHz clock, 2687.2 MB memory

Usage:
testing_dgemm [-NN|NT|TN|TT] [-N 1024]


Testing transA = N transB = N
M N K MAGMA GFLop/s CUBLAS GFlop/s error
==================================================================
1024 1024 1024 169.45 281.16 0.000000e+00
1280 1280 1280 171.90 291.17 0.000000e+00
1600 1600 1600 173.20 295.32 0.000000e+00
2000 2000 2000 160.28 284.45 0.000000e+00
2500 2500 2500 161.95 288.32 0.000000e+00
3125 3125 3125 165.44 272.65 0.000000e+00
3906 3906 3906 163.50 294.35 0.000000e+00
4882 4882 4882 164.37 291.75 0.000000e+00
6102 6102 6102 161.18 293.33 0.000000e+00
7627 7627 7627 165.16 298.62 0.000000e+00
9533 9533 9533 165.76 292.16 0.000000e+00

すごいな。

C2050 Fermi and magma LU分解 158GFlops

2011-02-22 15:12:25 | 日記
1. Intel Xeon 3470
2. GotoBLAS2 1.13
3. magma 1.0.0rc3
4. LU分解 (dgetrf)

$ ./testing_dgetrf_gpu
device 0: Tesla C2050, 1147.0 MHz clock, 2687.2 MB memory

Usage:
testing_dgetrf_gpu -M 1024 -N 1024



M N CPU GFlop/s GPU GFlop/s ||PA-LU||/(||A||*N)
============================================================
960 960 26.57 23.79 4.219632e-18
1920 1920 34.68 65.54 3.631711e-18
3072 3072 37.69 114.39 4.312863e-18
4032 4032 39.55 129.81 3.866438e-18
4992 4992 40.56 139.90 3.669310e-18
5952 5952 41.21 146.12 3.455389e-18
7104 7104 41.80 151.33 3.317083e-18
8064 8064 41.98 153.83 3.222847e-18
9024 9024 42.43 156.51 3.142786e-18
9984 9984 42.20 158.67 3.070151e-18

C2050 爆速。GotoBLASもはやいけど上手に乗りこなしているな....

C2050 Fermi and magma コレスキー分解 250GFlops

2011-02-22 15:04:52 | 日記
1. Intel Xeon 3470
2. GotoBLAS2 1.13
3. magma 1.0.0rc3
4. コレスキー分解 (dpotrf)

の結果
$ ./testing_dpotrf_gpu
device 0: Tesla C2050, 1147.0 MHz clock, 2687.2 MB memory

Usage:
testing_dpotrf_gpu -N 1024



N CPU GFlop/s GPU GFlop/s ||R||_F / ||A||_F
========================================================
1024 28.86 30.71 6.204662e-17
2048 34.69 77.71 7.568141e-17
3072 35.10 128.17 6.506738e-17
4032 36.40 152.16 5.505470e-17
5184 38.96 201.04 9.794121e-17
6048 40.06 209.15 9.144903e-17
7200 41.21 221.76 8.388605e-17
8064 41.58 236.81 7.911753e-17
8928 42.12 237.95 1.249537e-16
10240 42.05 252.66 1.178195e-16

C2050でむちゃくちゃ速い。