goo blog サービス終了のお知らせ 

回転思考

適当に

GeforceGTX680でGPUBench

2012年04月07日 18時18分37秒 | GPU
久しぶりにGPUを購入したので一応stanfordのGPUBenchでGPUの素性を確認
それで、過去のもの、Chrome540GTXとGTS240と見比べて面白そうなものをピックアップ

実行するにはCygwinのお世話になったほうが良い

GPUBenchの生データ
GeForceGTX680
GeForceGTS240
GeForce8500GT
RadeonX300
Chrome540GTX

ピックアップ
Branch1
Branch2
Branching: PS30
Measures the effectiveness of pixel-shader 3.0 branching at saving work. The test generates a computation mask and then runs a pixel-shader 3.0 shader which fetches the mask value and then conditionally executes a big shader. The test measures a uniformly distributed set of thresholds, a uniformly distributed set of 4x4 blocks, and a wavefront pattern.

Cache1
Cache2
Cache3
Cache4
Cache Hit Fetch Cost
Measures time taken to execute a shader containing a fixed number texture fetches followed by various numbers of MAD instructions. The number of instructions following the fetches is increased (x-axis) until the shader becomes compute bound. Above this threshold, running time is a linear function of the length of the program.

おもに540GTXとの比較でCache絡みと分岐でS3の優秀さが映える


nvidiaのkeplerとは?

2012年01月21日 22時47分59秒 | GPU
どうも各所で言われてるうわさではGK104(GTX660?)はRadeon 7970を上回るとのこと
久しく単体GPUカードを買っていない小生も、実はこれには興味がある

まず、慎重性が高い順にうわさを並べると

① 2Tflopsの演算性能を持つということ
② Hotclock(固定機能と演算部で動作クロックが異なる)を廃止した
③ 768~576のCuda Coreをもつ
④ 32億トランジスタ
⑤ 780MHz

768 coreで780MHzだと768*2*0.78=1198Gflops=1.198Tflopsにしかならない
なので、私は当初クロックが1.5GHzで動作するのだと思っていたが
これはCuda coreがFermiと同じ構成だった場合の話

少し前に、nvidiaがEchelonに関するスライドを公開したがこれによると、EchelonのCuda Coreは倍精度で4flops/clock
構造的には((32bit FP/Int)*3)*2,(LS/BR)*2となっている
FP/Intは(FP*2+Int*1)固定なのか、あるいはFpとIntがフレキシブルに変わるのかは不明
LSはおそらくLoad/StoreでBRは分岐ユニットと思われる
これを見た後だと、KeplerのCuda coreの予想がだいたいできる

要するに、coreのなかにFPが二つあるわけだ

768*2*2*0.78=2396Gflops=2.396Tflops

各所の話でもKeplerのcoreはFermiのものとは違うというのは共通している

あとは32億トランジスタだが、GF100が512coreで30億であった
都合Keplerではfermiの2倍のFPが搭載されているのでここで当然の疑問が生じる
以前のGPUの構造では32億に収まらないのだ
Hotclockを廃止したので相対的には演算器あたりに必要なレジスタはfermiよりも少なくてかまわないのだが
それでも少し無理がある

ここで小生は、ひとつの仮説を立てる
keplerには固定機能としてのtexture unitが存在しないのではないかと
GPU内のtexture unitは大きな割合がある
固定機能は長大なパイプラインであり、何もしなくてもこれを通過するだけで電力を消費し熱を発生させる
これをCuda Coreで代替させるのだ
実は、nvidiaは以前に同じ思想のGPUを作っている
モバイル端末向けのGoForce3D

nvidiaはEchelonでほとんどの固定機能を廃止するだろう
理由は上に書いたとおり、電力と熱の問題があるからだ
なのでkeplerでtexture unitが無くなっていても何の不思議も無い
それと固定機能が無ければクロックドメインを分ける(hotclockも)必要が無いというわけだ

固定機能廃止によりclockあたりのtexutre処理のパフォーマンスは下がるだろうが
一方で、Cuda Coreによる処理であるため、Shader(の演算)負荷とtexture処理の負荷がフレキシブルになる利点がある
つまりDX9以前のソフトではだいたいがtexture処理が主体であるため、texture処理が固定機能の場合shader(演算器)が遊んでいる状態になるが、Cuda coreによる処理だとShaderの遊びは無くなりパフォーマンスがあがる可能性がある
DX10以降のソフトでは反対で、相対的にshader負荷が高く、texture処理負荷が低い
こうした場合でも処理の割合を負荷に応じて変更すれば、非常に高効率になるというわけだ

気になるのはLoad/Storeがどうなっているのかだ


犬猿の仲だったライバルが手を組む日

2011年01月11日 13時08分30秒 | GPU
IntelとNVIDIAがクロスライセンス合意、GPU統合CPUへの流れ明確に

米Intelと米NVIDIAは1月10日(現地時間)、新たに6年間の技術クロスライセンス契約を結んだことを明らかにした。
これによりIntelはNVIDIAの技術を、たとえばSandy Bridgeの後継製品のオンダイGPUに採用できるようになる。


何でしょ
ゴクウとべジータが融合って感じでしょうかね


やっぱり5400Eだった

2011年01月04日 13時02分23秒 | GPU
VIA Launches VIA eH1, Embedded Industry's First Dedicated Graphics Card

VIA eH1 Embedded Graphics Card

VIA eH1 Product Highlights
?PCIe 2.0 x16 Bus Interface
?512MB DDR3
?Low profile form factor
?DVI (dual-link w/HDCP) plus HDMI (w/HDCP)
?Fully programmable DirectX 10.1
?Shader Model 4.1
?OpenGL 3.1 + OpenGL ES 2.0
?GPGPU on OpenCL 1.0
?H.264 and VC-1 support for Blu-Ray
?Support for resolutions up to 2560x1600
?1080p/1080i/720p HD-decode
?Stereoscopic 3D capable
?Dual displays support