最近めっきり滞っているMPACKであるが、手元では開発している。
昨年は倍々精度Rgemmなどを開発したが結局MPACKには統合できてない。
やはり実験的な実装とリリースエンジニアリングまで含めた
実装というのは、全然違うなと思わされた。
ということで、MPACK 0.7.0だが、
* IEEE 754 binary128対応 (gcc and x86-64 only)
* 内部ディレクトリを大幅に変更
* OpenMPをいくつか導入
ということでいったん区切りたい。四月までにはリリースをしたい。
中里先生の講演を聴いて、CUDA版ではなくOpenCL版にしようかと思った。
これでCPU/GPUなど今後ヘテロな環境にもシームレスに対応できる。
CUDAだとそれだけになってしまうが、CPUにも無理なく対応できそうである。
内部的にホットなのは、OpenMPで数値実験であるが、ベンチマークによると
性能が不安定かつ、コアを40-48程度まで増やしても性能がほとんど出ていないため
なかなか何ともいいがたいものがある。
昨年は倍々精度Rgemmなどを開発したが結局MPACKには統合できてない。
やはり実験的な実装とリリースエンジニアリングまで含めた
実装というのは、全然違うなと思わされた。
ということで、MPACK 0.7.0だが、
* IEEE 754 binary128対応 (gcc and x86-64 only)
* 内部ディレクトリを大幅に変更
* OpenMPをいくつか導入
ということでいったん区切りたい。四月までにはリリースをしたい。
中里先生の講演を聴いて、CUDA版ではなくOpenCL版にしようかと思った。
これでCPU/GPUなど今後ヘテロな環境にもシームレスに対応できる。
CUDAだとそれだけになってしまうが、CPUにも無理なく対応できそうである。
内部的にホットなのは、OpenMPで数値実験であるが、ベンチマークによると
性能が不安定かつ、コアを40-48程度まで増やしても性能がほとんど出ていないため
なかなか何ともいいがたいものがある。
※コメント投稿者のブログIDはブログ作成者のみに通知されます