1月26日にも紹介した gmp を用いた SDPA だが仮に SDPA-GMP としておこう。gmp は評価の高いライブラリのようで Linux でもメジャーなディストリビューションではインストールされていることが多い。SDPA-GMP の場合では LAPACK/BLAS などのライブラリも手動で書き換えているのだが、この部分などはついでに OpenMP で並列化してしまうこともできるので、for ループで各反復の独立性の高いものはマルチスレッド化した。まず gcc(g++)で作成した SDPA-GMP を Intel コンパイラを用いて再作成するとそれだけで 1.5 倍ぐらいの速度になる。さらに OpenMP でマルチスレッド化した SDPA-GMP を4スレッドで動作すると SDPA-GMP(Intel) の2倍以上高速になっている(解く問題に性能は依存するが)。ただこれでもまだ相当遅いことには変わりない。SIMD による高速化は結構効くと思われるのだが。
カレンダー
最新記事
- 自己紹介と重要リンク
- KDDI、AIスパコン参入へ 経産省が5社に計725億円補助
- NVIDIA追撃には力不足か、IntelがAI学習向け第3世代アクセラレーターIC
- GPT-4 Turboより3倍速い「日本語特化のGPT-4」が提供開始、トークンも削減
- STT GDC、千葉県印西市に関東で2棟目となるデータセンター「STT Tokyo 2」を着工
- PCIe 5.0対応で10GB/s秒超えの超高速SSD「FireCuda 540 SSD 2TB」の性能を詳しく検証してみたよレビュー
- NTTドコモ、NTT、NEC、富士通の4社、6G通信に向け100Gbpsの超高速伝送を実現するサブテラヘルツ帯無線デバイスを開発
- AppleはAIに最適化した「M4チップ」を2024年中にリリースすることを目指している
- 「AI半導体にNVIDIA・TSMC連合以外の選択肢を」、日本進出の台湾PSMC会長
- Microsoft、日本の生成AI・クラウドに大型投資 AI研究所も開設 過去最大4400億円
検索
バックナンバー
アクセス状況
アクセス | |||
---|---|---|---|
閲覧 | 261 | PV | |
訪問者 | 204 | IP | |
トータル | |||
閲覧 | 5,000,659 | PV | |
訪問者 | 1,260,669 | IP |