Intel Nervana NPP-I 1000
Intel NNP-I 1000 Spring Hill Details at Hot Chips 31 - ServeTheHome
本製品はIntelが買収したNervanaによる製品で、Intelはターゲットの異なる製品群を持つNeural Networkプロセッサー会社をかれこれ三社も買収している。消費者向けビジョンプロセッサーのMovidius、車載自動運転補助のMobilEye、そしてデータセンター向けプロセッサーのNervanaである。ちなみに、MovidiusとMobilEyeはイスラエルの会社であるがNervanaはシリコンバレーの会社である。
記事中の写真ではSpring Hillの巨大なダイにLPDDR4Xのダイがオンパッケージで接続されているように見える。写真では大型のチップに見えるが、基板の規格がM.2 22110だとすると横幅が22 mmしかないことになる。統合されているCPUコアがSunny CoveであることからIntel 10nmプロセスで製造されていると推測できる。
ところで、Intelは第10世代CoreからCoreプロセッサーとしてのコードネーム(例:Coffee Lake・Ice Lake・Comet Lakeなど)とは別にCPUコアにもSunny Coveという名称を付けている。これは推測するに、Coreプロセッサーの名称とコアの名称がイコールでなくなるからであろう。これまではCoreプロセッサーだけに統合してきたためCoreプロセッサーの名称≒コアの名称と考えて問題無かったが、今後はNervanaプロセッサーに統合したり、あるいはFoverosマルチチップ技術などによって異種コアと混載されたCoreプロセッサーが登場するからであろう。
どういう訳か、M.2というとイコールNVMe SSDかWi-Fiアダプターという風潮があるが、M.2は物理フォームファクターの規格で、プロトコルはUSB/SATA/PCIe等で選択可能(切り欠きによって対応プロトコルを区別している)なので、このようなNeural Network Processor等も接続可能である。もっとも、縦横だけでなく厚みなど物理形状に制約があるため、電気的には実現可能でもGPUやRAIDコントローラーなどは製品化しにくいであろうが。
INT4/INT8/FP16のみの対応で推論のみに対応しているが、50w・92 TOPS (INT8)ということで、Google TPUv3(学習も対応でbFP16で90TFLOPS)・AWS Inferentia(推論のみ100TOPS)・Qualcomm AI100(推論のみ350TOPS)などと比較すると見劣りするが、一方で低い消費電力(50w)・狭いインターフェース(PCIe x4)・さらに記事中のFacebookのGlacier Point V2ボードにM.2スロットが6ポート設けられているように、パフォーマンスが必要な場合は複数モジュールを束ねて使用する思想なのかもしれない。
Nervanaからは既にNNP T-1000(Spring Crest)が発表済みであるが、NNP I-1000は推論(Inference)用・NNP T-1000は学習(Training)用ということのようである。
Cray Rosetta
How Cray makes Ethernet suited for HPC and AI with Slingshot - The Next Platform
8月14~16日の日程で開催されたHot Interconnect 26でCrayのCTOがキーノート スピーチを行い、Slingshot/Rosetta ASICについて説明したらしい。
※注:どうやら、Slingshotはインターコネクト技術全体を指し、RosettaはスイッチASICを指すらしい。
このRosetta ASICは注目に値する。なにせCrayのようなHPCベンダーが単なるPCクラスターベンダーと異なるのは、インターコネクト・コンパイラー・OS・MPIなどシステムとしての統合技術が差別化要因によるわけだが、Crayはそのインターコネクト(Gemini、Ariesなど)を2012年にIntelに売却してしまい先行きが心配されていた。それにも関わらず、そのCrayが今年後半から出荷されるShastaシステムにおいて独自新インターコネクトを持ってきたためだ。
さらに、米国エネルギー省が2020年前後に国立研究所(オークリッジ国立研究所・アラゴンヌ国立研究所・ローレンスリバモア国立研究所・NERSC)に設置するエクサスケールのフラッグシップHPCは3台が計画されていたが、CrayはShastaシステムでその3台すべてを落札した。
Site | System | Year | Contractor | Base | CPU | Accel. | Note |
---|---|---|---|---|---|---|---|
DOE LBNL | Perlmutter (NERSC-9) | 2020 | Cray/NVIDIA/AMD | Cray Shasta | AMD Epyc | NVIDIA Volta Next | Pre-Exascale |
DOE Argonne | Aurora (A21) | 2021 | Intel/Cray | Cray Shasta | Intel Xeon | Intel Xe | 1 Exa Flops |
DOE ORNL | Frontier | 2022 | Cray/AMD | Cray Shasta | AMD Epyc | AMD Radeon Instinct | 1.5 Exa Flops |
DOE LLNL | El Capitan | 2023 | Cray | Cray Shasta | TBD | TBD | > 1.5 Exa Flops |
IntelがCrayのインターコネクトの買収に14,000万ドル・NVIDIAがMellanoxの買収に69億ドルを支払っていることを鑑みれば、Crayが簡単にインターコネクトを作れるはずがなく、NextPlatformの記事では、Rosetta ASICはBroadcom(Tomahawk III)かMellanox(Spectrum-2)あたりのスイッチAISCを買って来たと見ているようだが、どうも詳細が不明瞭で分からない(個人的には、もし本当にBroadcomやMellanoxの製品の流用ならBroadcomやMellanoxが登壇するべきじゃないかと思うのだが…)。
そもそもの話として、Slingshotは詳細こそ不明だがEthernet互換技術が売りとされている。とはいえ通常のEthernetは汎用性が高く=ソフトウェア処理が多く・プロトコルスタックが重厚であるため、そのままでは遅延が大き過ぎる。逆を言えば、ある程度の汎用性を捨ててハードウェア処理を増やしプロトコルスタックを薄くすることで遅延を減らすことは可能で、実際にRoCEというEthernetハードウェアにInfiniBandプロトコルを組み合わせた高速Ethernet互換技術が存在する。ちなみにBroadcom Tomahawk IIIやMellanox Spectrum-2はEthernetスイッチであるがRoCEをスイッチできる。
記事中にはRCoEとSlingshotの遅延の比較グラフが載っており、いかにSlingshotが遅延を減らしたかが分かるが、恐らくはRoCEと同様にEthernetハードウェアに軽量なプロトコルスタックを載せているのだろう。
あと、個人的に疑問なのはネットワークアダプターである。過去のCrayのインターコネクト(例:Aries)ではPCI-Expressインターフェース・ネットワークコントローラー・48ポートルーターを統合したASICで、独自のDragonflyトポロジーを採用し外部にスイッチを必要としなかった。今回はネットワークコントローラーとスイッチASIC=Rosettaが分かれているようだが、全体像としてどうなるのか気になるところである。