HotChips 33 - IBM z16 CP "Telum"
IBM Bets Big On Native Inference With Big Iron - The Next Platform
IBMがHotChips 33にて同社の次世代メインフレーム=z16向けと思われる、Telumマイクロプロセッサーを発表したらしいが、個人的には驚くべき内容だった。
Telumには推論アクセラレーターが統合されている点が注目されるが、IBMが推論アクセラレーターを開発しCPUに統合すること自体は驚くべきことではない。IBMは金融機関・政府向けにPOWER UNIXサーバーとSystem zメインフレームを製品として持っており、そのマーケットで要求されるアクセラレーターの統合は今回が初めてではない。これまでも10進浮動小数点・ZIP圧縮/展開などのアクセラレーターがハードウェアでサポートされている。
筆者の理解ではメインフレームの用途はもっぱらレガシーで高信頼性が求められるワークロードに偏っているし、止まらないこと・演算の正確さが求められるが、推論であれ学習であれ機械学習領域は、勘定系などに比べれば数値的な意味で正確さはあまり求められないケースが多い。そのため一般的なメインフレームのワークロードからすると水と油の関係のようにも見えるのも事実である。
ちなみに、今年後半に登場予定のPOWER10の場合ではCPUの拡張命令として Matrix Math Assist (MMA) enginesがCPUに追加されマトリックス演算をサポートしているが、z16ではコア外部のアクセラレーターとして追加されている。
もっとも、The Next Platformも指摘する通りNVIDIA CUDAやAMD ROCmは専らx86-64、あとはせいぜいArm64・POWER向けで(Summit/SierraのようにPOWER CPUのLinux環境ではサポートされた実例がある)、メインフレームのような極めて閉鎖的・排他的なプラットフォームではサポートされないから、System zで推論アクセラレーターをサポートしたければIBMが開発して搭載する必要がある。
個人的に気になるのは、全体構成としてどうなるのか?といった点である。
前々世代・前世代であるz14・z15ではPCでいうCPUに相当するCPとCP間を接続するSPで構成されていたが、注目すべきはその大容量キャッシュで、CPにL1~L3キャッシュ・SPにIBMの御家芸ともいうべきeDRAMベースのL4キャッシュが積載され、L3キャッシュは12コアで共有の32 MB x 8 block = 256 MB、L4キャッシュは4 CPで共有の960 MBにも達した。
これがz16 "Telum"ではCPがSoC化されCP同士で相互接続する形に変更された。"Telum"には8コアと32 MBのL2キャッシュが搭載され、z16 1ソケットは2チップのMCM構成となっている。1チップあたりのコア数はz15の12コアからz16では8コアと減ったが、1ソケットあたり2 CPチップのMCMとなったことでソケットあたりでは16コアに増えた。
製造プロセスはz14/z15でのGlobalFoundries 14HPEからSamsung 7nmへと変更となり大幅にトランジスター密度が向上したが、チップの写真を見る限りでは増加したトランジスターバジェットのほとんどがL2キャッシュに割り当てられた感がある。
z15では1 Drawerあたり4 CPが1 SPで接続され(共有キャッシュ容量は計1984 MB)、4 Drawerシステムでは各DrawerのSPが相互接続していた。これに対しz16では1 Drawerあたり8 CPチップが相互接続され(共有キャッシュ容量は計2048 MB)、4 Drawerシステムでは各Drawerの1 CPが他のDrawerの1 CPと相互接続する形になっている。
注目すべきはL3~L4キャッシュを廃止しL2キャッシュを大容量化したことでSPチップを廃止してもキャッシュ容量は増加した点である。
この変化は恐らくファウンダリー変更に起因している。
元々、z13まではIBMが自社工場で製造しており、IBM伝統のeDRAMで膨大なキャッシュを統合していた。DRAMはトランジスター1個+キャパシター1個で1セルを構成するが一般的なSRAMはトランジスター6個で1セルを構成するため単位面積当たりの容量は一般に小さくなる。ただし、ロジック用プロセスで製造できるSRAMとDRAM/NAND用プロセスは異なるからeDRAMは先端製造プロセスでは一般的ではない。IBM System zの大容量キャッシュを実現していたのはIBM eDRAM技術と言って良い。
2014年にIBMは製造部門をGlobalFoundriesに売却し、同社のPOWER・zのマイクロプロセッサーの製造もGlobalFoundriesに移行したが、14HPEは旧IBMの技術を基としており、恐らくそれが理由でeDRAMも搭載できていたと想像できる。
しかし、今回のz16では製造がSamsung 7nmに移行し、恐らくeDRAMも使えなくなった。そこで、増加したトランジスターバジェットの多くをL2キャッシュに注ぎ込むことでSPを廃止しつつキャッシュ容量の増加に成功した。