Zen 4世代EpycはHBMを搭載する?
AMD Reportedly Planning Zen 4 EPYC Genoa CPUs With HBM Memory - WCCF Tech
Zen 4世代EpycはHBMを搭載するというウワサがあるらしい。
もちろん製品が発表されるまで真偽は不明だが、もし現在の基本的なアーキテクチャーが維持されると仮定した場合、HBMが採用される可能性は非常に低いと推測する。理由はHBMの広大な帯域を活かすことが難しいからである。
Intel Core/Xeonと違いAMD ZenファミリーのアーキテクチャーはHBMによる効率化が難しい。
その理由はCPUコア⇔メモリー間のバスであるScalable Data Fabric(SDF)の帯域がDDR系メモリー動作周波数に同期しており帯域も2チャンネル分の帯域に合うように設定されているからである。DDR4-3200の場合では帯域は25.6 GB/s/chで2チャンネルで51.2 GB/sとなるがSDFの帯域も51.2 GB/sに設定されている。つまりメモリー間の通信は51.2 GB/sでバランスがとれるよう設定されている。
[CCX]←(SDF 51.2 GB/s)→[UMC]←(25.6 GB/s x 2 ch)→DDR4メモリー
もし仮に、現在のEpycのDDR4メモリーをHBM2E(1スタックあたり307 GB/s。4スタックと仮定して1228 GB/s)に入れ替えた場合SDFがボトルネックとなり性能は向上しない。
[CCX]←(SDF 51.2 GB/s)→[UMC]←(307 GB/s)→HBM2Eメモリー
従って、DDR4/DDR5系メモリーをHBM系メモリーに置き換えたければ、現行のInfinity Fabricの帯域やあるいはメモリートポロジーを大幅に変更する必要がある。
なぜ、そのような大幅な変更が必要になるのか?端的に言えばInfinity Fabricの設計思想とHBM系メモリーの利用が相反するからではないかと思う。
ZenアーキテクチャーではRyzenからEpycまで1 CCDまたは2 CCDで2 chメモリー帯域を共有して釣り合うようにメモリートポロジーが設計されている。Ryzenの下位モデルでは1 CCD + cIODの構成で2chメモリー・上位モデルでは2 CCD + cIODの構成で2chメモリーとなっているし、Epycでも下位モデルでは4 CCD + sIODの構成で8chメモリー・上位モデルでは8 CCD + sIODの構成で8chメモリーとなっている。
例えば現行のEpycでもDDR4 8チャンネル、DDR4-3200と仮定し512-bit幅・204.8 GB/sもの帯域をもつことになる。ところが、Epycの特定のCPUコアに着目してみると204.8 GB/sは使えないことが解る。上述の通りCCD - sIODを接続するIFOPの帯域は51.2 GB/sに設定されているからである。もしかすると瞬間的に8チャンネルすべてを1コアのワークロードが占有することもあるかもしれないが、通常は最大2チャンネル分=51.2 GB/sしか使用することはできない。
Epycで現行のメモリートポロジーに大きな変更を加えることなく帯域を増やしたければ、まずEpycのSDFの帯域を2チャンネルではなく8チャンネルに合わせることが先だろう。
ちなみに、Intel Core/Xeonの場合ではCPUコアはメモリーコントローラーと広帯域のオンチップファブリックで接続されるためHBM系メモリーの統合は難しくない。例えばSkylake-SP世代Xeon Scalableの場合オンチップネットワークの帯域は~768 GB/sで、メモリーコントローラーは2基(各3チャンネルで計6チャンネル)搭載されているから、HBM系メモリーに単純に置き換えるだけで最大1536 GB/sの帯域は確保できる。
もしHBMを使う前提で、Zenファミリーのアーキテクチャーを変更するとすればSDFをバス幅を広げたり動作周波数を向上させて帯域を大幅に引き上げるか、メモリー周りのトポロジーを大幅に変更する必要があるが、現在のDDR4メモリーをHBM2Eメモリーに単純に置き換えsIODに接続することは考え難い。
まず、CCDとcIOD/sIODを接続するオンチップのSDFやChiplet間を接続するInfinity Fabric on Package(IFOP)も帯域を引き上げる必要がある。SDFにはオンチップ/オンパッケージ/インターソケットの3種類の物理実装があるが帯域は揃えられている。DDR4→DDR5のような最大2倍程度の帯域向上は動作周波数の向上などで達成可能だろうがDDR4→HBM2Eで12~24倍もの帯域向上となると話は違ってくる。そして、動作周波数を大幅に引き上げると電力効率が悪化する可能性がある。現在のMulti-Chip Moduleでは1 pJ/bitが指標となっており、Zen/Zen+世代では2 pJ/bitだったことが発表されているが(参考)、これがさらに悪化する可能性がある。
SDFに変更が入る場合、デスクトップ製品への影響も考慮する必要がある。Zenファミリーではデスクトップ用=Ryzenとサーバー用=Epycでチップレット=CCDを共通化することで低コスト化とスケーラビリティーを確保しているわけで、HPCのような特定用途向けの変更をCCDに取り込むことは容易ではない可能性がある。
比較的実現の可能性が高そうなのがCCDに直接接続してキャッシュとして利用する場合だが…これは先日発表された3D V-Cacheと真っ向から対立するため、筆者にはAMDの構想と矛盾しているように感じられる。
3D V-Cacheを利用した場合とHBMをCCDに接続するキャッシュとした場合とでは相互に利点と欠点が考えられる。
3D V-Cacheの欠点としてはAMD独自のダイとなるため生産数が少なければコストが高くなる可能性があり、またSRAMベースのため容量もHBM比では小さくなる。代わりに利点としてはSRAMベースのため遅延で有利だし、既存のL3キャッシュをスタッキングするだけだからバスを引き廻したりコントローラーを配置するなど現行のメモリートポロジーに一切の変更の必要も無くコアとの統合の面で有利である。
HBM系メモリーはDDR系メモリーと比較すれば広帯域だがキャッシュとして見た場合に広帯域かといえば疑問が残る。HBM2Eはスタックあたり最大307 GB/sだが、Zen 2/Zen 3のL3キャッシュは32 B/cycle/coreで4 GHz時に128 GB/s/core、つまり8コア/CCDとすると1024 GB/s/CCDとなる。多少遅延が大きくても大容量・広帯域のキャッシュが必要な場合はHBM系メモリーも考えられるが3D V-Cacheと比較すると性能面での不利は否めないだろう。
筆者にはそもそも3D V-Cacheの開発とHBM系メモリーへの対応は矛盾しているように感じられる。
HBM系メモリーの最初の規格=HBMの登場は2013年のことで、3D V-Cacheが発表された今年6月より遥か以前で、もしAMDがキャッシュとしてHBM系メモリーの搭載を計画しているのであれば3D V-Cacheの開発や製品化などそもそも必要が無いためである。
IntelがGlobalFoundriesを300億ドルで買収を計画中?
Intel in Talks To Buy GlobalFoundries for $30 Billion: Report - Tom's Hardware
Intelがファウンドリ事業拡大のためGFの買収を画策か? - マイナビ
最先端プロセスという観点ではGlobalFoundriesは見るべきものがない。しかし、そもそもPC/スマートフォン用以外では最先端プロセスは必要無く別の要件がある場面が多い。IntelがIDM2.0と呼ぶIntel Foundryビジネスで既存のIntel製品の需要とは異なる需要に対応するには、案外悪くない選択肢かもしれない。
例えばルネサスは今年2月のISSCCでハイエンド車載SoC「R-Car V3U」を発表したが製造プロセスはTSMC 12nmで、これはルネサスに限った話では無い。
組込半導体では製品寿命が長い(例:10年超の長期供給保証)からファウンドリーのLong Liveノードである必要があるし、長期供給なのだから最先端に拘ることは大きな意味も無い(どうせ4~5年後には最先端ではない)し、用途によっては高電圧のI/Oを扱う必要があるから先端の超微細プロセスは対応していない場合もある。あるいはコストに対するの要件が強くTSMC N7・N5など最先端で効果なプロセスは利用が困難な場合もある。
こういった需要は現行のIntel製品ではあまり対応の必要が無かったように思われるが、IDM2.0で多種多様な半導体の製造を受注したければ、そういう需要に対応できるプロセスノードが必要になる。
また、IntelとIBMが協業を考えているとすれば、IBMから工場・特許など知的財産・開発チームを引き継いだGlobalFoundriesは魅力かもしれない。また、IntelがGlobalFoundriesを買収した場合はIBMもGlobalFoundries相手の訴訟を取り下げるかもしれない。
IntelがGlobalFoundries買収に提案中という300億ドルという投資額は一般人からすれば膨大な額には違いないが製造設備や製造技術の額としては高価ではない。
例えばIntelは製造能力の増強に膨大な投資をしておりアリゾナ州に200億ドルでファブの建設を発表している。このアリゾナ州の新工場の性能は不明だが、TSMCが同じくアリゾナ州に120億ドルでファブを建設予定でこちらは20,000ウェハー/月とされているので、それをやや上回ることだろう。これに対しGlobalFoundriesの製造工場はニューヨーク州マルタのFab 8が60,000ウェハー/月、AMDから引き継いだドイツ ドレスデンのFab 1が66,000ウェハー/月である。
もちろんIntelのアリゾナ新工場(3nm?)とGlobalFoundriesの旧式工場(Fab 8は~12/14nm、Fab 1は~22nm)とではプロセスが違うし、そもそも最先端プロセスではマルチパターニングなどによりスループットが低くなる傾向があるため単純比較することは無理があるが、それを差し引いても新たに工場を建設し、新規顧客を開拓することを考えれば安上がりと言えなくもないかもしれない。