AMD Zen 2世代Epycについての疑問

2020-03-28 | テクノロジー

4ソケット構成

　広くは知られていないように思うが、実は第二世代Epyc "Rome"は理屈上では4ソケット構成に対応しているという（※ISSCC 2019での公式発表に基づく）。現状2ソケットに制限されているのがマーケティング的な理由によるものか技術的に不具合があったのか定かではないし、今後、Zen 2世代Epyc = "Rome"のまま4ソケット構成が出る気配は無いが、理屈上では確かに構成できそうに見える。

　AMDのチップレットアーキテクチャーを支えるファブリック＝Infinity Fabricにはオンパッケージで接続するIFOPとソケット間で接続するIFISがあるが、ZenではIFIS・PCIe・SATAでSerDes/PHY（SynopsysのEnterprise 12G）が共有されており、Zen世代Epyc "Nabpes"では計128レーン（16レーン x 8ブロック）となっていた。IFISではこのうち各64レーンがソケット間接続に使用され、残りの各64レーン x 2ソケット＝計128レーンがPCIeとして使用可能となっていた。PHYそのものは12 GT/s対応だがIFISの転送速度は10.76 GT/sである。

　興味深いことに、Zen 2世代Epyc="Rome"でもSerDes/PHYの総数は128レーンで変更が無いが、2ソケット構成時に使用可能なPCIeレーン数は160レーンと増えている。逆算すると"Rome"ではIFISとして使用しているのは各48レーンという計算になる。ちなみに、Zen世代IFv1からZen 2世代IFv2では動作速度が向上して10.76 GT/sから18 GT/sになっているのでレーン数が3/4になっても転送速度は約1.25倍となり、むしろ向上している。
　PHYが高速化された理由のひとつはPCIe Gen4（16 GT/s）対応による部分もあろうが、最高18 GT/sに対応するため16G PHYではなく、より高速なPHYが採用されていると思われる。となるとSynopsysだと25G PHYぐらいしか該当せずよく分からない。

　ちなみに、PHY関連ではZenでAMDはRambusのMemory PHYを採用されると言われていた。これはRambusとの契約を延長したからだが、SynopsysによるとAMD ZenのMemory PHYはSynopsysのDDR3/4 PHY IPのようだ。

　Epyc "Rome"のsIODにはIFIS/IFOPの論理層であるCAKEが8基搭載されており、理屈上では128レーンすべてをIFISとして使うことが可能だ（もっとも、その場合はPCIe 0レーンとなるので現実的ではないが）。

"Rome"で4ソケット構成を採る場合、例えば32レーンずつ4ソケットを完全結合で接続すると各ソケットあたりIFIS 32 x 3レーン + PCIe 32レーンとなり、合計で4ソケット PCIe 128レーンを構成することができる。このため、理屈上では4ソケット構成は可能である。
　尚、32レーン以外の構成（例えばソケットあたりIFIS 16レーン x 3 + PCIe 80レーンとかIFIS 48レーン x 2+ 32レーン + PCIe 0レーンによる完全結合とか）も理屈上では考えられるが、ソケット間の通信帯域のバランスやPCIeのレーン数を考えれば実現性はさらに低そうに思える。

　筆者が想像するに、AMDが4ソケット構成を製品化していないのは3点の理由があると考えられる。
　まず1点目は現状でも既にIntelに対し優位に戦えるので隠し玉としている可能性がある。価格が倍以上の"Cascade Lake"世代Xeon Goldでは1ソケットあたり最大24コア（6252・6252N・6262V）で4ソケット構成でも96コア/192スレッドにしかならない。"Rome"では2ソケットで128コア/256スレッドで対抗可能なため、無理して4ソケット製品を出す理由は無い。
　2点目はInfinity Fabricの性能またはレーン数の不足である。Zen 2世代IFISではPCIe Gen4と同じPHYで2ソケット時48レーンでも1.25倍の転送速度を確保したが、上述の通り4ソケットを構成するにはIFIS 32レーンで構成とするとZen 2ソケット間と比べ0.8倍になってしまい、うまくスケールしない可能性がある。今後、論理層CAKEとPHYの数を増やすか、PHYの速度を向上すれば4ソケットでも転送速度を確保できるかもしれない。
　3点目はAMDの製造キャパシティの問題である。Intelが10nmで躓いて供給能力が落ちているのでAMD製品に流れる可能性があるが、サーバーでは主流は2ソケットである。AMDとしては2ソケットに潤沢に製品を供給する必要があり、Epyc 7001シリーズと比べ7002シリーズではSKUも増やして充実させている（1ソケット構成が4 SKU→6 SKU、2ソケット構成が12 SKU→15 SKU）。

　もっとも、Zen 3世代かZen 4世代では4ソケット構成が登場すると推測する。
　既報の通り、AMDはFinancial Analyst Dayにて現在42.6％の粗利率を50％・営業利益率20％に引き上げる目標を掲げている。言い換えれば、これまで通り販売数を増やすだけでなく1製品あたりの利益率を引き上げる必要があるが、その目標と現在のEpycのSKUには大きなギャップがあるように思われる。
　現在のSKUは、言ってみればIntel Xeon Gold（4ソケット時16～96コア・$4,884～$17,036）相当品をXeon Silver以下の価格（2ソケット時16～128コア・$950～$13,900）で売っている状態である。これはバーゲンセール状態でシェアを奪う目的には合致しているが、利益率（例えばIntelは粗利率58.6%・営業利益率30.6%である）を上げる目的には合致していない。そのため、より利益率の高いIntel Xeon Platinum相当品が必要になる。4ソケット構成Epycはその目的にうまく当て嵌まりそうに見える。

Epyc Embedded

　まず結論から述べれば、筆者はAMDはZen 2世代でEpyc Embeddedをリリースしないのではと推測している（あるいはZen世代をリネームしてリリースすることは考えられる）。
　これは、Zen世代Epyc EmbeddedではRyzen/Epycで使用されたZeppelinダイを流用し、Enable/Disableする機能を変更することでRyzen EmbeddedとEpyc Embeddedを作り分けていたが、Zen 2世代の既存のチップレットデザインではそれが難しいせいである。

　そもそも、Epyc Embeddedとは何かというと、Opteron Aシリーズの後継・Intel Xeon DシリーズやIntel Atom Cシリーズの対抗製品である。
　いずれもネットワーク機器への組込などの用途を見込んだものだが、Intel製品の場合は10GbE MACが搭載されているほかQuickAssist TechnologyなどI/O周りのアクセラレーターが統合されたSoCとなっている。もっとも「ネットワーク機器」と言っても、せいぜい～40 Gbps程度だからNAS用か、あるいはルーターやスイッチであればBroadcom Tomahawkなどをデータプレーンに使い上位レイヤー処理兼コントロールプレーン用であるが。

　そういうマーケット向けに登場したEpyc Embeddedであるが、SuperMicroなどから搭載ボードが出回っているあたり、それなりに採用されていると見られる。
　ZeppelinはSynopsysの10GbE MAC IP（通称AMD XGE = AXGBE）を4基搭載しており、Epyc EmbeddedではZeppelin 1～2チップレット構成のため10GbEを4ポートまたは8ポート使用することができる（別途、外付けのEthernet PHYが必要である。ちなみにSuperMicro製ボードではAXGBEは無効化されており、Intel 1GbEが外付けされている）。

　筆者がZen 2世代でEpyc Embeddedが登場しないと考える理由は、この種のSoCではI/O性能が重要であるにも関わらず、現状ではEpyc Embeddedに適したIODチップレットが存在しないからである。
　Zen世代Epyc Embeddedは1～2チップレット構成のため、ほぼサーバー用Epycを1/4～1/2にしたような構成となっており、メモリーは2～4チャンネル、I/Oも上述の10 GbE 4～8ポートに加えPCIe 32～64レーン（ただし10GbE有効時はPCIeレーンが1ポートあたり1レーン減る計算になる）を使用可能となっている。
　Zen 2世代では、CPUコア数だけを見ればcIODを流用してEpyc Embeddedを構成できそうに思えるが、メモリーは2チャンネルのみ、I/OもPCIe 32レーンのみでCPUコア数以外が対応しておらず、10GbE MACは搭載すらしていない。つまり、Zen世代Epyc Embeddedを置き換えるには現在のチップレットの組み換えでは対応できず、新規に組込専用IODチップレットを起こす必要があるが、筆者の推測ではその実現性は低そうに思える。

　また、筆者がAMDがZen 2世代でEpyc Embeddedを投入しないと考えるのは、組込業界特有の理由もある。
　そもそも組込業界の製品ライフサイクルは遅く製品化まで5年・製品の終息まで10年以上とかがざらで、むしろ製品の長期供給とサポートの充実が重要になる。そのため、Zen→Zen 2→Zen 3と毎年のように新製品をリリースすると大変というのも理由のひとつである（毎年製品を投入し、これを10年間サポートすると、10製品ファミリーを並行してサポートする必要が出てくる）。実際、NVIDIAなどもTegraなど組込製品を持っているが、PC/サーバー向けGPUを毎年のようにリリースする一方で、Tegraは"Parker"（2016年）→"Xavier"（2018年）→"Orin"（2021年）と2～3年毎となっている。

	【11/18】goo blogサービス終了のお知らせ
	【PR】ドコモのサブスク【GOLF me！】初月無料
	【コメント募集中】goo blogでの思い出は？
	「#gooblog引越し」で体験談を募集中

ALH84001

私的コラム＆雑記(＆メモ)