ALH84001

私的コラム&雑記(&メモ)

最近の気になった話題(2021年第43週)

2021-10-30 | 興味深かった話題

TSMCがN4Pプロセスを発表

TSMCが5nmプロセスの改良版「N4P」を発表 - マイナビ
TSMC intros N4P process - DigiTimes
TSMC Extends Its 5nm Family With A New Enhanced-Performance N4P Node - WikiChip Fuse

 TSMCがN4Pプロセスを2022年後半から提供することを発表したそうだ。同じく2022年後半からフルノードプロセスのN3の量産が始まる予定を考えると面白みには欠けるかもしれないが、この意義を考えてみる。

 N4Pプロセスの意義するところを考える前に、そもそも現実的な話としては特殊な技術力やスタッフや資金を持たない半導体企業が~2022年末時点で選択可能な先端プロセスはTSMC N5/N5P/N4である。これは、以前の記事でも何度か述べたが、半導体企業の多くはファウンダリーのプロセスノード(この場合はTSMC N3等)に最適化された高速PHY(アナログ回路)を開発する技術あるいはTSMCと提携して数カ月~1年がかりで各種PHYを開発する技術や人的資源を持っておらず、Synopsys・Cadence・Siemens EDA(旧MentorGraphics)に代表されるEDAベンダーの提供するPHY IPに依存しているが、これらの企業が一般に提供しているPHY IPの最先端のもので一式揃うのがTSMC N5/N5P/N4だからである。N4Pはここに加わることになる。
 EDAベンダーのIPに頼らずMemory PHYやPCIe PHYなど一式を自前で揃えることが可能な半導体企業というとAppleやIntelあたりが代表的で、実際、2022年に登場するTSMC N3は2022年はAppleとIntelが独占的に予約を入れているという。

 そんな中登場するTSMC N4Pについては一部詳細が不明だが、恐らくはEDAベンダーのTSMC N5/N5P/N4向けPHY IPを含む既存の各種IPをそのまま流用できるのだろうと想像する。
 Qualcommのような多くのモバイルアプリケーションプロセッサーベンダーは、ArmやSynopsys等IPベンダー製のIPや内製のIPを論理合成し、ファウンドリーのスタンダードセルライブラリーや自動配線を使って物理設計を起こしている。この場合、理屈だけで言えば論理合成時のターゲットとなるプロセスノードを変更するだけでN5/N5P/N4からN4Pへの移行ができてしまうことになる。
 もちろん実際には、トランジスターの特性などの違いにより、スタンダードセルライブラリーや自動配線そのままでは期待した性能を発揮せず、一部カスタマイズして最適化する必要がある場合もあろうから、そこまで単純な話では無いだろうが(参考1:BroadcomがArm TechCon 2015で発表した最適化の事例参考2:大原氏による半導体開発プロセスの解説)、N3用にI/OのPHYをすべて自前で設計するよりは圧倒的に現実的である。

Comment

Apple M1 Pro/M1 Max

2021-10-19 | 興味深かった話題

CPUもGPUも最高性能となったM1 ProとM1 Max - PC Watch

 AppleがMacBook Pro用にM1 Pro・M1 Maxを発表したため、今回はこれについて考えてみる。
 Apple M1 Pro/M1 Maxのコンセプトを筆者(※部外者)の独断と偏見で端的に述べるとすれば、「ハイエンドGPUのダイサイズに、他社の一世代前のハイエンド相当のGPUと、Apple A/Mシリーズで既存のCPUやメモリーコントローラなどを統合したSoC」となる。

 Apple M1/M1 Pro/M1 MaxはTSMC N5で製造されていると見られるが、TSMC N5のトランジスター密度(171.3 MTr/mm2)は、AMDがRyzen "Zen 3" CPUやRadeon "Navi21" GPU、NVIDIAが"Ampere" "GA100"の製造で使用しているTSMC N7(91.2 MTr/mm2)の約1.88倍で、つまり単位面積あたり約2倍のトランジスターを集積できる。
 つまり、ラフに言えばハイエンドGPU程度のダイサイズに一世代前のハイエンドGPUを搭載しても約半分ほどの余裕ができ、ここにCPUやメモリーコントローラーなどを搭載する統合したSoCを載せたものがApple M1 Pro/M1 Maxの基本的な考え方だ。より具体的には、NVIDIA GeForce RTX 3090などで用いられるNVIDIA "GA102"がSamsung 8nmプロセスで28,300 MTr/628 mm2、AMD Radeon RX 6900 XTなどで用いられるAMD "Navi21"がTSMC N7プロセスで26,800 MTr/520 mm2だから、TSMC N5で500 mm2程度のダイサイズであれば50,000 MTrのチップであれば、"GA102"/"Navi21"と同クラスのGPUと、CPUやメモリーコントローラーを搭載すればApple M1 MaxのようなSoCが実現できる。実際、M1 Maxは57,000 MTr(M1 Proは33,700 MTr)とされている。

 ただし、この「一世代前」の部分がキモである。なぜならAppleは製造プロセスで他社を1年以上も先行しており、Appleの現行品≒他社にとっての「一世代先」の製品がカレンダー上の同時期に登場することが可能となっているからだ。
 例えば、AMDやNVIDIAは現在TSMC N7やSamsung 8LPPを使っているが、Appleは2020年のA14からTSMC N5を使用している。AMDがN5を使用するのは2022年後半の"Zen 4"からとされる。そのため、Apple M1 Pro/M1 Maxと"GA102"/"Navi21"が市場に共存する事態となっている。

 つまり技術的に可能だということは解るが問題はビジネス的な部分である。
 そもそもAppleがTSMCで最先端プロセスを他社に先駆けて採用できるのは製造数量や支払額が桁違いの大口顧客だからであるし、膨大なエンジニアリングリソースを抱えているからである。その2点を真似できるような企業は世界中にAppleを含め数社しかいない。

 M1 Pro/M1 Maxはゲームコンソール用SoCのような外観をしているが、例えばXbox Series X用SoC "Scarlett"が360 mm2PlayStation 5用SoC "Oberon"が308 mm2でしかない。300-350 mm2というダイサイズはAMD Radeon RX 6700 XT "Navi22"の335 mm2と同クラスでNVIDIA GeForce RTX 3070 "GA104"の392 mm2よりも小さい、アッパーミドルクラスに相当する。ダイサイズが増えると不良率は指数関数的に上昇するが、その一方でPC用CPU/GPUと違いゲームコンソールなどではスペックがせいぜい1~2種類しかSKUを派生できないため、歩留まりを考慮するとダイサイズを肥大化させ難い。
 そんな中、AppleはM1 MaxでハイエンドGPUに匹敵する500 mm2クラスのダイサイズのSoCを、それも(Appleの公開したダイショットを信じるならば)コアの冗長も無しに実装している。想像するに後でコア数を減らしたSKUを用意するとは思うが、Appleのような金持ち企業の戦略商品以外では考えられない。
 そもそもXbox Series X|SもPlayStation 5も発表から1年弱でそれぞれ世界で650万台・1000万台しか売れていないが、その一方でAppleはiPhoneを1年間で2億3000万台以上(※2021年度の予想)M1搭載Macを2020年第4四半期のみで689万台も出荷しているAppleだからできることである。

 また、恐らくAppleはアナログ回路のエンジニアも相当数抱えているものと思われる。
 昨今の半導体開発はSynopsys・Cadence・Siemens EDA(旧MentorGraphics)に代表されるEDAベンダーのIP抜きには実装が困難で、特に物理層(PHY)周りはIPベンダーのものを採用することが多い。微細化された回路ではCPUやメモリーコントローラーなどの1V前後が一般的で、大電圧を扱うことが困難でUSBの5VやPCIeの3.3Vを扱うことは難しいからである。
 そのため、AMDのような半導体企業はMemory PHYやPCIe PHYなどが出揃うのを待つ必要があるが、SynopsysのWebサイトの状況を参考にすると、TSMC N5向けに登録されたのはLPDDR4/5 PHYが2020年6~8月頃・PCIe 5.0 PHYが2020年10月~2021年1月頃である。AMDのような企業がこれらを採用する場合は2021年後半~2022年前半といったスケジュールが妥当で、Zen 4の2022年後半というスケジュールはおかしくない。
 Appleのように2020年後半のファウンダリーの量産開始時期に合わせてSoCを出荷するというのは、裏を返せばPHYをEDAベンダーのIPに頼っていないということで、つまり2020年前半には実装が完了していることになる。これは潤沢なリソースが無ければできない話である。
Comment

最近の気になった話題(2021年第41週)

2021-10-16 | 興味深かった話題

あるブログ記事の「インテルCEO「AMDは終わり」」発言について

 とあるブログメディアがWCCF TechCRNなどの記事を引用(※後述)し、Intel CEO Pat Gelsinger氏が同社の新CPUについて「AMDは終わり」と発言したと記事にしており、それが某巨大掲示板など一部で話題となっているのでコメントしておこうと思う。

 これには2つの論点があり、Gelsinger氏の発言そのものの意味(誤訳や恣意的な切り取りの有無など)について、また内容の妥当性について考える必要がある。
 まず前者について言えば誤訳というか恣意的な切り取りというのが妥当と思う。実際の発言(CRNより引用)は「AMD has done a solid job over the last couple of years. We won’t dismiss them of the good work that they’ve done, but that’s over with Alder Lake and Sapphire Rapids(AMDは過去数年で堅実な仕事をした。我々は彼らのしたそれらの良い仕事を無視する気は無いが、しかし、それもAlder LakeとSapphire Rapidsで終わる)」と自社製品と他社製品の優位性を比較して論じており、要するに「他社の優位が終わる」としか言っていない。これを「他社が終わる」と言うと他社が倒産でもするようだが、そういう事を言っているわけではない。

 では、Intel "Alder Lake"はAMD Zen 3/Zen 4に比べて素晴らしいのか?という話だが、これもWCCF Techなどの報じた内容を見ると想定の範囲内で、単に2017~2021年の間に渡りIntelが一方的に不甲斐なかったというだけのように見える(後述)。

 そもそもの話をすれば、Intel Coreに対するAMD Zenのコンセプトを端的に言い表せば、同年代のIntel Coreに比べ8割程度のコストで9割以上のシングルスレッド性能と同等以上のマルチスレッド性能を達成する、ということになろうかと思う。そして、そのコスト削減分を活用して同価格帯で+2コアのコア数を実現している(クライアント向けRyzen SKUの場合。サーバー向けEpyc SKUの場合では1.5~2倍近いコア数になる)。
 このため同世代ではIntel Core 10コアとAMD Ryzen 12コアは同等のコストになる(もし1コアあたり1.0:0.8なら、Intel 10コア対AMD 12コアで10:9.6でほぼ同等になる)し、シングルスレッド性能ではIntel CoreがAMD Ryzenを10%ほど上回るが、マルチスレッド性能では+2コア分が活きAMDが大幅に逆転することができる。

 そのため、AMD ZenファミリーのCPUアーキテクチャーは、最速性能を追求したというよりも、性能/コストや性能/消費電力などの現実的なバランスを取った(悪く言えば妥協した)ものに見える。
 例えば初代Zen/Zen+を見てもAVXユニットの物理実装はIntelの半分の128-bitで、これはAVXユニットそのものとLoad/Storeユニットの実装コストを削減できる。また、Chiplet化も他のCCXに付随するキャッシュへのアクセス遅延は無視できないほどに悪化するが、その一方で歩留まりの大幅な向上に役立つ。さらに現行モデルでもIntelはAVX-512を実装し、その効果を宣伝しているがAMDは実装していない。これらはすべて、性能が若干劣化するが大幅にコスト削減に寄与するものである。

 実際、2018年後半~2020年のIntel Core Gen 9-10・AMD Zen Gen 2-3を無視して、Intel "Coffee Lake"対AMD "Zen+"やIntel "Tiger Lake"対AMD "Zen 3"を比較すれば、上述の「Intel Coreに比べ8割以下のコストで9割以上のシングルスレッド性能と同等以上のマルチスレッド性能」・「AMDが+2コア」の構図は概ね正しいはずで、2018~2020年にAMDが素晴らしい実績を残したというか、Intelの製造技術が一方的に躓いた、という方がしっくりくる。
 以下はAnandTechからの引用と、対Core i7 8700K比での性能を示したものだが、シングルスレッド性能はCore i7 8700KがRyzen 7 2700Xに対し概ね10%上回るが、マルチスレッド性能ではCore i7 8700Kの6コアに対しRyzen 7 2700Xは8コアで逆転している。


Core i7 8700KRyzen 7 2700X
CineBench R15 Single-Thread
vs 8700K
205
100%
177
87%
CineBench R15 Multi-Thread
vs 8700K
1428
100%
1792
125%

 これはAMDの実績を否定しているわけではなく、仮にIntelが順調だったとしても、上述のAMDの巧妙な戦略により十分互角に戦えていたという意味である(単に、現実は想定よりも圧倒的だったというだけで)。

 今回CRNやWCCFが報じたAlder Lakeの性能についても、概ね予想の範囲内と言って良い。IntelもAMDも世代毎に10%強のIPC向上と5%強の動作周波数の向上との組み合わせで世代毎に20%前後の高性能化を果たしているからだ。
 下記はWCCF Techからの引用と、Core i9 11900K比での性能を示したものだが、例えばシングルスレッドの"Alder Lake"の825とZen 3の647という数字だけを比較すれば圧倒的な性能差に思えるが、来年初頭に登場するZen 3 + V-Cache(通称Zen 3D)や来年後半に登場するZen 4で20%程度の性能向上すると仮定すれば、現状(Intel "Tiger Lake"対AMD "Zen 3")から大きく形成が変化するようなものでもない。
 ただし、Intelからすれば2018~2020年の間のような劣勢になることもない(≒AMDの圧倒的優位は終わる)。


Core i9 11900KCore i9 12900KRyzen 9 5950X
CPU-Z Single-Core,
vs 11900K
682
100 %
825
121 %
647
94 %
CPU-Z Multi-Core
vs 11900K
6563
100 %
9423
144 %
11856
181 %
Comment