ALH84001

私的コラム&雑記(&メモ)

最近の気になった話題(2021年第33-34週)

2021-08-29 | 興味深かった話題

HotChips 33 - IBM z16 CP "Telum"

IBM Bets Big On Native Inference With Big Iron - The Next Platform

 IBMがHotChips 33にて同社の次世代メインフレーム=z16向けと思われる、Telumマイクロプロセッサーを発表したらしいが、個人的には驚くべき内容だった。

 Telumには推論アクセラレーターが統合されている点が注目されるが、IBMが推論アクセラレーターを開発しCPUに統合すること自体は驚くべきことではない。IBMは金融機関・政府向けにPOWER UNIXサーバーとSystem zメインフレームを製品として持っており、そのマーケットで要求されるアクセラレーターの統合は今回が初めてではない。これまでも10進浮動小数点・ZIP圧縮/展開などのアクセラレーターがハードウェアでサポートされている。
 筆者の理解ではメインフレームの用途はもっぱらレガシーで高信頼性が求められるワークロードに偏っているし、止まらないこと・演算の正確さが求められるが、推論であれ学習であれ機械学習領域は、勘定系などに比べれば数値的な意味で正確さはあまり求められないケースが多い。そのため一般的なメインフレームのワークロードからすると水と油の関係のようにも見えるのも事実である。
 ちなみに、今年後半に登場予定のPOWER10の場合ではCPUの拡張命令として Matrix Math Assist (MMA) enginesがCPUに追加されマトリックス演算をサポートしているが、z16ではコア外部のアクセラレーターとして追加されている。

 もっとも、The Next Platformも指摘する通りNVIDIA CUDAやAMD ROCmは専らx86-64、あとはせいぜいArm64・POWER向けで(Summit/SierraのようにPOWER CPUのLinux環境ではサポートされた実例がある)、メインフレームのような極めて閉鎖的・排他的なプラットフォームではサポートされないから、System zで推論アクセラレーターをサポートしたければIBMが開発して搭載する必要がある。

 個人的に気になるのは、全体構成としてどうなるのか?といった点である。
 前々世代・前世代であるz14・z15ではPCでいうCPUに相当するCPとCP間を接続するSPで構成されていたが、注目すべきはその大容量キャッシュで、CPにL1~L3キャッシュ・SPにIBMの御家芸ともいうべきeDRAMベースのL4キャッシュが積載され、L3キャッシュは12コアで共有の32 MB x 8 block = 256 MB、L4キャッシュは4 CPで共有の960 MBにも達した。

 これがz16 "Telum"ではCPがSoC化されCP同士で相互接続する形に変更された。"Telum"には8コアと32 MBのL2キャッシュが搭載され、z16 1ソケットは2チップのMCM構成となっている。1チップあたりのコア数はz15の12コアからz16では8コアと減ったが、1ソケットあたり2 CPチップのMCMとなったことでソケットあたりでは16コアに増えた。
 製造プロセスはz14/z15でのGlobalFoundries 14HPEからSamsung 7nmへと変更となり大幅にトランジスター密度が向上したが、チップの写真を見る限りでは増加したトランジスターバジェットのほとんどがL2キャッシュに割り当てられた感がある。

 z15では1 Drawerあたり4 CPが1 SPで接続され(共有キャッシュ容量は計1984 MB)、4 Drawerシステムでは各DrawerのSPが相互接続していた。これに対しz16では1 Drawerあたり8 CPチップが相互接続され(共有キャッシュ容量は計2048 MB)、4 Drawerシステムでは各Drawerの1 CPが他のDrawerの1 CPと相互接続する形になっている。
 注目すべきはL3~L4キャッシュを廃止しL2キャッシュを大容量化したことでSPチップを廃止してもキャッシュ容量は増加した点である。

 この変化は恐らくファウンダリー変更に起因している。
 元々、z13まではIBMが自社工場で製造しており、IBM伝統のeDRAMで膨大なキャッシュを統合していた。DRAMはトランジスター1個+キャパシター1個で1セルを構成するが一般的なSRAMはトランジスター6個で1セルを構成するため単位面積当たりの容量は一般に小さくなる。ただし、ロジック用プロセスで製造できるSRAMとDRAM/NAND用プロセスは異なるからeDRAMは先端製造プロセスでは一般的ではない。IBM System zの大容量キャッシュを実現していたのはIBM eDRAM技術と言って良い。
 2014年にIBMは製造部門をGlobalFoundriesに売却し、同社のPOWER・zのマイクロプロセッサーの製造もGlobalFoundriesに移行したが、14HPEは旧IBMの技術を基としており、恐らくそれが理由でeDRAMも搭載できていたと想像できる。

 しかし、今回のz16では製造がSamsung 7nmに移行し、恐らくeDRAMも使えなくなった。そこで、増加したトランジスターバジェットの多くをL2キャッシュに注ぎ込むことでSPを廃止しつつキャッシュ容量の増加に成功した。

Comment

先週の投稿記事の補筆修正

2021-08-07 | 興味深かった話題

 先週の記事で「Intelが新らしいプロセスノードのロードマップを発表」というタイトルでIntelのプロセスロードマップの発表内容について書いたのだが…舌足らずの部分があり、またメディアの報道との差異があるため、補筆・修正しようと思う。

Half Node世代の取り扱い

 PCWatch 笠原氏が記事中で以下のように記載されている通り、Intel 7=旧称10nm Enhanced SuperFin・Intel 4=旧名称7nmとするならばIntel 3は旧称7nm+と呼ばれるべきものだ。ASCII大原氏の記述もほぼ同様でIntel 3が旧称7nm++とされている違いがあるぐらいだ。Intel 3が旧称7nm+なのか旧称7nm++なのかについてはよく解らなかったのだが、Intel 3の後にHalf Nodeプロセスが無いので旧称7nm+・7nm++が統合されたと見るのが妥当かもしれない。

導入年名称フル/ハーフ
2021年Intel 7ハーフ
2022年Intel 4フル
2023年Intel 3ハーフ
2024年Intel 20Aフル
2025年Intel 18Aハーフ

 マイナビ服部氏の記事は以下の通りまったく異なる記載をしているが、筆者はこれは勘違いだと思う。Intel 4・Intel 3はそれぞれ旧称7nm・7nm+/7nm++、Intel 20Aは旧称5nmである。Intel 18Aは明快でないが、Intel 20Aからのタイムラグが僅か1年と考えると旧称5nm+と考えるのが妥当だろう。

  • Intel 4(=従来のIntel 7nmプロセスのEUV露光採用改良版。トランジスタ密度で比べるとTSMCのN5P/N4相当とみられる)。EUV露光装置の投入待ち、2022年後半に生産を開始し、2023年に量産開始を予定
  • Intel 3(=従来のIntel 5nmプロセス。ランジスタ密度では他社の3nm相当とみられる)。2023年の生産開始を予定
  • Intel 20A(=Intelの2nmプロセス)。2024年の生産開始を予定
  • Intel 18A(=Intelの1.8nmプロセス)。2025年の生産開始を予定

ここで勘違い頂きたくないのは、仮に誰か(服部氏か笠原氏か、あるいは他の誰か)が間違っているのだとしても筆者はライター諸氏を批判する気はまったく無い点である。 なぜなら、筆者が今回のIntelの発表を「リブランディング」と表現しているのは、Intelは名称を変更することでミスリーディングを発生させているように見えるからである。

補筆・訂正:過去のIntelのロードマップ

 先週の記事で掲載した表と説明が親切でなかったので改訂し補足説明したいと思う。
 そもそもの問題は2017~19年に10nm・2020~年に旧称7nmが遅延し、それ以前~2020年に発表されたロードマップが曖昧になってしまった点にある。延期が発表されたときに後続のロードマップへの影響の説明が不明瞭だったからだ。例えば2019年に仕切り直しでIEDM 2019でIntelとASMLによりロードマップとその後の方針が説明されたが、2020年8月に旧称Intel 7nmの半年の遅延が発表されて2022年以降のロードマップが再び不明瞭になってしまった。


Intel Roadmap
(Before 2017)
Intel Roadmap
(IEDM 2019)
Intel Roadmap
(August 2020)
Intel Roadmap
(New, July 2021)
TSMC Roadmap

Technology NameExpected DateTechnology NameExpected DateTechnology NameDate /  
Expected Date
Technology NameDate /
Expected Date
Technology NameDate /  
Expected Date
"7nm"10nm2017(10nm)(Cancelled)(10nm)(Cancelled)10nm(Cancelled)N72018
10nm+201810nm201910nm201910nm2019N7+2019
10nm++2019?10nm+202010nm SuperFin202010nm SuperFin2020N7P, N62019
(N/A)-10nm++202110nm Enhanced SuperFin2021Intel 72021--
"5nm"7nm2020?7nm20217nm2022Intel 42022N52020
(7nm+) 7nm+20227nm+?Intel 32023N5P2021


7nm++20237nm++?

N42022
"3nm"
(FinFET)
N/A-N/A-N/A-N/A-N32022
"3nm/2nm"
(GAAFET)
?
5nm20235nm?Intel 20A2024N22024-25?
  5nm+2024
 Intel 18A2025  


5nm++2025





 部外者が単純に考えれば、旧称7nmが半年遅延するなら後続のロードマップはすべて半年ずつ遅延する(→旧称5nmは2024年)ものと推測できるが、今回のIntelの発表での新情報は新名称だけで、ロードマップは半年分の遅延が確認されただけでしかない。今回のIntelの発表についてメディアの報道は概ね好意的だが、筆者としては同意できない。

「3nm」「Intel 20A」「Intel 18A」世代の取り扱い

 大原氏の記事の場合、TSMCはN2(仮称。N3の次世代で、TSMCはPost-N3などと表現している)でGAAFETを採用するということでIntel 20AとTSMC N2とを同一世代として扱っている。この場合Intel 20AとTSMC N2はGAAFETという技術世代で合致し、現時点で公開されている情報で判断する限り同一世代とするのは妥当そうに思える(※フィーチャーサイズなど詳細は未発表である。ただし2nm以下は微細化が停滞するので3nm以下の世代では微細化の程度はほぼ同等と推測できる)。

 しかし、大原氏のTSMC N4/N3をIntel 3と同等に扱う記載には疑問が残る。
 TSMC N3は確かにGAAFETではないがN7→N6やN5→N4のようなHalf Node世代でもないFull Node世代で、N5/N5P/N4→N3でトランジスター密度は1.7倍に向上し、相当するプロセス世代がIntelに無いからである(参考:AnandTechの記事)。
 Intel 3はIntel 4(トランジスター密度は~200 MTr/mm2)のHalf Node世代で恐らくトランジスター密度はほぼ向上しないからTSMC N3(トランジスター密度は単純計算で294 MTr/mm2)とでは同一世代とするのは無理がある。
 つまり、"5/4nm"世代プロセスの次にくるFull Node世代が、Intelでは20A・18AというGAAFETを採用した世代・TSMCでは従来のFinFETを採用したN3で、両者は単純比較できない。

 筆者はこのTSMCの保守的な方法はファウンダリーとしては正しく、Intelの7nm FinFET→5nm GAAFETへのジャンプはファウンダリーとしては危ういと考える。
 TSMCは新技術導入の際は従来技術でFull Nodeを開発しつつ、並行して新技術を開発する。例えばFinFETの時は通常のHKMGの20SoCのバックエンドを流用して16FFを作ったし、EUVの時はFull NodeのN7を従来のDUVで作ったうえでN7+・N7P・N6でEUVを段階的に導入している。言い換えれば16FF/N7+/N2といった新技術を採用したノードがうまく立ち上がるか否かにはリスクがあるが、TSMCは違いの少ない・旧技術を使った別ノードとして20nm/N7/N3を持つことでリスクを軽減しているわけだ。

 このことは技術的には面白みに欠けるが、顧客からすれば製品計画を立てる上で重要だ。7月にAppleとIntelがTSMC N3の最初の顧客と報じられたが、言い換えればAppleもIntelも2022年後半にTSMCで現在の最新世代=N5より2世代も進んだトランジスター密度が1.7倍のプロセスを確実に利用できるという確固とした製品計画を立てることができるためだ。

Intel 20A(GAAFET)はうまく立ち上がるのか?

 大原氏は記事中でGAAFETを採用するIntel 20Aの立ち上げに疑問を投げかけられているが、筆者も同意見である。14nmで大きくもたつき予定通りの性能を達成できず、10nmで2年間も遅延した上に予定通りの性能を達成できず、7nmで少なくとも半年遅れているのに、5nmでスケジュールを信じろという方が無理があるだろう。

 ところで、今週のマイナビで興味深い記事が出ている。
次世代トランジスタ構造「GAA」関連特許出願数の最多はTSMC - マイナビ

 筆者には記事中に掲載されている数字と、ファウンダリー各社の説明内容の齟齬やウワサ話が興味深く思えて仕方が無い。

 特許数と実際のプロセスの開発の進捗状況とが完全に一致するとは限らないが、特許数シェアではトップを走るTSMCの後にSamsung・IBM・GlobalFoundriesと続きIntelは5番目でしかない。ところが、ファウンドリー各社のロードマップではTSMCのPost-N3(通称N2)は2024~25年・Samsung 3GAP/3GAEは2022年・IntelのIntel 20Aは2024年とされており一致しない。
 Samsungは特許数2位で20%ものシェアをもっており、先月末から試作を開始しているので信憑性はあるが、果たしてIntelのロードマップに信憑性があるか?というのは疑問である。

 しかし、思い返してみるとIntelとIBMは提携を発表しており、Intelは最近GlobalFoundriesの買収を交渉中と報道された。もしIntel(特許シェア4.7%)がGlobalFoundries(特許シェア5.5%)を買収した上でIBM(特許シェア10.2%)と広域なクロスライセンスを行うと仮定すると、IntelはSamsungに匹敵する20.4%もの特許にアクセス可能となる。
 もちろん、2021年8月現在でIntelによるGlobalFoundries買収は実現していないし、IBMとの提携も半導体のプロセス製造の共同研究開発というだけでGAAFET関連のクロスライセンスとまでは言及されていないが、Intel単独では実現が難しそうでも買収や提携という力業により実現性の確度を高めることは可能かもしれない。

Comment (1)

最近の気になった話題(2021年第30週)

2021-08-01 | 興味深かった話題

Intelが新らしいプロセスノードのロードマップを発表

Intelが今後4~5年で5世代分のプロセスノードを連投 - PC Watch
Intel Process Technology Updates - WikiChip Fuse
Intel Charts Manufacturing Course to 2025 - EETimes

 記事のライター=笠原氏に文句を言うつもりは無いが、筆者の感覚としてはIntelの新らしいロードマップは、とりあえず2023年までは「リブランディング」が中心で既存のロードマップとほぼ違いは無く、同社の遅延を大きく盛り返すものではなさそうに思える。
 問題はその先=2024年の「Intel 20Å」プロセスで、これがもしIntelの宣伝通りであれば問題無いが、スケジュールが遅延した場合はTSMCを追跡できていないことになる。ちなみに、現在の予定では「Intel 20Å」はGate-all-aroundの、Intel 3とはまったく異なるプロセスである。

 Intelのプロセスロードマップは2017年に躓いてから7nmやその先の詳細な情報があまり出ていなかったため、新プロセスノードの登場時期の当初の予定などについてはある程度推測するしかないが、2016年に発表した開発モデルに倣うのであれば10nmは2017年・7nmは2020年に登場したはずだったのではないかと想像する。
 2016年以前のIntelは、プロセスノード(フルノード)更新とCPUアーキテクチャー更新を交互に2年毎に行っており「Tick-Tock」モデルと呼ばれていた。それが、プロセスノード開発の難易度上昇に伴いフルノードの更新が2年毎から3年毎に延長することを発表したのが2016年のことだった。当時最新の14nmプロセスの登場が2014年のことだったから、2017年に次世代=10nmプロセスが登場予定で、そこから推測すると、次々世代=7nmプロセスも2020年頃に登場する予定だったことだろう。
 ちなみに、2012~14年までのIntelは競合他社TSMC・Samsungに対し1世代ほども先行していたが(参考)、2014~16年にその差が縮まる予定だった。ところが、蓋を開けてみるとIntel 10nmはさらに2年間も遅延し、現在ではTSMCが2年間先行する状況となっている。

 下の表は過去のIntelのロードマップ・今回のIntelのロードマップ・TSMCのロードマップを纏めたものである。TSMC 5nmと同等の「Intel 7nm」を「Intel 4」と呼び変えて見た目の印象は改善しているが、3nm世代の投入時期がTSMCは2022年・Intelは2024年で、特に現在から変化していないことが解る。


Intel Roadmap (Old)Intel Roadmap (New)TSMC Roadmap

Technology NameExpected DateTechnology NameDate /
Expected Date
Technology NameDate /  
Expected Date
"7nm" Class10nm2017(Cancelled)-N72018
10nm+201810nm2019N7+2019
10nm++2019?10nm SuperFin2020N7P, N62019
(N/A)-Intel 72021--
"5nm" Class7nm2020?Intel 42022N52020
(7nm+)
Intel 32023N42021
"3nm" Class?
Intel 20A2024N32022


Intel 18A2025

 もちろん、Intel 3nm=20Åは新技術=Gate-all-around採用で、TSMC N3よりも先進的で単純比較することはできない。しかし、Intelは10nmの時もフィーチャーサイズやコバルトが他社よりも優れている(参考1参考2)と宣伝し続けて2年間以上の遅延した上に低性能だったという過去があるので、その点を過剰に評価するのは控えたい。

 ところで、EE Timesの記事によるとQualcommがIntel 20Å、AWSはIntelのパッケージング技術の採用が発表されたらしい。

 筆者の印象ではQualcommは値引きと製造量の確保ができれば、割と柔軟に製造企業を選ぶように思われる。
 Snapdragon 888でQualcommはSamsung 5LPEプロセスを採用したが、Samsungが大幅なディスカウントをしたというのがもっぱらのウワサである(当然ながら公式情報は無いが…)。恐らく5nmではApple・NVIDIA・AMDとの予約枠の獲得競争もありTSMCよりもSamsungの方が製造量を確保しやすかったというのも理由のひとつだろうと邪推する。また、Qualcommは米国政府による対中国貿易制裁以前ではローエンドSoCを中国SMICで製造していたこともある。
 もちろん、これはAMD・NVIDIAとは違い論理合成で済ませているため比較的柔軟にファウンダリーを載せ替え易いということにも起因しているのだろう(参考)。

 AWSの採用するIntelのパッケージング技術というのはよく解らない。
 AWSは子会社Annapurna LabsがSoCやNPUやENAなどのASICを手掛けているが、パッケージング技術(例:Foveros Omni・Foveros Direct・EMIB)だけでは何を製造・パッケージングするのか解らない。
 言い換えるとAWSは現時点でのIntelでの製造は確定していないわけで、その場合はIntelで(AWS以外が?)製造した別の半導体と一緒にパッケージングするのでなければ、わざわざIntelでパッケージングする辻褄が合わない。
 筆者の想像ではNPUかENAなどとIntelの既成のXeonやFPGAとをオンパッケージ(プロトコルはCXLか?)で接続したものを企画しているのではないかと思うが、続報を待ちたいところである。

Comment