goo blogサービス終了に伴い、ブログの投稿先を移転します。
新blog:https://alh84001.hatenadiary.com/
goo blog管理画面によると「ブログ開設から7270日」だそうです。
そもそも投稿が不定期だし、途中で中断したり、内容が新しい記事と合わない古い記事を削除したりしたため、7220日間積み重ねた実感は無くピンと来ないものの、個人的に主張したいたいことを書ける場として重宝してきたので、Hatenaに移転して続けようと思います。
goo blogサービス終了に伴い、ブログの投稿先を移転します。
新blog:https://alh84001.hatenadiary.com/
goo blog管理画面によると「ブログ開設から7270日」だそうです。
そもそも投稿が不定期だし、途中で中断したり、内容が新しい記事と合わない古い記事を削除したりしたため、7220日間積み重ねた実感は無くピンと来ないものの、個人的に主張したいたいことを書ける場として重宝してきたので、Hatenaに移転して続けようと思います。
Nintendo Switch 2 2025年発売予定 - 任天堂
任天堂がNintendo Switch 2を正式発表したようなので、前回に引き続き分析した結果を書いておく。なお、ここで書く内容は現時点(2025年1月16日)で公式発表には沿っていないため誤りの可能性があることは断っておきたい。
まず疑問に思うのは、現行Nintendo Switch比で性能はどの程度向上したか?それは何故か?ではないかと思う。以下に想定されるスペックを書いてみるが、動作周波数など不明な部分は同系列のSoCを使うNVIDIA AGX Orin/Jetson Orinのスペックを参考に推定している。
Nintendo Switch | Nintendo Switch 2 | Estimated Improvements | |
---|---|---|---|
CPU | Arm Cortex-A57 x4 1.02 GHz | Arm Cortex-A78 x8 around 1.5 GHz? | x4 - x6 ? |
GPU | NVIDIA Maxwell 8SM (256MADs) 307 MHz, 236 GFLOPS (Undocked) 768 MHz, 393 GFLOPS (Docked) | NVIDIA Ampere 12SM (1536MADs) 1.0 GHz 3072 GFLOPS? (Docked) | x7.8 ? |
NPU | N/A | TensorCore | |
NVDLA2 | |||
Memory | LPDDR4-1600 x64 25.6 GB/s | LPDDR5X-7466 x128? 150.0 GB/s? | x5.9 |
4 GB | 12 GB | x3.0 |
恐らく、上述の通り性能の推定は不確かだが、それでも恐らく現行Nintendo Switchの3倍~8倍になると思われる。
問題はメモリーが12GBで3倍にしか増えない点である。
恐らく、Nintendo Switch 2ではネイティブで4K解像度がサポートされないことになる。恐らくネイティブでは1440p解像度までのサポートとなり、4K解像度はNVIDIA DLSS 3あるいは類似の超解像度技術でのサポートとなることだろう。
現行Nintendo Switchではドック接続時で1080p解像度までサポートとなるが、Full HD/2Kと4Kとを比較すると、ゲーマー視点では縦2倍x横2倍の4倍でしかないが、演算量・データ容量としては縦2倍x横2倍x奥行2倍の8倍になってしまう。これは頂点の数やテクスチャーのデータサイズが8倍になるという意味である。現行Nintendo Switchを基準にすると、Nintendo Switch 2は演算性能・データ容量で8倍には僅かに届かず、特にテクスチャーを格納するメモリーは3倍の12GBしかない。これではネイティブで4K解像度サポートは厳しいと考えられる。
とはいえ、仮に性能が最悪の条件で3倍としても概ね1080pの1.3~1.5倍の解像度までサポートできる(縦1.5倍x横1.5倍x奥行1.5倍 = 3.38倍)ので、WQXGA(2560x1600)か16:9解像度だとQHD(2560x1440)になる。
これだと4K解像度に満たないが、NVIDIA DLSSやAMD FSR等で実装されている超解像技術ではネイティブ1440p程度から4K(3840x2160)へのアップスケーリングが推奨されることが多いため、案外綺麗な4K出力を得られるかもしれない(参考)。
ネイティブで4Kをサポートしないのに超解像なら4Kをサポートできるのは、ネイティブだと3Dで縦2倍x横2倍x奥行2倍の8倍になってしまうのに対し、超解像技術は既にレンダリングが終わった画像を拡大するので2Dで縦2倍x横2倍の4倍にしかならない上に、拡大する元のデータも頂点とか元のテクスチャーの見えない部分を含ない画像データで相対的に小さいためである。
超解像をサポートする上で嬉しいのが任天堂のパートナーがNVIDIAという点である。NVIDIA製GPUにはTensorCore・SoCにはNVDLA(NVIDIA Deep Learning Accelerator)が搭載されており、クラスとしては非常に高い推論性能を誇る。例えばWindows 11搭載PCの上位機種でサポートされる「AI PC」の要件はNPUで40 TOPS以上となっているが、Nintendo Switchに搭載されるNVIDIA OrinではNVDLA 2 x2基・TDP 10~25Wで40 TOPS・TDP 40Wなら80 TOPSを叩き出す。
上記の性能は、リーク情報に加えてNVIDIA AGX Orin/Jetson Orinの性能を参考にしているが、これは性能のバランスを崩さないために重要と考えられ、ゲームで重要なメモリー帯域と演算性能の比(Bytes/Flops)もNVIDIA AGX Orinの性能を踏襲しているように見える。端的に言えば、Nintendo Switch 2のスペックはメモリー容量を除いてNVIDIA AGX Orinの3/4程度の性能に見える。
NVIDIA AGX Orin Industrial | Nintendo Switch 2 | Comparison | |
---|---|---|---|
CPU | Arm Cortex-A78 x12 2.0 GHz | Arm Cortex-A78 x8 1.5 GHz? | 66 % 75 % |
GPU | NVIDIA Maxwell 16SM (2048MADs) 1.2 GHz 4915 GFLOPS | NVIDIA Ampere 12SM (1536MADs) 1.0 GHz 3072 GFLOPS | 75 % 83 % 62.5 % |
NPU | TensorCore 64-core | TensorCore 48-core | |
NVDLA2 2x 1.6 GHz | NVDLA2 2x 1.2 GHz? | ||
Memory | LPDDR5-5100 x256 204.8 GB/s | LPDDR5X-7466 x128 150.0 GB/s | 75 % |
64 GB | 12 GB | 18 % | |
B/F | 0.042 | 0.049 |
LPDDR5X-7466というスピードは標準規格には存在しないが、LPDDR5Xよりも動作周波数と消費電力を落としつつx128インターフェースとLPDDR系メモリー2チップという最小のフットプリントで実現でき、性能のバランスも取れる賢い選択である。
言い方を変えると、仮に例えばNVIDIA Orinのフルスペックのマシンを作ることは技術的には可能だとしても、そのCPU・GPUの演算性能を引き出すためにはLPDDRメモリー x256インターフェース(4チップ)が必要で、そうすると筐体サイズとコストが増えてしまう。
比較的低コストで入手可能な最高速メモリーLPDDR5Xメモリー x128インターフェースで低コスト・省サイズを実現しつつ、NVIDIA AGX Orinの性能のバランスを維持したまま実現したのがNintendo Switch 2のスペックだったとすると妥当な結果と思われる。
Nintendo Switch 2 | Xbox Series S | PlayStation4 Pro | PlayStation4 | |
---|---|---|---|---|
CPU | Arm Cortex-A78 x8 1.5 GHz? | AMD "Zen 2" x8 3.4 GHz | AMD "Tiger" x8 2.1 GHz | AMD "Jaguar" x8 1.6 GHz |
GPU | NVIDIA Ampere 12SM (1536MADs) 1.0 GHz 3072 GFLOPS | AMD RDNA2 20 CU (1280 MADs) 1.565 GHz 4000 GFLOPS | AMD GCN4 36 CU (2304 MADs) 911MHz 4150 TFLOPS | AMD GCN2 18 CU (1152 MADs) 800MHz 1840 GFLOPS |
Memory | LPDDR5X-7466 x128 150.0 GB/s | GDDR6 x256 225 GB/s | GDDR5 x256 1700 MHz 217.6 GB/s | GDDR5 x256 1366 MHz 176.0 GB/s |
12 GB | 10 GB | 8 GB | 8 GB | |
B/F | 0.049 | 0.056 | 0.052 | 0.096 |
1~2世代ほど前の据置型ゲームコンソールと比較した結果である。PlayStation 4よりはやや上・Xbox Series SやPlayStation 4 Proよりは下という性能に見えるが、概ね性能の傾向としては同じに見える(ゲームコンソールなのだから当然である)。
やや異なるのがメモリー容量である。上の節の説明ではメモリー不足の指摘と読めたかもしれない(「現行のNintendo Switchのアップグレードでネイティブ4Kに対応するには」という意味ではそれで正しい)が、このように過去の同程度の性能のゲームコンソールと比較すると実は+20~50%ほども大容量という事が解る。恐らくこれは超解像技術に代表されるAI推論機能のためのモデルを格納するためではないかと邪推する。
PlayStation 4が登場したのは2013年頃は4K解像度が規格化され始めた時期で、2016年のPlayStation 4 Proで初めて4K解像度に対応した(スペック的に近いXbox Series Sが1440pまでという点を見る限り、実質的にはネイティブ4KなゲームはPS5/Xbox Series Xからフル対応と見做すのが正しいように思う)が、当時はネイティブ4K解像度対応のテレビ/モニターは多くなく対応は必須ではなかった可能性もある。
しかし、Nintendo Switch 2は2025年の機種で、さらに次世代機まで待つとすれば2030年頃まで対応しないことになってしまうため、Nintendo Switch 2で4K解像度に対応は必須という判断だったのではないかと思われる。
Nintendo Switch 2のメインボードのリークとされる写真が話題となった。この内容が事実とするなら「現実的」ではあるが同時に「ツマラナイ」というのが率直な感想である。恐らくはリークされたままのスペックで登場するのではないかと推測している。
巷に出回っている情報によるとSoCはNVIDIA T239だという。
既知のNVIDIA SoCとしてはT234 = Orin・T241 = Grace・T26x = Thorが知られており、T239という型番からOrinの派生である可能性が高いと推測できるが、これはリーク情報のスペックCortex-A78 + Ampere GPUと合致している。このOrinだが2018年発表・2021年登場の4年前のSoCということになるが、そもそも現行Nintendo Switch自体が2015年登場のTegra TX1を採用して2019年登場したため驚くべきことではない。
ちなみに、現行Nintendo Switchに採用されたTegra TX1はAndroidタブレット等での採用も狙った初登場時点でも低消費電力で性能も控え目の開発ボードがUS$ 600のSoCだったが、Orinは車載で自動運転を狙ったSoCのため初登場時点では非常に高性能で消費電力も高めの開発ボードがUS$ 2000するSoCだったため、同じ4年前のSoCでも2025年時点でのOrinの性能は2019年時点でのTegra TX1よりも相対的に条件は良い。
もっとも、このNVIDIA T239(約200mm2)だが、NVIDIA Orin T234(約455mm2)よりも小さいようで、その点に関しても憶測が飛び交っている。
筆者の推測では、2021年にSamsung 8LPPで製造していたNVIDIA Orin T234をSamsung SF4系かTSMC N5系に移したシュリンク版で、論理的なスペックはNVIDIA Orin T234と同一のCortex-A78 12-core CPU + Ampere 16SM GPUで、一部の機能を無効化しているのだろうと推測する。そうでもなければ2018~2020年頃のIPを今さら使いまわす理由が無く最新のIPを採用することだろう。
それよりも、NVIDIA Orinの新ステッピングとしてしまった方が任天堂とNVIDIAにとって利点がある。NVIDIA視点で言えば相対的にライフサイクルが長い(供給保証が10年間超が多い)組込半導体であるNVIDIA Orinを公式スペックを変更せずに製造プロセスをリフレッシュすることでSoCの製造コスト・消費電力を抑えることができるし、任天堂視点で言えば既に車載SoCとして量産されているので新規開発に投資する必要がない。また、Cortex-A78 12-core のうち8-core、Ampere 16SM GPUのうち12SMが正常動作していればいいため高い歩留まりを達成しコストを抑えることができる。
Orin T234(2021年)で採用されたSamsung 8LPPのトランジスター密度は61.18 MTr/mm2だが、Samsung 4LPE(SF4E)の場合は137.0 MTr/mm2・TSMC N5/N5Pなら138.2 MTr/mm2・TSMC N4/N4Pなら143.7 MTr/mm2と2倍以上になっているので、単純計算であれば193~203mm2にシュリンクする計算になる。もちろん実際には単純計算通りにはならないが、概ね辻褄は合っている(初出自、Samsung 4LPEのみで試算していました。NVIDIAはSamsung製IPへの依存がほぼ無いためTSMCでの製造が可能なはずで、TSMC N5系の場合の情報も追加しました)。
実はNVIDIAと任天堂のこういった動きは初めてではなく、現行Nintendo Switchでも2017年3月にNVIDIA Tegra X1(TSMC 20nm)を搭載して発売した後、2019年7月に電力効率が改善したTegra X1+(TSMC 16nm)搭載モデルに更新しており、この更新はNintendo Switchだけでなく同じSoCを搭載した他のNVIDIA製品にも適用されている。
ところで、NVIDIAはGB10なるSoCを発表したのだが、筆者の予測ではこれが次々世代Nintendo Switchに載る候補になると推測している。
実際、Nintendo SwitchとNVIDIA Orinの場合、初代Nintendo Switchが発表された時期(2019年)と同時期(2018年)にNVIDIA Orinが発表されている。2018年以降のNVIDIA SoCは車載用のため発表時点ではコスト・消費電力の両面でUS$ 400の携帯ゲーム機には載せられないが、発表から4~5年後であれば開発コストも償却済・半導体製造プロセスも進んで搭載可能になる。そのため、2025年にシステム全体でUS$ 3000のGB10(SoC単体の価格が不明)がシュリンクされて2030年頃の次々世代Nintendo Switchに搭載されたとしても不思議はない。
日本の大手ITニュースサイトでTP-Linkの「米国TP-Linkは中国TP-LINKとは無関係」という趣旨の声明を報じているのだが…TP-Linkの主張はそうだとして、それを鵜呑みにして報じるのはプロの仕事じゃない。
筆者が軽く調べた結論を先に言うと、「米国TP-Linkと中国TP-LINKの関係は「不明」(→使うなら個人の自己責任で)」ということになる。もっとも、筆者からするとASUSやNetgearなど他の選択肢があるのにあえてTP-Link製品を選択する動機が解らないが。
そもそもの話をすると、米国TP-Linkは同様の主張を以前から繰り返しており、英語版Wikipediaの項目を引用すると以下のようになる:
In a 2023 patent dispute lawsuit, a U.S. federal judge rejected the company's argument that there was no link between its U.S. and China businesses.
In May 2024, the government of India issued a warning saying that TP-Link routers present a security risk.
In May 2024, TP-Link announced the completion of corporate restructuring, with secondary headquarters in the United States and Singapore.
※以下筆者による抄訳
2023年の特許紛争の裁判で、米国裁判所は当該企業(注:TP-Linkのこと)の米国ビジネスと中国ビジネスに関係は無いという主張を却下した。
2024年5月、インド政府はTP-Link製ルーターのセキュリティーリスク存在するという警告を発行した。
2024年5月、TP-Linkは完了し第二ヘッドクォーターを米国とシンガポールに置く企業再編が完了したと発表した。
※英語版Wikipediaの書きっぷりは一貫して米国TP-Linkと中国TP-LINKを同一企業として扱っている。ただし、それは書き手の主張というより米国政府/司法の現時点での公式なステータスと一致している。
要するに、米国TP-Linkは今回と同様の主張を以前から繰り返しており、2024年には企業再編が行われているものの、各国政府は懸念を取り下げていない。
余談だが、少し調べてみても疑問は深まるばかりである。
例えば米国TP-Link製品とソックリな製品が某中国系通販で中国TP-LINK製品かのように販売されていたり(例えばこれとこれ。ただし、販売会社の不手際の可能性もある)、米国TP-Linkサイトには企業幹部の名前が表示されておらず、少し調べるとCEO等の幹部が中華系のように見える(ただし、家系図まで遡ってはいないので、中華系米国人やシンガポール等を経由した華僑という可能性もある)。
ただ、そもそもTP-LinkはDJIのような「業界でダントツ」な製品を作っているわけでもなくASUSやNetgearなど他の選択肢があるので、あえてTP-Link製品を選ぶ必要性は薄いように思われる。
いずれにせよ、企業の公式発表を裏取りもせず記事にするのはプロの仕事とは言い難い(ましてや企業の主張部分を太字で強調するとかどうなっているのか)。恐らくニュースメディアもコネなどシガラミはあり(広告主だったりとか)するのだろうが、こういうのはステルスマーケティングと同類なので、ちゃんと裏取りする気が無いのであれば「PR」等明示すべきである。
Intelの苦境と変わりゆくデバイス――“AIシフト”の影響を受け続けた2024年のテック業界 - ITMedia
ITMediaの記事だが…2024年のニュースの総括という趣旨は理解できるのだが、なんだか時系列や因果関係がおかしい。
Pat Gelsinger氏の退任が電撃的・衝撃的だったことは否定しないが、恐らくライターは時系列を勘違いしている。Pat GelsInger氏がCEOに就いたのは2021年で、NVIDIA等競合他社もIntelも既に「AIシフト(※それが何を意味するにせよ)」していた。
例えばNVIDIAがTensor処理をVectorプロセッサーであるStreaming MultiprocessorからTensorCoreに処理を移したのがVolta/Turingで2017/2018年のことであるが、IntelがDeep Learningに舵を切り始めたのもNervana(2016年)・Movidius(2016年)・MobilEye(2017年)・HabanaLabs(2019年)の買収を通してである。またIntelは自社開発のData Center GPU Max "Ponte Vecchio"の開発にあたりRaja Koduri氏を雇ったのが2017年である。いずれもGelsinger氏がIntelに復帰する以前の話である。
生成AI等のブームによる関連銘柄の株価暴騰は上述の2016~2019年時点では予測不可能にしても、Deep Learningの隆盛自体は見えており、「何時」「どの程度」かは予測できなかっただけだ。
筆者が推測するに、IT業界で働いていてDeep Learningが隆盛すること自体は明確だったはずだ。これは「工業で冶金技術等の素材技術が鍵になる」というのと同じ話で、様々な分野に適用・応用でき、多くの経済的利益を生み出せる基盤技術が産業の鍵になる、という話である。
Deep Learningの場合、従来人間が行っていた判断を数万~数億倍の速度で実行でき多種多様な場面に応用できる。例えば株取引では「数理モデルの出した予測」を参考に人が「過去の経験や知識に基づき判断」して取引していたところ、数理モデルとDeep Learningを組み合わせで、より高精度な判断を数万~数億倍の速度で実行できるならビジネスになると容易に予測できる。同様の応用例は幾らでも考えられる。疑問は「何時」「どの程度」である。
これはAMDが良い例で、同社はCDNA = InstinctシリーズでDeep Leaning自体はサポートしたが、現在でもNVIDIA GPUと比較して最適化されているとは言い難く、その結果としてNVIDIAの後塵を拝している。悪い言い方をするなら「Deep Learningへの投資は判断できていた」ものの「NVIDIAに比べDeep Learningへの早期の傾倒が足りなかった」ということになる。
ITMedia記事では何故か唐突にSoCの話が始まっているが…これは「AIシフト」とは直接は何の関係もない。
半導体の統合=SoC化は、半導体の微細化とコストとユーザーの要求性能のバランスの問題でしかない。そもそも、PC用の半導体だって点数は減り続けており、2000年頃までは3チップソリューション(CPU + North Bridge + South Bridge)が基本だったが、現在ではすべて統合されたSoCも普通になった。
半導体は微細化で集積度が上がるため、2000年頃の時点で既にNorth BridgeとSouth Bridgeがスカスカになってきており、North BridgeへのGPUの統合・North BridgeのCPUへの統合などの統廃合はロードマップに入ってきていた。ちなみに、Intelの場合、最先端製造プロセス=CPU用・一世代前の製造プロセス=North Bridge用・二世代前の製造プロセス=South Bridge用としていたため、チップセットの統廃合が行われると二世代前の製造プロセスが空いてしまう。それを社外に提供するサービスに転用しようという試みが2015年頃にIntelが推進していた初代Intel Foundryである。
マイクロプロセッサーのSoC化自体はIntelの不振と直接関係は無いが、SoCが実現できるほどマイクロプロセッサーの性能・機能が成熟しているとなると、(1) マイクロプロセッサーの分散化 (2) CPUのバイパスが当然発生し、これはIntel CPUが売れない原因となりうる。
アイデアは単純で、昨今のスマートフォンのレベルのマイクロプロセッサーが実現可能なら、わざわざネットワークの先にある一極集中されたサーバーと通信しなくても分散されたノード/エッジで可能な処理がでてくる。それが飛躍すると、一極集中されたサーバーとほとんど通信しなくても分散されたノードだけで通信して処理すれば通信コストが省けることになる。結果としてNVIDIAやAWS等の他社が投資してきた市場は拡大しており、Intel CPUの重要性・出荷台数は減ることになる。
もっとも、それもRDMA(2011年)が登場した時点で既定路線で、2018年6月にTop500に登場したIBM SummitはCPUの搭載台数より多くのGPUの搭載台数でTop500首位を獲得した初めてのHPCだが、GPUはMellanox InfiniBandでGPUDirectによりCPUをバイパスして相互通信が可能である。Pat GelsingerがIntel CEOに就任した2021年や今年2024年に始まったような話ではない。
Intelの場合、「Intelの不振」と一言で語られることが多いが、実際には問題は多岐に渡っている。例えば (1) 製造部門が成果を出していない (2) Intel Architecture(x86系)CPUビジネスから脱却できない、といった問題点は互いに無関係な別問題である。
ITMedia記事では「リスク分散」についても指摘されているが、リソースは無限ではないので分散だけでなく「選択と集中」はある程度必要になる(バランスの問題)。そうなるとIntelが「AIシフト」で行っている、(後者)MobilEye独立・HabanaLabs NPUとData Center Max GPUの両方への投資は無駄が多過ぎるように感じられ、これらを別の問題(前者)Intel Foundryの問題と並列して対応するのだから大変である。ただし、上述の通り前者と後者には直接的な因果関係は無い。
前者は半導体の微細化が進み製造技術の確立の技術的難易度が向上しているからである。ただし、関連するIntelの動きは業界の競合他社の神経を逆撫でし続けているようにしか見えない。以前も記事にしたが実績が散々なのに威勢だけがよかったり((1) (2))、当のGelsinger氏もTSMCから反感を買ったりしている。
後者については「Intelが2006~2017年頃の経営判断でx86一本鎗を選択したのだから、経営判断の問題」だとしか言いようがない。
Intelは2006年頃にx86への集中を選択したと見られ、ARMv5TE互換CPUコアXScaleを2006年を売却・2009年にはNVIDIA・AMDが進めつつあったGeneral Purpose GPU(GPGPU)もx86系CPUで実現すべくLarrabeeを発表している。IntelはGPGPUの標準化を狙って2009年に開発されたOpenCLのデモですらIntel CPUのAVXで実行させていた、根っからの反GPGPU/アクセラレーター派である。その態度が変わったのは上述のNPU・GPUへの投資の頃からだ。
つまり2006~2024年の過去18年間において、Intelは2006~2017年の11年間は反GPGPU/アクセラレーター派でx86に固執し続けていた(CPUシェア90%の会社の主張なので、単に意見が対立したというよりPC自体がスマートフォンよりGPGPU/アクセラレーター対応が遅れた元凶と言って間違いない)。このためNVIDIAやAMDから対応が遅れているのは当然だし、過去の11年間の経営判断ミスが現在の経営状況の悪化に結びついているとしたら自業自得としか言いようがなかろう。
ちなみに、Pat Gelsinger氏は2001~2009年のIntel CTOとしてIntelのCPU戦略を主導した人物であり他人事ではない。
TOP500 List - November 2024 - Top500.org
2024年11月版Top500が発表されたのが11月18日のことなので、3週間近くも遅れてしまった…。
今回の目玉はようやく初登場したEl Capitanだろうが、興味深いのはEl Capitanそのものというよりも、El Capitan・Frontier・Auroraという米エネルギー省が導入した三大ExaFlops Systemの比較ではないかと思う。
System | Cores | Rmax (PFlop/s) | Rpeak (PFlop/s) | Power (kW) |
El Capitan | 11,039,616 | 1,742.00 | 2,746.38 | 29,581 |
Frontier (2024.11) | 9,066,176 | 1,353.00 | 2,055.72 | 24,607 |
Frontier (2024.06) | 8,699,904 | 1,206.00 | 1,714.81 | 22,786 |
Frontier (2022.06) | 8,730,112 | 1,102.00 | 1,685.65 | 21,100 |
Aurora | 9,264,128 | 1,012.00 | 1,980.01 | 38,698 |
Efficiency | Rmax/Rpeak | Power/Rmax |
El Capitan | 63.429 % | 16.981 |
Frontier (2024.11) | 65.816 % | 18.187 |
Frontier (2024.06) | 70.328 % | 18.894 |
Frontier (2022.06) | 65.375 % | 19.147 |
Aurora | 51.111 % | 38.239 |
Frontierが2位なのは予想通りだが、密かに未だに構成に微調整がされ続けている点は興味深い。
過去1位を獲得したSummitや富岳などフラッグシップHPCは導入後は数年に渡り最適化が行われ、Top500上でも数値の変動から垣間見えるのは普通のことではあるが、まさか3年間(2022年06月~2024年11月)に渡って最適化が続けられるとは思っていなかった。Frontierは初登場の2022年06月と比べノード数・コア数・Rmax・Rpeakが+20%程度増強されている。その一方で実効性能(Rmax/Rpeak)は7%低下・電力効率(Power/Rmax)も低下しており、まだまだ最適化の余地も見える。
もっとも、IPの構成で見るとFrontierとEl Capitanは酷似しているから、Frontierで得られた知見をEl Capitanに反映させたり、逆にEl Capitanで行われた最適化をFrontierにフィードバックしたりということも可能だろうから、El Capitanありきでの最適化なのかもしれないが。
気を吐くAMDと対照的なのがIntelである。驚くべきことに前回2024年06月のランキングから測定結果が変更されていない。ASCII大原氏の指摘する通り2024年06月の結果も不完全な状態での計測だっため、更新されて然るべきだったはずだが…。
Auroraは、本来は3年以上前に初のIntel Data Center GPUを搭載して初登場1位を獲得して華々しくデビューするはずのシステムで、ここで本来は時間をかけて最適化し実績と経験値を積むべきところだろうが…遅延により政府に違約金を払い(大赤字)、1.5年前に未完成で登場し散々な結果を出したシステムだから、「損切り」として諦めて最適化を放棄したのかもしれない。
Top500は悪く言えば余興で実運用・実アプリケーションからは乖離している。そのため、実運用で使えているなら問題無いのかもしれないが、Auroraは消費電力がEl Capitanを20%以上も上回るのでユーザー視点では電気代とか運用コストが馬鹿にならないだろうが…。
パット・ゲルシンガー氏がIntelから「卒業」しなければならなかった背景 - PC Watch
各社報道を見るに「IDM2.0の達成率を客観的に評価できる人が必要」だと思い知らされる。特に日本のメディアはいずれも最悪だ。
まったくの部外者の筆者が報道などを通して感じた個人的な感覚ではあるが、Intelの発表だけを鵜呑みにすれば達成率80%ぐらいに見えるかもしれないが、実態は20%以下といったところではないかと思う。
言い換えれば本記事も含めた多くの報道記事が「Intelに忖度した偏向/提灯記事」としか見れない。
まず、記事の問題点を指摘するとすれば、そもそもIDM「2.0」という名称にある通り「IDM」自体はなんら新らしいサービスではない。
Intelは2014年頃にファウンドリーサービス=IDMを開始したのだが(参考 (1) (2) (3) (4))、これが2020年頃までに壊滅的に破壊されてしまった。その原因の一端はコロナ下の半導体不足によるファウンドリーとして主に信頼面で・同時期に10nmプロセスの躓いたことで主に技術面で大々的に失敗してしまい、「IDM (1.0)」の顧客企業が強制的にゼロになって有耶無耶になった。だから、その意味ではIDM2.0は最悪の実績からのマイナスからのスタートである。
それでも、もし仮にIntelがIDM(1.0)かIDM2.0で現実のTSMC以上の優れたサービスを展開し、仮にTSMCが現実のIntel並にコケていれば、「IDM(1.0)/2.0」は上手く行った可能性もゼロではなかったのかもしれない。しかし現実の結果は前回の投稿でも触れた通り「Intelはファウンドリーサービスでトップ10に入らなかった」がすべてである。
そこへ来て「こうしたIDM 2.0の戦略は着実に実行されてきており、4Y5NやIFSは、来年にIntel 18Aの製造が開始されると本格的に立ちあがるというところまでこぎ着けていた」とは冗談でも笑えない。
まず、4Y5Nはほぼ「ペーパーランチ(発表だけで実態が伴っていない発表)」に近く他社どころかIntel自身すらロクに製品化できていない上に、2023年に登場した「Intel 3」はTSMC N3(2022年)と同世代に見せかけただけの実質TSMC N5(2020年)~N4(2022年)と同世代のプロセスで、それに続く「Intel 20A」は採用取り止めにより、2024年の新CPU "Lunar Lake" "Arrow Lake"は共にTSMCでの製造となった。
そもそも「4Y5N」というのが中身のあまり無い目標である。というのも「5N」は5品目のプロセスノードを指すが、Intel 7→Intel 4→Intel 3→Intel 20A→Intel 18Aの5品目で、フルノード世代としては2世代・ハーフノード世代3世代も含めて5世代となる。ここでハーフノード世代の改良内容・性能向上は各ファウンドリーでまちまちなため、実質的には2フルノード世代だけ開発して残り3世代はペーパーランチでも「5N」は達成可能という、技術的には意味のない指標である(ちなみに、そういうカウント方法で良いなら、TSMCは2021年から現在までで6ノード=N5P/N4/N4P/N4X/N3B/N3Pを世に送り出している)。
「Intel 7」はそれ以前の「Intel 10nm/10nm SuperFIN」の改良版・「Intel 20A」は既にコケているので、2024年現在で実際に達成できているのは1フルノード世代と2ハーフノード世代だけである。
実際に製品が出ているIntel 7・Intel 4・Intel 3プロセスはペーパーランチではないのだろうが、これらも優れたプロセスかどうかは疑わしい。Intel純正製品以外に存在しないほか、2024年7〜9月期決算で赤字の原因の一端となった過剰投資した半導体製造設備があるにも関わらず、Intel自身が最新製品ではIntel FoundryではなくTSMCを多用している事実が、これらのプロセスの不完全具合を何より雄弁に物語っている。
そして本人=Intelすら採用していないサービスを宣伝したところで誰も利用するはずがなく、その結果が「Intelはファウンドリーサービスでトップ10に入らなかった」であろう。「4Y5N」自体が成功と言える状況ではないので「IDM 2.0の戦略は着実に実行されてきて」いるはずがない(マトモに競争力のあるサービスが存在するかすら怪しい。利用する顧客がいるかどうか以前の話である)。
Intel自身が株価対策で華々しくポジティブに発表するのは勝手だが、報道がそれを鵜吞みにしていては報道会社の存在意義がない。往年の将棋棋士 升田幸三の言葉を借りるなら「負けに不思議の負け無し」で、敗北した理由を分析すべきなのであって、そこで大本営発表を鵜呑みにして「IDM2.0は順調」という説明は無茶である。
ゲルシンガー氏にとっての不運は、前任者のスワン氏が(少なくとも外部から見て)何の成果も挙げなかった点ではないか。
そもそもIntelのCEOはオテリーニ氏(Paul Otellini. 5th Intel CEO, 2005-2013)までは技術部門出身者で占められており、その次の製造部門出身クルザニッチ氏(Brian Krzanich. 6th Intel CEO, 2013-2018)時代に14nmプロセス・10nmプロセスで失敗し、その次を引き継いだスワン氏(Bob Swan. 7th Intel CEO, 2018-2021)は財務部門出身であった。
初の財務部門出身CEOに課せられた課題は部外者には知る由もなく想像するしか無いが、恐らく株主や取締役会の期待はバランスシートの健全化だったはずだろう。Intelのような最先端技術を扱う企業が不調に陥って財務部門出身者をCEOに起用するなら特別な任務があったと捉えるのが妥当なはずだ。ところがスワン氏時代のIntelが実践したのは (1) HabanaLabsの買収と (2) IDM(1.0)サービスの抹殺だけである。コロナ下の半導体不足という不運もあり製造能力を大幅に増強した結果、現在は生産能力過剰で財務状況悪化の原因になっている。
Intelは軍需に関わりも深く、Intelの一存で決定できないことも多いだろうが、実のところ、スワン氏時代末期のIntel 10nm SuperFINノードの立ち上げ成功した時点が製造部門を売却する最後のチャンスだった可能性はある。Intel 4・Intel 3・Intel 20Aと御世辞にも成功とは言えない成果しか出していない現在のIntel Foundryに出資したい・買収したいという企業が登場するとはとても考え難く、米国政府がCHIPSで出資し続けているのも、軍需企業=Intelが倒産したら困る・半導体生産から撤退したら困るというだけではないかと思う。
もしスワン氏時代に製造部門を成功裏に分離できていれば、状況は大きく違ったことだろう。ゲルシンガー氏時代で復調する未来もあったかもしれない。
TSMC一強に死角なし 半導体受託製造業界を分析 - EETimes
EETimesが2024年Q1・Q2期のファウンドリー各社のTrendForceの統計データを基に解説しているのだが…標題の「TSMC一強~」に反して「SamsungもIntelも悲惨」という内容なのがなんとも言えない。
Samsung Foundryについては最近は話題自体が皆無に近い。
例えば~4nmノード頃までであればQualcommやNVIDIAから受注しており、歩留まりが悪いというユーザー企業の近況がニュースになっていた。例えばNVIDIA GeForce 3000シリーズ(Ampere)はSamsung 8Nプロセスだったし、Snapdragon 8/8+ Gen 1 はSamsung 4LPXプロセスだったが歩留まりの悪さが報じられていた(Wikipedia List of Qualcomm SoCs List of NVIDIA GPUs)。そして「恐らく大幅にディスカウントしてQualcommやNVIDIAから受注したのだろう」などと陰口を叩かれていた。
それが、最近の話題はというと「年間数千億円の赤字を出して苦戦している」という話題(参考:EE Times・Gigazine)ぐらいのものである。一応、6月にロードマップを更新しているものの、少なくとも筆者個人は2022年頃からペーパープラン以上の報道を見ていない。
Intelについては…記事中の「Intelの名前がトップ10から消えている」がすべてではないかと思う。大々的にIDM2.0を立ち上げAWS・IBM・Microsoft・Qualcommなど大企業の賛同を発表こそしたが、実態は記事中にもある「トップ10にすら入らない」というのが現実であろう。以前から何度も指摘しているが、EDA/IPベンダーすら味方につけられていないファウンドリーが利用される理由が無い。
Intelというと、少し前の報道でSEI PlayStation 6のSoCを失注したという報道もあった。
PlayStation/XBoxのSoCというと、AMDが本業のCPUで苦戦し苦境に陥っていた2011~2017年にIntelと競合の上勝ち取り、同社を支えていたビジネスと言えるかもしれない(参考)。ゲームコンソール用セミカスタムSoCはSony製品・Microsoft製品で利幅は小さいと思われるが、数は出るし、ゲームコンソール用SoCのiGPUの利用を通じてPC用のdGPUの対応拡大も期待できる。同様にIntelがゲームコンソール用SoCを受注できればIntel Foundryの顧客獲得にも繋がるわけだが、そもそもIntelがPlayStation 4/Xbox OneでIntelが敗れたのも、2006~2011年当時Intelがx86に固執しGPUを軽視していたからで受注できる理由がなかった。
今回の記事の内容は、Samsung Foundry・Intel Foundryの苦しさを裏付ける内容となっているが、これは日本にとってこれは他人事ではない。日本政府肝入りのRapidusが上手く行く未来を想像することは絶望的だからである。
ただし、東洋経済の指摘はまったく的外れだと思う。
半導体のラピダスはこのままでは99.7%失敗する 成功するためにはいったい何をすればいいのか - 東洋経済オンライン
まず、他社との業務提携自体は正しい。半導体製造プロセスの研究開発予算は莫大なので他社との提携は欠かせないからである。
例えば総合電機メーカーSamsungは収益1982.4億ドル・総資産3490.5億ドルの企業で、これは日本で一位のトヨタ(収益4108.9億ドル・総資産8210.9億ドル)にこそ及ばないものの、二位を争う三菱商事(収益834.5億ドル・総資産1207.1億ドル)・本田・ソニーよりも巨大である。そんな企業が半導体を内製するため2005年頃から継続的に莫大な投資を行っているSamsung Foundryですら膨大な損失を垂れ流しながら事業を継続しているのが実態である。また、Samsung Foundry(一応は業界2位)に勝っているTSMCの研究開発予算はトヨタのそれに匹敵する。RapidusにSamsung並のバックやTSMC並の研究開発予算が供給されるとは思えないのだが…
そこで、同業他社とプロセス開発で提携したり、製品の製品化でファブレス半導体企業と提携して出資を受けたり、ということはザラである。
首位TSMCを除けば同業社との提携は有効だろう。製造で過度に競合してしまうより、IBMが自社ファブを維持していた時代もGlobalFoundries・Samsung Foundryと提携・共同開発してCommon Platformを形成していたように顧客が複数の製造会社から製造枠を融通できる方が都合が良い。さらにIBMというと、研究室レベル(≠量産レベル)ではあるが2021年に他社に先駆けて2nm GAAプロセス開発を発表し、関連技術をIntelと提携やRapidusと提携して供与している。
ファブレス半導体企業の他社との提携も有効だろう。例えばTSMCの最先端プロセスはAppleが独占することが慣例となっているが、これはAppleがTSMCの開発に出資して補助する代わりに製造枠を買い取っているからである。半導体メーカーがファウンドリーと共同で、あたかも自社ファブがあるかのように製品計画を実現することをバーチャルファブと呼んでいる。
東洋経済の記事は提携先が勝ち組でないと主張するわけだが、まともなサンプルさえ発表できていないRapidusと現時点で提携したがる企業など中小ベンチャー企業以外にありえるはずがない。
もっとも、東洋経済の記事の「Rapidusの目的がはっきりしない」という指摘は正しい。以前も説明したが、米国がTSMC・Samsung Foundry・Intel Foundryの工場を誘致するのは有効である。なぜなら多くの先端半導体企業(例:NVIDIA・Intel・AMD・Apple・Qualcommなど)が米国に所在しているため、Designed in USAの半導体をMade in TaiwanやMade in South KoreaではなくMade in USAにできるという意味で、経済・雇用・軍事の面でも有効と思われる。
これに対し日本には先端半導体企業が無いので、仮にRapidusが成功しても外国の主に半導体企業の製品を製造することになる。トヨタ/デンソーやルネサスが扱っているような車載半導体は最先端から数世代遅れなので当面は顧客にならない。もしTSMCのように既に成功しているならそれでも構わないのだろうが、最悪の場合、日本国民の税金を無限に食い続けることになるかもしれない(Rapidusの資本金73億はトヨタやソフトバンクなど日本企業から賄われているが、日本政府が2023年に2600億円・2024年に5900億円支援している)。
10年間“卒業”できなかったVAIOがノジマ傘下に入る理由 - - ITmedia PC USER
ITMediaの記事は心底ツマラナイが、事実を時系列でおさらいするという点ではよく纏まっている。
記事中にはいろいろと書いてはあるのだが、B2Bで成功というのがノジマの狙いというのは弱い気がしてならない。
確かにノジマが家電量販店でB2C中心でVAIOがB2B中心なら「補完関係」と言えなくもないが、そもそもノジマに比べればVAIOは販路も異なるが売上自体が少ない。売上はノジマの7613億円に対しVAIO 421億円・PCに限っても個人向け・法人向け共シェアトップ5位にすら入らない(2021/22年度の古い数字だが)。補完関係というにはほど遠く、強いて補完関係というなら実店舗で販売が主体のノジマに対しオンライン販売が主体のVAIOという補完関係の方が重要では?と思ってしまう。
「PlayStation 5 Pro」登場。性能45%向上 - PC Watch
Sony PlayStation 5 - Wikipedia
SonyがPlayStation 5 Proを発表した。日本での反応は各メディアで報じられているが、各国で同様の反応らしい。つまり「高い!」である。
PlayStation 5 (Nov 2020) | PlayStation 5 Pro (Nov 2024) | Delta (in US$) | |
---|---|---|---|
US | US$ 499 | US$ 699 | + 40.1% |
EU | € 499 (US$ 591.8) | € 799 (US$ 885.5) | + 60.1% (+ 49.6%) |
Japan | ¥ 49,980 (US$ 479.8) | ¥ 119,980 (US$ 851.6) | + 140.1% (+ 77.5%) |
各国の値上げ率を見てみると、米国で+ 40%・欧州で+ 60%となっている。インフレーションは分野によって異なるが米国の過去5年間でのインフレーション率が8.00%とのことなので2020~2022年頃の半導体不足などを計算に入れても値上げされていることが解る。
面白いのは米国価格・欧州価格での米ドル換算での値上げ率で、米国+ 40%に対し欧州+ 50%と、米ドル基準で値上げしているように見える。ちなみに、米国はVAT別表示・州毎にVAT率が異なるため、VAT +20%とすると、2020年のPS5は約US$ 599・2024年のPS5 Proは約US$ 839となり、欧州の価格に近い価格設定であることが解る。…謎なのは日本での価格設定で、米ドル換算でも+ 77.5%の値上げとなっている。
Sony PlayStation 5 Pro costs $699, launches November 7 - Videocardz
詳細なスペックは公表されていないため本稿では議論しないが、興味深いのはメジャーな欧米メディアは「Zen 2 + RDNA 3/4」と推測していることだ。ゲームコンソールでは高い後方互換性維持のため古いハードウェアを使い回すことが多いが、とはいえ2019年のZen 2を持って来るとしたら驚きである。
高性能GPUを実現するため新しい製造プロセス=TSMC N5/N4Pを採用するとしたら、Zen 4/5が妥当だが、Zen 4/5ではAVX-512対応など命令セットおよび実行レイテンシーの非互換性・大幅なトランジスター増があるため避ける可能性は否定できない。CCDのトランジスター数はZen 4はZen 2の+ 66.6%で、同じ製造プロセスなら恐らくダイサイズも同程度増加する≒GPUに割り当てられるダイサイズが減ることになり、もしSonyがGPU性能を重視するならZen 4/5を採用しない可能性はある。
しかし、Zen 3ではなくZen 2を選ぶ理由はあまり考え難い。命令セットもダイサイズもほぼ同じでIPC +19%を達成している。いずれにせよTSMC N5/N4Pを使う時点で物理実装を新規に起こす必要がある。
あえてZen 2を採用するとしたら、気になるのはPS5でSonyが行ったと言われるZen 2のカスタマイズ(Chips and Cheeze)で、PCで採用されているZen 2→Zen 3であれば後方互換性維持はあまり関係無さそうだが、PS5カスタマイズ版Zen 2と通常のZen 3とではAVXの遅延が大きく違うはずで、後方互換に問題が生じてもおかしくなさそうな気がする。
AMD announces unified UDNA GPU architecture — bringing RDNA and CDNA together to take on Nvidia's CUDA ecosystem - Tom's Hardware
個人的には開発リソースの効率化の最適化だろうと思う。
従来AMD・NVIDIA共に「FP64スループット重視」のデータセンター用/コンピュート用と「FP32スループット重視・レイトレーシング等のグラフィックスの追加機能重視」のグラフィック用の2系統に分類していたところ、AI/深層学習の爆発的な市場拡大に伴い、リソースをMatrix演算ユニットに向ける必要がでてきたのだろう(だとするとAMDの判断は遅すぎるが…)。
2015年~頃の従来の考え方だとデータセンター/コンピュート用とグラフィックス用とに分けるのは理にかなっていた。
NVIDIAは2016年に発表した"Parker"で同一コード名ながらコンピュート用とグラフィックス用とに分化(参考)・その次世代でもコンピュート用="Volta"とグラフィックス用="Turing"とに分化させている。同様にAMDがデータセンター用=CDNAとグラフィックス用=RDNAとに分化したことはおかしな事ではなかった。
そして、コンピュート用とグラフィックス用の違いは「FP64スループット=実装コストの高い高スループットのFP64演算ユニットのSIMDエンジンを搭載する代わりにSIMDエンジンの数は少ない。ディスプレイ出力なども搭載しない」か「FP32スループット重視・追加機能重視=FP64が低スループットのFP32重視のSIMDエンジンをより多く搭載する。レイトレーシング等のグラフィックス用機能を多く搭載し、ディスプレイ出力も搭載する」といったものである。
その状況が変わったのがAI/深層学習におけるMatrix演算の需要増加である。
科学演算におけるFP64の必要性自体は恐らく変化していないだろうが、より経済規模が大きな市場が出現したことにより求められる演算性能の優先度が変化してしまった。
深層学習での精度はどんどん下がっており、かつては学習でFP32・推論でFP16/bFP16が使用されていた時代もあるが、最近は学習でTF16/bFP16・推論に至ってはFP8・INT8・INT6・INT4などが使われている。また、GPUで伝統的なVecror演算ではなくMatrix演算が求められる。Vector演算用のSIMD演算ユニットでも複数サイクルかけてMatrix演算を処理できるが効率は良くない。
Vector演算の精度の違いは、Vector演算/Matrix演算の違いに比べたら些細な違いでしかない。
問題は実装である。AMDはVector演算ユニットを拡張することでMatrix演算機能を実装した。この方式は「Vector演算とMatrix演算の両方で高い演算性能が求められる」という前提では実装コストの効率が良い。例えば従来FP32を32-way SIMDで演算していたところ、FP8を128-wayで演算できるようにするわけだ。もし16x16のマトリックスなら計256要素なので2サイクルで演算できることになる。
しかし、現在の市場の状況はMatrix演算で高い演算性能が求められるもののVector演算の需要は相対的に低い。現在の市場の需要では上述の例でいえばFP32 32-way Vector演算のスループットを上げるよりもFP8 16x16 Matrix演算のスループットを上げたい。ところが上述の実装方式ではVector演算ユニットを拡張してMatrix演算に流用しているから、Matrix演算性能を強化するにはVector演算性能を強化する必要がでてくる。
例えばCDNA1では演算性能は同じ512-bit Vector演算ユニットで処理していたため同精度ならVector演算とMatrix演算で共通だった。CDNA1からCDNA2で512-bit Vector演算ユニットをMatrix演算のみ1024-bit Vectorで処理可能になったため、同精度ならVector演算とMatrix演算で1:2になった。とはいえ、レジスタファイルと演算ユニットをMatrix演算用に512-bit拡張しただけのため、スループットは2倍にしかならない。
NVIDIAも"Maxwell" / "Pascal"世代では同様にVector演算ユニットを拡張して深層学習のMatrix演算を行っていたが、Volta/Turingで専用のMatrix演算ユニット=TensorCoreを実装した。
TensorCoreはVector演算ユニット=CUDAコアとは別の実装なのでCUDAコアとは無関係に拡張することができる。実際、Volta/Turingに続くAmpere/Hopper/Adaでも継続的に拡張され続けているが、TensorCoreのスループットはCUDAコアのスループットとは無関係に強化されている。
実はこれは単なる「新方式の演算ユニットの実装方法」という表面的な話ではなく、AMD(旧ATI Technologies)とNVIDIAの文化・フィロソフィーによるものの可能性がある。新方式の演算ユニットを実装する場合、伝統的にNVIDIAは新規の演算ユニットをGPUに追加する力業で実装する「Brute Force(力業)」方式の傾向が強く、AMD/旧ATI Technologiesは既存の演算ユニットを機能拡張する傾向が強い(参考)。
ただし、さすがにここまでAI/深層学習市場が拡大し売上・株価に影響を与え始めるとAMD/旧ATI Technologies方式では無理があると言わざるを得ない。
今回意外だったのはORNL/HPE (Cray)/AMDのEl Capitanが登場しなかったことで、それ以外は実に順当な結果となった。ただ、ランキング自体は順当なものの話題はAI(という言葉は漠然としているので機械学習とか深層学習という言葉の方が適切に思えるが…)に話題を攫われているので、HPL(High-Performance Linpack)の存在意義がより一層怪しく感じられる気もするが…
今回のランキングでは、恐らく動作周波数を落としているという意味ではフルスペックではないが、ANL/Intel/HPEのAuroraが2023年11月のランキングから約2倍に構成を拡大して(ハードウェア構成的には)フルスペックでのランクインとなった。下の表はTop500からノード数・CPU数・GPU数を逆算して纏めたものだが、ノード数・CPU数・GPU数が昨年Intelが2023年5月に発表していた予定の構成と一致していることが判る(参考)。
HPC | Nodes | Total CPU | Total GPU | Rmax (PFlop/s) | Rpeak (PFlop/s) | Rmax/Rpeak |
---|---|---|---|---|---|---|
Frontier (2023.11) | 8,631 | 17,262 | 34,524 | 1,194.00 | 1,679.82 | 71.08 % |
Frontier (2024.06) | 8,631 | 17,262 | 34,524 | 1,206.00 | 1,714.81 | 70.33 % |
Aurora (2023.11) | 5,439 | 10,878 | 32,634 | 585.34 | 1,059.33 | 55.26 % |
Aurora (2024.05) | 10,624 | 21,248 | 63,744 | 1,012.00 | 1,980.01 | 51.11 % |
Aurora (Planned) | 10,624 | 21,248 | 63,744 | ? | 2,069.19 | ? |
今回の結果は、Argonne National LaboratoryとIntelとしてはある意味で予定通りだったのではと勘ぐってしまう。国民の税金を5億ドル費やしたフラッグシップHPCの一台でFP64精度で2 EFLOPS超を公約していたシステム・初登場時1位を獲るべきシステムが(とはいえIntelが遅延による違約金3億ドルを支払ったで実質2億ドル+2年超の遅延だが…)、実際には2024年に登場し2年前に登場した6億ドル・1.2 EFLOPSのシステムに及ばないなどというのは冗談でも笑えないからで、だからこそ、あえて50%程度の不完全な構成で2023年11月に登場させ、批難を分散させたのではないか?という推測は穿った見方が過ぎるだろうか。
Top500 List - November 2023
Top500 Supercomputers: Who Gets The Most Out Of Peak Performance? -TheNextPlatform
今回の最大の話題はORNL/Intel Auroraの初登場だが、悪い意味で驚きの結果となった。ランクインしたものの、約51%ほどのノード数で2位という結果となった。
今回の結果が示しているのは恐らく何らかの想定外が起こっておりIntelはAuroraで1位を獲得することを諦めたということではないか。恐らく、次回=2024年6月のリストではAuroraはフル構成で今回1位のFrontierを超えてくるだろうが、次回はLLNL/HPE/AMDのEl Capitanが約2 ExaFLOPSでの首位獲得がほぼ確実だからである。
Intelの発表によると、2023年6月リスト発表の時点でブレードを全数納品し終えたということなので、半年近く経っても構築が進んでいないことになる。本来、ハードウェアの構築やOSやミドルウェアのインストール自体はそれほど時間を要さず、構築後のチューニングに時間がかかるはずだが、約半分の規模での測定結果というのが何を示すのか解らない。ハードウェアに異常があったのかもしれないし、ハードウェアの構築とOS等のインストールは終わったが、大規模で動かすとまったく性能が出ないのかもしれない。
HPC | Nodes | Total CPU | Total GPU | Rmax (PFlop/s) | Rpeak (PFlop/s) | Rmax/Rpeak |
---|---|---|---|---|---|---|
Frontier (2023) | 8,631 | 17,262 | 34,524 | 1,194.00 | 1,679.82 | 71.08 % |
Frontier (2022) | 8,661 | 17,322 | 34,644 | 1,102.00 | 1,685.65 | 65.38 % |
Aurora (2023.11) | 5,439 | 10,878 | 32,634 | 585.34 | 1,059.33 | 55.26 % |
Aurora (Planed) | 10,624 | 21,248 | 63,744 | ? | 2,069.19 | ? |
上の表はTop500リスト中の性能と、コア数からノード数・CPU数・GPU数を逆算したものを纏めたものである。
今回(2023.11)のAuroraの結果は計画の約半分の構成で計測したことが解る。興味深いのは、Frontierが4 GPUs/Nodeに対しAuroraが6 GPUs/NodeとGPUの比率が高く、さらにAuroraの方がFrontierより1.25倍ほど規模が大きいため、Auroraとしては約半分の構成でもGPU数ではFrontierのGPU数に肉薄しており、Rpeak(理論上の性能)も36%ほどしか差がない。それでも、理論値に対する実効性能の効率(Rmax/Rpeak)が低いため、結果としてはAuroraはFrontierの半分以下の性能しか達成できていない、ということだろう。
一般的には、ノード数が増えるとネットワークの遅延が増えたり・並列演算できない演算があったり・遅いノードがボトルネックになったりして実効効率は悪化するため、フル構成で計測した結果は半分の構成の2倍とはならず、半分の構成の方が高い実効効率を示すが、それで半分の構成で55.26%となると、そのまま規模を2倍にしたフル構成だったとしてもAuroraはFrontierに勝てないだろう。もっとも、Intel GPUはハイエンド製品も・HPCでの採用も初めてだから初登場時点で最適化が進んでいないのは当然で、これは次回=2024年6月のTop500までには改善が進むだろう。
言い換えれば、次回=2024年6月のTop500に登場すると見られるEl Capitanは既に実績と経験が豊富なAMD CPU+AMD GPUという構成なので性能の予測が大きく外れることは考え難い。
不気味なのは中国勢で、TheNextPlatformの記事では存在が推測される2台のExaScaleシステムについて記載があるが、基本的には推測の域を出ない。NUDT Tianhe-2Aが初めて中国に首位の座をもたらしたのが2013年6月・さらにNRCPC Sunway TaihuLightの登場が2016年6月で中国に1位・2位をもたらしており、一方で米国が中国企業をエンティティリストに加えて禁輸措置が本格化したのが2018年頃であるから、中国政府系組織も成績を公表しないのだろう。
Braveブラウザ、他のブラウザが未実装のセキュリティ機能を追加 - マイナビ
Brave browser will prevent websites from port scanning visitors - Malwarebytes
マイナビの記事では記者が「他のWebブラウザがBraveのようにローカルホストのリソースをブロッキングする機能を追加するかどうかはまだ不明だが、導入されることが期待されている」と締めているが、個人的には色々と疑問だ。実装方法や挙動が不明のため評価待ちといったところではないだろうか。
そもそもの話として、Braveの新機能をサイバーセキュリティー業界での一般語=ポートスキャンとしてしまっていいのか怪しい。
まず、サイバーセキュリティー業界で一般論的なポートスキャンの話をする。
ポートスキャンはサイバーセキュリティーにおいて、防衛側も攻撃側も行う「情報収集」、あるいは企業などのIT部門が行うインベントリーの構築手段の一部である。組織内のネットワーク上のどのアドレスにどのようなホストが存在するのか?そのホストではどのようなサービスやアプリケーションがインストールされ・動作しているのか?といった個々の情報を組織ネットワーク単位で収集し、ネットワーク上に存在するホスト/ソフトウェア資産をデータベース化する。これに手作業の入力など他の情報を一箇所に集約データベースがインベントリーである。
その情報収集方法として、フィンガープリンティングなどと呼ばれるが、スキャン対象のホストのどのポートでどのようなサービスが動作しているか検出する。例えばWebサーバーがリスニングしているTCP 80ポートにHTTPリクエストを送信して「Server: Apache/2.4.41 (Unix)」などと返ってきたら「Apache HTTP ServerサービスがUNIX/Linuxサーバー上で動作しておりHTTPをリッスンしている」ということが判るわけだが、サイバーセキュリティー的には同時にHTTPサーバーがApache 2.4.41で脆弱性があるバージョンである可能性があることが判り、サイバーセキュリティーの防衛側であれば、自分たちがどういったホスト/ソフトウェア資産と脆弱性を持っているのか把握し対策を講じることになるだろうし、攻撃側であればその脆弱性を利用してホストを攻撃しようとするかもしれない。
余談だが、このためセキュリティーポリシーの整備された組織ではポートスキャン自体を禁止されている場合もある(例:セキュリティーチームなど特定IT部門以外によるポートスキャンを検知→攻撃者の可能性)。
このような理由で、一般論としてホストベースのファイヤーウォールなどでポートスキャンのブロックはセキュリティー機能として存在するが、Webブラウザーというかユーザー空間のアプリケーションでブロックすることは一般的でない。
一般的にはLinuxであればnetfilterカーネルモジュールやWindowsであればWindows Defender Firewallなどがカーネルレベル(TCP/IPでいうトランスポート層とネットワーク層)で行う。というのも、例えばApache HTTP ServerやMicrosoft IISといったHTTPサーバーがTCP 80をリッスンする場合、OSのカーネルがインターネット層からトランスポート層(第2層~第4層)までの処理を行い、ユーザー空間(TCP/IPでいうアプリケーション層=第5層)のサービスの下で動作するスーパーサーバー(LinuxのsystemdやWindowsのsvchost)がカーネルとサービス/アプリケーションとの橋渡しを行うので、ユーザー空間で動作するサードパーティーアプリケーションにポートスキャンのブロックを実装しても他のサービスが使っているポートを監視することはできないからである(TCP/UDPポート毎に各サービス・アプリケーション宛に振り分けられた後のため)。
また、そもそも仮にユーザー空間に実装するとしても、アプリケーションとしての実装ではOSの起動時から終了時まで防護されないことになるためサービスとして実装される必要がある。(従来のポートスキャンに対する従来のnetfilter型firewallであれば)
Braveブラウザーの開発者も当然このことを承知しているはずで、ここでいう「ポートスキャン」は一般的な意味=ネットワーク経由でマシンに対する(OSカーネルのTCP/IPスタックを経由した)TCP/UDPポートのスキャンとは異なるはずだが、では、なぜWebブラウザーでどういった「ポートスキャン」をブロックする必要があるのかMalwarebytesの記事に概要が説明されている。要点を大雑把に挙げると:
筆者は寡聞にして、この「ポートスキャンを行うWebサイト」の挙動に詳しくないのだが、恐らくはWebコンテンツに埋め込んだJavaScriptを使ってWebブラウザーに実行させているのだろう。例えばGoogle Chromeの場合JavaScriptエンジン=V8はNode.jsのようなもの(というかNode.jsがChromeのV8エンジンの流用)だから、ポートスキャナーをJavaScriptで実装しGoogle Chrome内蔵のV8エンジンで実行させることは難しくないだろう。
そして、一般には、安全と見做されるマシン上の安全と見做されるアプリケーションから外部へのアクセスは、ローカルホストではブロックされないことが多いから、ネットワークセキュリティー(例:VLANを使ったアイソレーションなど)次第ではローカルネットワークに対するスキャンも可能だろう。
この場合、Braveがブロックしようとしている「ポートスキャン」とは、サイバーセキュリティー業界での一般的なポートスキャン=「ネットワーク経由でマシンに対する(OSカーネルのTCP/IPスタックを経由した)TCP/UDPポートのスキャン」とはフローが異なり、「Webブラウザーでローカル実行されるスクリプトから、ローカルホスト・ローカルネットワークに対するTCP/UDPポートのスキャン」という意味なのだろう(記事を読んだ筆者の理解)。
そうすると、恐らくこの「ポートスキャン」のブロック機能とは、Webブラウザー上でサイト毎にサンドボックス実行した上で、サンドボックス内とサンドボックス外との通信をモニタリング・ブロックすることになるのだと思うのだが、サンドボックス外に対するHTTP GETがユーザー操作によるものか、JavaScriptのポートスキャン機能によるものか判別は困難そうに思われる。
MangoPi RISC-V router will support dual GbE, dual USB 2.0, CAN bus, RS485, and more - CNX Software
CNX-SoftwareがRISC-VベースのSoCを利用したルーター型の開発ボード「MangoPi RISC-V」について報じているのだが、その中で「ルーターは主にMIPSベースのプロセッサーが使われてきて、そしてArmベースに置き換わったが、次はもしかしたらRISC-Vかもしれない」としているのが興味深い。
家庭用ルーターがRISC-Vベースになるかは不明だが、個人的にはWiSoCと呼ばれるルーター用プロセッサー提供元の動向次第ではないかと思う。
まず、ルーターでMIPSからArmに移行した経緯は、ちょうどIEEE 802.11nから802.11acに替わった時期に合致するのだが、振り返ってみるとMIPSからArmへの移行そのものは複合的な要因だったのではないかと思う。
IEEE 802.11nから802.11acへの移行により、WiSoCの性能がMIPSでは限界が見えてきたというような理由もあるのだろうが、それだけならMIPSのままでもMIPS 24K→34K/1004K→InterAptiv/ProAptivなどの選択肢もあったはずである。恐らく、究極的な理由はMIPSの製品ロードマップや会社そのものの動向が不明瞭だったとか、WiSoCのメジャープレイヤーがAtheros・Broadcom(いずれもMIPSユーザー)・Freescale(PowerPCユーザー)からQualcomm・MediaTek・Realtek(いずれもArmユーザー)に交代したとかいう複数の理由が重なった結果ではないかと思う(FreescaleもBroadcomも別製品ではArmを扱っていたが)。
また、802.11n・初期802.11acのメジャープレイヤーの3社がいずれも802.11nから802.11acへの転換期=2008~2014年頃に買収されており、親会社の意向もあったのかもしれない。
年 | 買収した企業 | 買収された企業 |
---|---|---|
2011 | Qualcomm | Atheros Communications |
2015 | Avago Technologies | Broadcom |
2015 | NXP Semiconductor | Freescale Semiconductor |
さらに、この時期はMIPSも新IPは発表しつつもゴタゴタが続いてロードマップが不明瞭になってきており、対するArmはスマートフォン用SoCで絶好調・毎年新IPを発表していたから、性能不足を理由にMIPSからArmに乗り換えるには良い時期だったのかもしれない。
Qualcomm・MediaTek・Realtekといった企業からすれば、既存製品のノウハウをWiSoC開発に活かすことは理に適っている。
組込用半導体は作って終わりではなく、10年間超に渡る供給保証・各種ドキュメント・BSP/SDKなどと呼ばれる開発キットがセットで提供される必要があり、そのサービスの質が評価される。
例えばQualcommの場合、スマートフォン用SoC=SnapdragonファミリーではCAF=Code Aurora Forumで既に実績があったから、同社のWiSoC=IPQファミリーでもCAFが使用されることは理に適っていたはずだ。MediaTekもスマートフォン用SoCで・RealtekもSTBやNAS用SoCでArmベースのSoC・各種ドキュメント・BSP/SDKで既にエコシステムが存在したからWiSoCでArmへの移行は既存製品を活かす意味でも効果的だったはずだ。
これが、802.11nから802.11acの過渡期に発生したWiSoCにおけるMIPSからArmへの移行の経緯だが、ではArmからRISC-Vへ移行するのか?というと予想は難しい。
ルーターはスマートフォンとは違い純粋な組込機器にため、CPUアーキテクチャーの違いによるアプリケーションの互換性は問題となり難いからArmからRISC-Vへ移行の技術的な難易度は低そうに見えるし、恐らくCNX記事中のMangoPiホビー用開発ボードようなニッチなマーケットには今後も登場することだろう。
しかし、未だにクローズドな組込以外ではRISC-Vの採用は少ない(恐らくRISC-VのメジャープレイヤーはHDD/SSDのコントローラーに採用しているWestern Digital・Seagateと、GPU内のコントローラーに使用しているNVIDIAだろう)ことを考えると、Qualcomm/MediaTek/RealtekがArmで実現しているようなシナジーやエコシステムをRISC-Vで実現できそうには思えない。
任天堂社長、次世代機への移行に言及 ニンテンドーアカウント活用へ - ITmedia
任天堂社長が次世代機への移行に言及したそうで、各IT系メディアで取り上げられている。通常、任天堂・SIE・Microsoft各社はゲーミングコンソールを5~8年に1回程度の頻度で更新しているため、2017年に登場したNintendo Switchが2022~2025年のどこかで更新されることは自然なことだろう。
誰もが予想する既定路線だと思うがニンテンドーアカウントというかSwitchのプラットフォームを使ったものになるようだ。むしろ疑問はアプリケーションプロセッサーの方である。
Generation | Nintendo | Sony | Microsoft |
---|---|---|---|
Gen 9 | Nintendo Switch (2017) | PlayStation 5 (2020) | Xbox Series X|S (2020) |
(Gen 8.5) | PlayStation 4 Pro (2016) | Xbox One X (2017) | |
Gen 8 | Wii U (2012) | PlayStation 4 (2014) | Xbox One (2014) |
(Gen 7.5) | Xbox 360 S (2010) | ||
Gen 7 | Wii (2006) | PlayStation 3 (2006) | Xbox 360 (2005) |
Nintendo Switchの成功は誰もが納得するところだろうから、ニンテンドーアカウントを「任天堂版Steam」とでも呼ぶべきプラットフォームと見做すならば、そのプラットフォームを活用し、次世代機でもアクセス可能とするのは当然に思える(もちろん、ここでの「任天堂版Steam」は他の任天堂ゲームコンソールから同じアカウントで所有するゲームタイトルにアクセス可能という意味であって、非任天堂マシンからアクセス可能とするという意味ではないが)。
そうなると、次世代機もArm系アプリケーションプロセッサーの可能性が高い。一般にエミュレーションはオーバーヘッドが高い(最適化なしに普通にエミュレーションすると1/3程度の性能になるといわれる)ため、同じアーキテクチャーであればエミュレーションの必要なくNintendo Switchのゲームをそのまま動かせる可能性が高くなる。
疑問はそのArm系アプリケーションプロセッサーをどこが供給するか?であるが、現行Nintendo Switchのアプリケーションプロセッサーの製造元=NVIDIAは2015年頃を境にモバイルから車載へ転換しておりモバイル用アプリケーションプロセッサーを手掛けていない。
NVIDIA Tegra系列の最新モデル=Orinは圧倒的に高性能だが、その一方でコスト的にも消費電力的にもNintendo Switchサイズのゲーム機に収まるか怪しい。単純計算でも8倍以上の性能を持つがフルスペックでの消費電力は50Wに達する。もちろん、Orinを1/2程度にカットダウンした省コスト・省電力バージョンのハードウェアを作ることは技術的に難しくないだろうが、組込の世界はハードウェアを作って終わりではなくソフトウェアサポートも込みなので、果たしてNVIDIAがそこまでするか怪しい。
筆者個人の勝手な予想としては、Qualcomm Snapdragon系アプリケーションプロセッサーという可能性もあるように思う。
思うに、Nintendo Switchが登場した2017年以前の時点では任天堂としてもQualcomm Snapdragonは採用し難かったのではないか。Qualcomm Snapdragonのスマートフォンがターゲットだったし、そもそも任天堂のWii U・Nintendo Switchのライバルであるスマートフォンとの差別化が難しかったためである。しかし、現在のQualcommはSnapdragonをWindows on ArmやIoTに拡大しており、特にWindows on Arm用プロセッサーは魅力的ではないかと思える。
下の表はWindows on Arm用Snapdragon(SC8xxx)と、同世代のスマートフォン用フラッグシップSnapdragon(SM8xxx)とを比較したものだが、Windows on Arm用Snapdragonはスマートフォン用Snapdragonと同技術をベースに拡大・高性能化した仕様であることが解る。
SoC | Date | CPU | GPU (FP32 performance) | Memory (Bandwidth) | ||
---|---|---|---|---|---|---|
Prime | Performance | Efficiency | ||||
SM8150 | 2019Q1 | Cortex-A76 x4 | Cortex-A55 x4 | Adreno 640 (954.7 GFLOPS) | LPDDR4X 4ch (34.13 GB/s) | |
SC8180X | 2019Q3 | Cortex-A76 x4 | Cortex-A55 x4 | Adreno 680 (1842.5 GFLOPS) | LPDDR4X 8ch (68.26 GB/s) | |
SM8350 | 2021Q1 | Cortex-X1 x1 | Cortex-A78 x3 | Cortex-A55 x4 | Adreno 660 (1720.3 GFLOPS) | LPDDR5 4ch (51.2 GiB/s) |
SC8280 | 2022Q1 | Cortex-X1 x4 | Cortex-A78 x4 | Adreno 690 (2100 GFLOPS) | LPDDR4X 8ch (68.26 GB/s) | |
(参) Nintendo Switch NVIDIA Tegra X | 2015 | Cortex-A57 x4 | (Disabled) | NVIDIA Maxwell (393 GFLOPS) | LPDDR4 4ch (25.6 GB/s) |
64-core RISC-V motherboard and workstation - CNX Software
Milk-V Pioneer
CNX SoftwareがRISC-V 64コアSoCを搭載したワークステーション/開発機について報じている。
Armの高額なライセンスを毛嫌いしてRISC-Vという選択肢は理解できるものの、結果として間接的に中国やロシアのIT界の発展を支援していることになることが気になる。命令セットのノウハウやコンパイラーは西側のものを流用しているからだ。T-Head C920 CPU IPを開発したT-Head Semiconductorは中国Alibaba子会社で、この開発基板に搭載されているSG2042 SoCを開発したSophon/Sophgoも恐らくはAlibabaの関連企業と思われる。
本ブログでも2020年に露Elbrusの開発ボードについての記事を取り上げたことがあるが、2020年当時の基準でも10~20年ほど時代遅れで西側の脅威となりそうになかった。それが、今回のSophon SG2042 SoCや搭載されているT-Head C920を見る限りは差は確実に縮まっているように思われる。
政治的な話を置いておいて技術的な話をしたいところだが、SG2042の詳細なブロック図などが無いため性能は判断が難しい。
リンク先のTRM=Technical Reference ManualによるとC920コアが4コア単位でクラスターになっており、16 CPUクラスター・4チャンネルのDDR4メモリーコントローラー・PCIe Gen 4/CCIXコントローラー32レーンがメッシュネットワークで接続されているようだ。
恐らく性能はあまり高くなく、ダイサイズは巨大(300~400 mm2程度?)ながらメモリーやPCIeなどのスペックから推測するに初代Epyc Embedded(2017年)や初代AWS Graviton(2018年)と同等ではないかと見える。Epyc Embeddedは最大でZen 16コア・DDR4 4ch・PCIe Gen 3 64-lane、GravitonはArm Cortex-A72 16コア・DDR4 4ch・PCIe Gen 3 32-laneを搭載したSoCだったが、仮に同等の製造技術で64コアを搭載しようとするとArm Cortex-A55~Cortex-A72程度ではないかと想像する(想像の域を出ないが)。
C920 64コアの総合的な性能がGraviton(Cortex-A72 16コア)~Epyc Embedded(Zen 16コア)と同等と判断する理由はDDR4メモリーの帯域が同じだからで、より高速ならばメモリー帯域に対する要求も高くなるはずだからである。
個人的に興味深いのはElbrus-8CBにせよSophon SG2042にせよ、コンパニオンとなるチップセットが存在しないSoCでありながらPCIeやUSBといったI/Oの扱いが重視されていない点である。
チップセットは事実上PCIeハブやSATA/USB等のI/Oコントローラーを集積され、CPU側で持てないI/Oコントローラーの不足を補う役割がある。上述のEpyc Embeddedなどはチップセットを持たないSoCのため代わりにPCIe 64レーン・SATA・10GBASE-KR x2といった多様なI/Oを内蔵している。
これに対しElbrus-8CBやSophon SG2042はチップセットの無いSoCでありながら僅かなPCIeしか持たない(Elbrus-8CBは20レーン・Sophon SG2042は32レーン)。記事のSophon SG2042の開発基板の場合、PCIe x16が3ポート見えるが電気的にはPCIe x8で、VIA Labs製USBコントローラーやJMicron製SATAコントローラーはASMedia ASM2824 PCIeスイッチでホストのPCIe 8レーンから32レーンを分配している。
AWS GravitonもPCIe 32レーンしか持たないが恐らくクラウド専用のワークロードが前提なのでUSB機器等の各種I/Oを接続するとは考えられず不要と判断されたのだろう。Elbrus-8CBやSophon SG2042の想定されているワークロードがよく分からないため判断の難しいところである。
IBM Red Hat Puts RHEL Source Behind Paywall - ServeTheHome
IBM傘下のRed Hatが、Red Hat Enterprise Linuxのソースコードの提供を保守契約者のみに変更したらしい。これまでは、SRPMファイルで提供されてきたため、ビルド環境さえあればRHEL互換Linuxを構築できたが、今後はそれができなくなる。恐らくCentOSがCentOS=RHELのダウンストリームという位置づけからCentOS Stream=RHELのアップストリームに変更されたのは、今回の動きの布石だったのだろう。
また、AWSのAmazon Linux 2023の動きを見ると、今回の計画を既に知らされていたか想定されていたのだろう、Amazon LinuxはAmazon Linux 2=CentOS同様のRHELのダウンストリームから、Amazon Linux 2023でFedora=アップストリームからのフォークという開発形態に変更されている(非公式ながらこちらの記事が解り易い?)。
ServeTheHomeの記事では、旧CentOSと同様の開発形態だったAlma LinuxとRocky Linuxへの影響に言及されているが、Oracle Linuxにも同様の影響が発生することだろう。
ところで、興味深いのがGPL互換性だろう。
実は筆者も誤解していたのだが、GPLの言うソースコードの提供はバイナリーに添付されるという条件のため、RHEL保守契約者にバイナリーとソースコードを提供するという新形態はGPL違反にならないようだ。
ちなみに、蛇足ながら筆者個人に関して言うと、大昔からRHEL(ほか旧CentOSやRocky LinuxなどのRHEL互換Linux)が大嫌いで個人では使用しておらず、保守契約済の職場での付き合いのため影響がない。
筆者はLinus Torvalds/Kernel.org公式のLinuxに好感を持っているため、Kernel.orgのカーネルに追従しているDebian GNU/Linux・Arch Linux・Amazon Linux・Intel Clear Linux・Microsoft CBL-Marinerなど(そのほかRaspberry Pi OS・OpenWrt・Armbianなども)には好感を持っているが、わざわざLTSでもないサポート切れのKernelに膨大なパッチを当てて10年間も保守して使っているRHELやUbuntuは理解に苦しむ。
Linux Version | Release Date | EOL Date | LTS | Major Linux |
---|---|---|---|---|
4.18 | 2018-08 | 2018-11 | Not LTS | RHEL 8 |
4.19 | 2018-10 | 2024-12 | 19 th LTS Release | Debian 10 Buster |
5.10 | 2020-12 | 2026-12 | 21 st LTS release | Debian 11 Bullseye |
5.14 | 2021-08 | 2021-11 | Not LTS | RHEL 9, SLES 15 SP4, SP5 |
5.15 | 2021-10 | 2023-10 | 22 nd LTS | Oracle UEK7 |
5.17 | 2022-03 | 2022-06 | Not LTS | Ubuntu 22.04 LTS |
6.1 | 2022-11 | 2026-12 | 23 rd LTS | Debian 12 Bookworm |
TOP500、AMD CPU採用スパコンFrontierが性能引き上げ首位堅持。富岳は2位 - PC Watch
Aurora Rising: A Massive Machine For HPC And AI - The Next Platform
2023年6月付のTop500リストが発表となったが、個人的に興味深かったのは、「未だにAuroraがランクインしていない」ことだった。
Intelが米エネルギー省(Department of Energy = DOE)から受注したAuroraは、当初Xeon Phi "Knights Hill" MICを採用(2018年運用開始予定・0.1 EFLOPS)予定だったものがXeon "Sapphire Rapids" CPU + "Ponte Vecchio" Max GPU 構成(2021年運用開始予定・1~2 EFLOPS)に仕切り直しになるなど紆余曲折を経たほか、Intel 10nm/Intel 7製造プロセスの立ち上げの遅れの煽りを受けるなどしてさらに1年以上遅れていた。それでも2021年9月時点で大原氏も以下のように書かれていた
一応Ponte VecchioもSapphire RapidsもIntel 7ベースでの構築なので、これ以上遅れることがなければ今年中に量産が開始されるはずだが、それによる最初のシリコンの出荷は来年第1四半期以降となる。
現実問題としてシステムが納入を開始するのは2022年第2四半期以降で、そこから組み上げてテストを経て検収が完了するのは2022年末あたりだろう。つまり当初スケジュールから1年遅れると見込まれる
このため、筆者など「さすがに2023年6月のTop500には載るだろう」と踏んでいたのだが…今期も掲載されることはなかった。もっとも、The Next Platformの記事にある通り、Intelは全ブレードを納入完了したそうだから2023年11月のランキングには掲載されるはずだ。
「2023年6月のTop500に載る」と思っていたのは、そもそもTop500上位に掲載されるようなフラッグシップHPCの場合、ランキング初登場時点では構築中・検収前ということが少なくないからだ。なにせノード数など規模が大きいし、スケジュールに間に合わせたパーツで構成されるので最適化も進んでいないなど、構築が大変だから仕方のないことだと思われる。
Top500視点でいうと、最初にシステムの大部分を使って計測した数値で初登場し、その後のシステムの完成度が向上し・最適化が進み2〜3期(1~1.5年)ほどかけて数字がアップデートされていくことが多い。下のテーブルを参照頂ければ、最近Top500 1位を獲得した3システムも初登場後3期ほどはコア数や性能に揺れが見られることが解るだろう。
HPC | List | Rank | Total Cores | Rmax (PFlop/s) | Rpeak (PFlop/s) |
---|---|---|---|---|---|
DOE ORNL Frontier | June 2022 | 1 | 8,730,112 | 1,102.00 | 1,685.65 |
November 2022 | 1 | 8,730,112 | 1,102.00 | 1,685.65 | |
June 2023 | 1 | 8,699,904 | 1,194.00 | 1,679.82 | |
RIKEN Fugaku | June 2020 | 1 | 7,299,072 | 415.53 | 513.85 |
November 2020 | 1 | 7,630,848 | 442.01 | 537.21 | |
June 2021 | 1 | 7,630,848 | 442.01 | 537.21 | |
DOE ORNL Summit | June 2018 | 1 | 2,282,544 | 122.30 | 187.66 |
November 2018 | 1 | 2,397,824 | 143.50 | 200.79 | |
June 2019 | 1 | 2,414,592 | 148.60 | 200.79 |
だから、筆者がANL/Intel Auroraに期待した「2023年5月のTop500には載る」というのも、なにもフルスペックでの数値を期待していたわけでもない。
言い方を変えると、もし仮に大原氏の言う2022年Q2~半年ほど遅れでの納入を開始したとしても、2023年Q1末までにAuroraの大部分が構築されているはずで、2023年5月のTop500には間に合う可能性が高い。それが、未完成システムすらTop500に掲載されていないということは、現時点でのAuroraの完成度が低いということなのだろう。
ここで、例えば構築中のAuroraの計測結果がFrontier未満だったため、Intelに忖度して計測結果を提出しなかった、という可能性も考えられなくはないが、個人的にはそうではないと想像する。その理由は、2023年H2には2 EFLOPS予定のEl Capitanのインストールが開始予定で、2023年11月のランキングに掲載される可能性もあるからだ。
El CapitanはTSMC N5E・N6で製造されるZen4とCDNA3を集積したAMD Instinct MI300をベースにCray Slingshotを組み合わせたシステムなので不確定要素が少なく、遅くとも2024年6月のランキングには間に合うだろうが、もし2023年11月のランキングに間に合うとするとEl Capitan 1位・Aurora 2位・Frontier 3位なんて状況も考えられる。
ところで、いくらフラッグシップHPCとはいえ2年近くも遅延したシステムでは相対的な性能が低下しそうなところだが、The Next Platformの記事を読むと、どうやらIntelはAuroraのノード数を増やし2 EFLOPSを目指しているらしい。
正直なところ、Auroraプログラムは実に歪だ。そもそものプログラム費用は約5億ドルだが、納入遅延による違約金を約3億ドルを支払ったようで(Intelの売上減というか赤字)、その一方で性能を2 EFLOPSまで引き上げるために当初の計画よりもノード数を増量している(Intelの製造コスト増)わけだ。
The Next Platformの記事などは、米政府/米エネルギー省はたったの2億ドルで2 EFLOPSを入手できるという素晴らしい取引だとポジティブに受け止めている節があるが、米エネルギー省は2年近くのスケジュール遅延・Intelとしては大赤字の取引となっているわけで、2018~2023年のプログラム全体を通して見れば双方にとって悲惨な取引に思えるのだが…。
東工大、AI性能20倍の次世代スパコン「TSUBAME4.0」。24年春稼働 - PC Watch
Tsubame更新自体は想定されていたことだろうと思うが、ラック数やノード数の少なさなどが気になるところである。筆者の感覚では、昨今のHPCシステムの場合、演算におけるGPUへの比重が高まった結果ノード数は減少傾向にあると認識している。Epycの場合だとPCIeが128~192レーンもあるわけで、Epyc 1ソケットでGPUを6~8基・InfiniBand/Ethernetアダプターを1~2基も接続できてしまうからだ。とはいえ、これほどラック数やノード数が減るというのは気になる(例えば、もし円/米ドルレートが$1=\100程度で構成部品の価格が33%安価だったとして、果たして同じ判断になったのだろうか?とか)。
以下は歴代のTsubameの構成(コア数・ノード数)と性能(ピークFLOPSのみ)と登場年そして前世代のピークFLOPSの何倍かを並べたものだ(Tsubame 2.5など中間世代は省略)。こうして並べてみるとTsubame 2.0が異常だった(40倍超)だけでTsubame 2.0→Tsubame 3.0もTsubame 3.0→Tsubame 4.0も7年後に約5倍の性能向上ということで一致している。ちなみにTsubame 1.0→Tsubame 2.0は、HPCがちょうどCPUでの演算からGPUでの演算に切り替わる時期に一致し、Tsubame 1.0は時代のトレンドを先取りしてClearSpeed CSX600を採用したはいいがNVIDIA GPUほど効率が上がらず、Tsubame 1.2からNVIDIA GPUへ転換されていくことになる。この辺りのくだりは(大原氏の記事に詳しい)。
また、66.80 TFLOPSという性能についても、2023年6月のTop500でいえば8位(DOE/NERSC/Cray Perlmutter)と9位(NVIDIA Selene)の間となり、歴代Tsubameと比較しても特別に劣るわけでもないことが解る。
System | Year | Highest ranking | Manufacturer | CPU | Accelerator | Rpeak (TFlops) | Improvements | Total Cores | Total Nodes |
---|---|---|---|---|---|---|---|---|---|
Tsubame 1.0 | 2006H2 | 7 | NEC, Sun Microsystems | AMD Opteron | ClearSpeed CSX600 | 56.43 | - | 11,664 | 655 |
Tsubame 2.0 | 2010H2 | 4 | HPE | Intel Xeon X5670 | NVIDIA Tesla M2050 | 2,287.63 | x 40.56 | 73,278 | 1422 |
Tsubame 3.0 | 2017H2 | 13 | SGI (HPE) | Intel Xeon E5-2680v4 | NVIDIA Tesla P100 | 12,150.00 | x 5.31 | 135,828 | 540 |
Tsubame 4.0 | 2023H2/ 2024H1 | HPE | AMD Epyc 7004 | NVIDIA H100 | 66,800.00 | x 5.50 | 46,080 | 240 |
ちなみに、計算ノードに採用されるのはHPE Cray XD6500とあるが、これは旧Crayの製品ではなくてCray買収前からHPEにあったApollo 6500系列の製品(高密度ブレードサーバー)である。インターコネクトにはHPE CrayのSlingshotではなく旧Mellanox(現NVIDIA)Quantum-2 InfiniBandを使うということだが、わざわざMellanox InfiniBandを選ぶということはGPUDirectを使うことを想定しているのかもしれない。
ASUS Republic of Gamers Unveils the ROG Ally - ASUS Pressroom
「ROG Ally」正式発表。Ryzen Z1搭載で599ドルより - PCWatch
ASUSがROG Allyを発表した。
ここ数年、GPDやAyaneoなど中国系PCメーカーを中心に携帯ゲーム機型PCが普及し始めており、2021年からは米Valveも同種の製品=SteamDeckを出しているが、それに追随する形となる。
個人的に驚いたのは価格だ。
端末としてはROG AllyはSteamDeckとよく似ているが、SteamDeckの場合はラップトップPC用APUを半分にカットダウンしたようなカスタムAPU "Van Gogh" を採用したのに対し、ASUS ROG Allyは普通のラップトップPC用APU "Phoenix Point"を動作周波数と消費電力のみカスタマイズしたもので、例えばRyzen Z1 Extreme(TDP 9-30W)はRyzen 7 7840U(TDP 28W・cTDP 15-30W)のTDPのみカスタマイズしたものだ。もしSteamDeckのカスタムAPUのコストがUS$ 150程度と仮定するならSteamDeck全体でUS$ 399~649と安価でも驚くことではないが、Ryzen 7 7840Uの単価は公表されていないが$300前後はするはずで、GPDがRyzen 7 7840U・RAM 32GBのGPD WIN Max 2023をUS$ 1049に設定していることを考慮してもROG Ally ExtremeのUS$ 699という価格はバーゲンプライスと言っていい。
以下の表は類似スペックのゲーム機型PCに加え、筆者の所有しているGPD WIN Max 2020(※Core/RyzenクラスのCPUを搭載した最初期の携帯ゲーム機型PC)のスペックを並べて比較したものだ。
GPD WIN Max2 (2023) | ASUS ROG Ally | Valve SteamDeck | GPD WIN Max (2020) | ||||
---|---|---|---|---|---|---|---|
Year | 2023 | 2023 | 2023 | 2023 | 2022 | 2020 | |
SoC | AMD Ryzen 7 7840U | AMD Ryzen 5 7640U | AMD Ryzen Z1 Extreme | AMD Ryzen Z1 | AMD Ryzen Custom | Intel Core-i5 1035G7 | |
CPU | Model | Zen4 | Zen4 | Zen4 | Zen4 | Zen2 | Sunny Cove |
Core count | 8 | 6 | 8 | 6 | 4 | 4 | |
Frequency (Base) | 3.30 GHz | 3.50 GHz | 2.40 GHz | 1.20 GHz | |||
Frequency (Turbo) | 5.10 GHz | 4.90 GHz | 5.10 GHz | 4.90 GHz | 3.50 GHz | 3.70 GHz | |
GPU | Model | RDNA3 | RDNA3 | RDNA3 | RDNA3 | RDNA2 | HD Graphics Gen 10 |
Core count | 12 | 8 | 12 | 4 | 2 | 64 | |
MADs | 768 | 512 | 768 | 256 | 128 | 512 | |
Frequency (Base) | 1.5 GHz | 1.5 GHz | 1.0 GHz | 300 MHz | |||
Frequency (Turbo) | 2.9 GHz | 2.8 GHz | 2.7 GHz | 2.5 GHz | 1.6 GHz | 1.05 GHz | |
FLOPS | 8.9 TFLOPS | 5.7 TFLOPS | 8.6 TFLOPS | 2.8 TFLOPS | 1.6 TFLOPS | 1.075 TFLOPS | |
RAM | Standard | LPDDR5X-7500 | LPDDR5X-7500 | LPDDR5-6400 | LPDDR5-6400 | LPDDR5 | LPDDR4-3200 |
Frequency | 7500 | 7500 | 6400 | 6400 | 5500 | 3200 | |
Bandwidth | 120.0 GB/sec | 120.0 GB/sec | 102.4 GB/sec | 102.4 GB/sec | 88.0 GB/sec | 51.2 GB/sec | |
Capacity | 64 GB | 16 GB | 16 GB | 16 GB | 16 GB | 16 GB | |
MSRP | US$ 1199 | US$ 799 | US$ 699 | US$ 599 | US$ 399 (64 GB) US$ 529 (256 GB) US$ 649 (512 GB) | US$ 779 |
左にいくほど登場時期が新しく・価格も高価になるので、左側の製品が右側の製品より高速になり・右側の製品が左側の製品に見劣りするのは当然だが、とはいえ、2020年のGPD WIN Maxから3年間・2021年のSteamDeckから2年間でCPUはコア数2倍で動作周波数も40%向上・GPUは演算性能が4倍に向上という躍進ぶりには目を見張るものがある。しかもRyzen 7版WIN Max 2023はともかくROG AllyもRyzen 5版WIN Max 2023もUS$ 600~800と、ほぼ同価格帯を維持している(SteamDeckの最低価格版はUS$ 399と安価だが、512 GB SSD版だとUS$ 649で、ROG Allyと価格差は無い)。
ちなみに、恐らくだがASUS ROG Allyのスペックは完全には固まっていないと思われる。上記では公式からのスペックを写したが、GPUの動作周波数と演算性能が一致しておらず、ROG Ally Extreme/ROG AllyのGPUの演算性能がそれぞれ8.6 TFLOPS・2.8 TFLOPSになるためには動作周波数はそれぞれ2.8 GHz・2.7 GHzのはずで、発売までに数字が修正される可能性がある。
個人的に気になったのはUSB4ポートで、なぜかROG AllyのスペックシートにはUSB4に関する記載が無い。
AMD "Phoenix Point" APUはUSB4を統合しているはず(ただし現在のドライバーでは動かないというウワサもある)だが、実はROG Allyの公式スペックによるとUSBポートはUSB 3.2 Gen 2規格のType-Cポートが1ポートということになっており、これが正しいとするとROG AllyではThuderbolt 3/4機器をフルスペックで使えないことになる。
可能性として考えられるのは、ASUSプロプライエタリーのROG XGポートを搭載した結果、高速シリアルレーンを使い切ってしまったパターンで、AMD Ryzen 7040 APUは計20レーンのPCIeレーンをもつが、ROG XGポート(8レーン)・NVMe SSD(4レーン)などで使用した結果、USB4で使えるPCIeレーンが無くなったのかもしれない。
3nm世代の幕開け(のちょっと前) - PC Watch
大原氏がTSMC・Samsung・Intelファウンダリー各社の「3nm」ノードの近況を記事にされている。
やはり手堅く感じられるのはTSMCで、記事によるとN3は仕切り直しになった(N3A→N3B)そうだが、ちゃんとApple製品の製造に漕ぎ着けるあたりはさすがとしか言いようがない。
そもそもの話だが、先端工場を持つファウンダリー3社で自社で半導体製品を持っていないのはTSMCだけなわけで、先端プロセスがコケるとビジネスへの打撃が大きいということもあるのだろう。Samsung・Intelに関する説明を読むと、そう感じざるを得ない。
ある意味で興味深いのはSamsungである。
記事になっているのはGAA(Gate-All-Around)を採用したSF3E(旧称 3GAE)プロセスで「(2022年6月)当初の歩留まりは10%台で、これが年末に40%近くまで向上した」とあるが、筆者は寡聞にして採用製品を知らない。もっとも、テストチップの歩留まりが40%ではビジネスになるか怪しいが…。
Samsungの場合、先端プロセスの最初の製品はSamsung製Galaxy Sシリーズに搭載されるExynosが知られ、過去のハイエンドExynosシリーズを見てもExynos 980 (8LPP)→Exynos 990 (7LPP)→Exynos 2100 (5LPE)→Exynos 2200 (4LPE)とSamsungファウンダリーの最先端プロセスが採用されてきており、そのGalaxy Sシリーズは例年Samsung Exynos搭載版とQualcomm Snapdragon搭載版の2種類がリリースされるが、最新Galaxy S23にはSnapdragon 8 Gen 2版しか存在せずExynos 2300(仮称)は影も形もない。昨年SamsungがExynos開発を中止するのではというウワサが流れたが、そもそもExynos 2300(仮称)を開発しても製造するプロセスが無かったというのが真相ではないかと思う(実際、ハイエンド以外で5LPEを採用したExynosは今年に入ってからもリリースされ続けている)。SF3Eに続くSF3・SF3Pがある程度の歩留まりを達成した時点でハイエンドExynosが復活するのか注目したい。
もっとも、個人的にSamsungファウンダリーで気になるのは「Samsung以外」である。なにせ、SamsungはExynosおよびファウンダリービジネスと並行する形で他社のSoCの設計支援と受託製造を行っている。
有名どころではApple A4あたりまでのAppleがそうだが、近年の有名なのはTesla FSDプロセッサーを開発したTeslaと、Pixelスマートフォン向けにTensorプロセッサーを開発しているGoogleだろう。いずれもSamsungがExynosなどで採用しているArm CPU・GPUと委託元(Tesla・Google)の独自IPを混載したSoCとなっており、Google TensorなどはExynos 2000シリーズと瓜二つである(もっとも、デファクトスタンダード=Arm製IPを使う時点で似通ってしまうのであるが…)。もし仮に最先端プロセス開発からSamsungが脱落した場合の影響が気になるところである。
Samsung Exynos 2100 | Google Tensor G1 | Samsung Exynos 2200 | Google Tensor G2 | |
---|---|---|---|---|
Part Number | S5E9840 | S5P9845 | S5E9925 | S5P9855 |
Announced | 2021Q1 | 2021Q4 | 2022Q1 | 2022Q3 |
CPU (Super) | Cortex-X1 | Cortex-X1 | Cortex-X2 | Cortex-X1 |
CPU (Big) | Cortex-A78 | Cortex-A76 | Cortex-A710 | Cortex-A78 |
CPU (Little) | Cortex-A55 | Cortex-A55 | Cortex-A510 | Cortex-A55 |
GPU | Mali G78 MP14 | Mali G78 MP20 | AMD RDNA2 | Mali-G710 MP7 |
Modem | Exynos 5123 | Exynos 5123 | Exynos 5123 | Exynos 5300 |
Process Node | 5LPE | 5LPE | 4LPE | 5LPE |
Intelについては、以前のプロセスロードマップ発表時に記事にしている(参考:過去記事①・過去記事②)。Intel 4が少なくとも半年遅れというのは「いつも通り」なのだが、本当に半年で済んでいるのか怪しいところである。
まず、2021年7月のロードマップによればIntel 4が2022年後半・Intel 3が2023年後半の予定で、大原氏の記事にある通りIntel 4採用のMeteor Lakeの量産ウェハーが2023Q1に始まったとされるが、Intel 4改良版のIntel 3が2023年後半に量産開始になるとはとても思えず、良くて2024年前半ではないかと思う。さらに言えば、従来通りの技術=FinFETを使用したIntel 4でそれなのだからGAAを採用したIntel 20A・18Aが2024年前半・2024年後半というのは非現実的に思えてならない。
なぜパナソニックの充電池が「エネループ」ブランドに統一されたのか? - PC Watch
PanasonicがEneloopブランド製品(第5世代Eneloop・第3世代Eneloop Lite)を発表し、重複していた充電式Evoltaとブランドの統一を発表したそうだ。
大河原氏の記事は基本的に、事実と時系列の前後関係を述べたものなのでライターに非はないのだが、思うに、記事を読んだ多くの一般的な読者にとっては実に馬鹿馬鹿しい内容ではないかと思う。
筆者個人としては「なぜ日本人は暖簾の商売を止められないのか?」「買収後10年経ってようやくか」という呆れに近い感情を覚える。消費者/顧客視点を置き去りにした企業側の自己満足的な行動に思えるからだ。
そもそも、三洋電機がEneloopを発売したのは2005年だがWikipediaでは同社の経営再建の項は2004年から始まっている。思うに、Eneloopを発売した時点では三洋電機は負け組でポジティブなブランドイメージは薄かったに違いなく、「Eneloop」ブランドの人気は三洋電機ブランドに依らない独立性の高い人気だろう。「Eneloop」ブランドの独立性の高さを考慮すればEneloopのラベルをPanasonicに書き換えたとして「買収した側が買収された側のブランドのコントロールを奪った」という企業側の自己満足以上のメリットの無い行為に思える。それは露出度低下による「Eneloopブランドの棄損」であり、一部消費者の意識を逆撫でする「Panasonicブランドの棄損」であろう。
だから、最初から「Panasonic Evolta」と「Eneloop」で併売すればよく、もし将来的にシナジー効果を求めるにも中身の設計や製造を共通化してラベルだけ別にすれば良かったのだ。それを一方のブランドを台無しにした上でブランドの棲み分けに失敗し、10年経って「統一しました」などと言われても経営陣の「ブランド」に対する認識の非常識さがアピールされるだけである(記事中にあるこのスライドなど失笑ものである)。
実際に同一製品を2ブランドで併売している代表例がWestern DigitalとSanDiskだろう。前者はPCユーザーに馴染み深く・後者はデジタルカメラユーザーに馴染み深い、つまり客層が異なることから中身が同じ製品を異なるブランドで併売している。ちなみに、買収したブランドを残すやり方は世界的に見てもごく一般的である。スイス時計のSwatchなど10を超える時計ブランドを買収後も維持している(こちらの場合はさすがに製品自体も別物だが)。これもカジュアル・低価格なSwatchとラグジュアリーブランドのOmegaやBreguet等とでは客層もブランドイメージも異なるのだから当然だろう。
経営や営業の観点からみて、PanasonicとWestern Digital・Swatchとどちらの方が客を見ているだろうか?
個人的にはPCWatchのコラムは読者が気になっている全内容を網羅していないと思う。製造面への言及が欠落しているからだ。
そもそも、三洋電機時代のEneloopは旧 三洋エナジートワイセル、Panasonicによる三洋電機買収後はFDKトワイセルが製造してきた日本製である(恐らくFDKの高崎工場製)。これに対し充電式Evoltaは2008年の初登場時から中国製だった( 恐らく中国 江蘇無錫新区のパナソニック エナジー無錫製)。もっとも、FDKトワイセルは中国(恐らく厦门FDK)などにも工場があり、海外展開を強化していた2015年には中国製Eneloopが存在していたようだが。
個人的に気になるのは、第5世代EneloopはFDK製か?Panasonic製か?という点ではないかと思う。Eneloopブランドに統一したからといって旧Eneloopを踏襲した設計・製造とは限らず、蓋を開けてみれば中身は旧充電式Evolta後継だった、なんて可能性もゼロではない(個人的にはFDK製だと思うが…)。