ALH84001

私的コラム&雑記(&メモ)

最近の興味深かった話題(2024年第37週)

2024-09-15 | 興味深かった話題

Sony PlayStation 5 Pro発表 (1) 価格編

「PlayStation 5 Pro」登場。性能45%向上 - PC Watch
Sony PlayStation 5 - Wikipedia

 SonyがPlayStation 5 Proを発表した。日本での反応は各メディアで報じられているが、各国で同様の反応らしい。つまり「高い!」である。


PlayStation 5
(Nov 2020)
PlayStation 5 Pro
(Nov 2024)
Delta
(in US$)
USUS$ 499US$ 699+ 40.1%
EU€ 499 (US$ 591.8)€ 799 (US$ 885.5)+ 60.1% (+ 49.6%)
Japan¥ 49,980 (US$ 479.8)¥ 119,980 (US$ 851.6)+ 140.1% (+ 77.5%)

 各国の値上げ率を見てみると、米国で+ 40%・欧州で+ 60%となっている。インフレーションは分野によって異なるが米国の過去5年間でのインフレーション率が8.00%とのことなので2020~2022年頃の半導体不足などを計算に入れても値上げされていることが解る。
 面白いのは米国価格・欧州価格での米ドル換算での値上げ率で、米国+ 40%に対し欧州+ 50%と、米ドル基準で値上げしているように見える。ちなみに、米国はVAT別表示・州毎にVAT率が異なるため、VAT +20%とすると、2020年のPS5は約US$ 599・2024年のPS5 Proは約US$ 839となり、欧州の価格に近い価格設定であることが解る。…謎なのは日本での価格設定で、米ドル換算でも+ 77.5%の値上げとなっている。

Sony PlayStation 5 Pro発表 (2) スペック編

Sony PlayStation 5 Pro costs $699, launches November 7 - Videocardz

 詳細なスペックは公表されていないため本稿では議論しないが、興味深いのはメジャーな欧米メディアは「Zen 2 + RDNA 3/4」と推測していることだ。ゲームコンソールでは高い後方互換性維持のため古いハードウェアを使い回すことが多いが、とはいえ2019年のZen 2を持って来るとしたら驚きである。
 高性能GPUを実現するため新しい製造プロセス=TSMC N5/N4Pを採用するとしたら、Zen 4/5が妥当だが、Zen 4/5ではAVX-512対応など命令セットおよび実行レイテンシーの非互換性・大幅なトランジスター増があるため避ける可能性は否定できない。CCDのトランジスター数はZen 4はZen 2の+ 66.6%で、同じ製造プロセスなら恐らくダイサイズも同程度増加する≒GPUに割り当てられるダイサイズが減ることになり、もしSonyがGPU性能を重視するならZen 4/5を採用しない可能性はある。

 しかし、Zen 3ではなくZen 2を選ぶ理由はあまり考え難い。命令セットもダイサイズもほぼ同じでIPC +19%を達成している。いずれにせよTSMC N5/N4Pを使う時点で物理実装を新規に起こす必要がある。
 あえてZen 2を採用するとしたら、気になるのはPS5でSonyが行ったと言われるZen 2のカスタマイズ(Chips and Cheeze)で、PCで採用されているZen 2→Zen 3であれば後方互換性維持はあまり関係無さそうだが、PS5カスタマイズ版Zen 2と通常のZen 3とではAVXの遅延が大きく違うはずで、後方互換に問題が生じてもおかしくなさそうな気がする。

AMD RDNA・CDNAはUDNAに統合される

AMD announces unified UDNA GPU architecture — bringing RDNA and CDNA together to take on Nvidia's CUDA ecosystem - Tom's Hardware

 個人的には開発リソースの効率化の最適化だろうと思う。
 従来AMD・NVIDIA共に「FP64スループット重視」のデータセンター用/コンピュート用と「FP32スループット重視・レイトレーシング等のグラフィックスの追加機能重視」のグラフィック用の2系統に分類していたところ、AI/深層学習の爆発的な市場拡大に伴い、リソースをMatrix演算ユニットに向ける必要がでてきたのだろう(だとするとAMDの判断は遅すぎるが…)

 2015年~頃の従来の考え方だとデータセンター/コンピュート用とグラフィックス用とに分けるのは理にかなっていた。
 NVIDIAは2016年に発表した"Parker"で同一コード名ながらコンピュート用とグラフィックス用とに分化(参考)・その次世代でもコンピュート用="Volta"とグラフィックス用="Turing"とに分化させている。同様にAMDがデータセンター用=CDNAとグラフィックス用=RDNAとに分化したことはおかしな事ではなかった。
 そして、コンピュート用とグラフィックス用の違いは「FP64スループット=実装コストの高い高スループットのFP64演算ユニットのSIMDエンジンを搭載する代わりにSIMDエンジンの数は少ない。ディスプレイ出力なども搭載しない」か「FP32スループット重視・追加機能重視=FP64が低スループットのFP32重視のSIMDエンジンをより多く搭載する。レイトレーシング等のグラフィックス用機能を多く搭載し、ディスプレイ出力も搭載する」といったものである。

 その状況が変わったのがAI/深層学習におけるMatrix演算の需要増加である。
 科学演算におけるFP64の必要性自体は恐らく変化していないだろうが、より経済規模が大きな市場が出現したことにより求められる演算性能の優先度が変化してしまった。
 深層学習での精度はどんどん下がっており、かつては学習でFP32・推論でFP16/bFP16が使用されていた時代もあるが、最近は学習でTF16/bFP16・推論に至ってはFP8・INT8・INT6・INT4などが使われている。また、GPUで伝統的なVecror演算ではなくMatrix演算が求められる。Vector演算用のSIMD演算ユニットでも複数サイクルかけてMatrix演算を処理できるが効率は良くない。
 Vector演算の精度の違いは、Vector演算/Matrix演算の違いに比べたら些細な違いでしかない。

 問題は実装である。AMDはVector演算ユニットを拡張することでMatrix演算機能を実装した。この方式は「Vector演算とMatrix演算の両方で高い演算性能が求められる」という前提では実装コストの効率が良い。例えば従来FP32を32-way SIMDで演算していたところ、FP8を128-wayで演算できるようにするわけだ。もし16x16のマトリックスなら計256要素なので2サイクルで演算できることになる。
 しかし、現在の市場の状況はMatrix演算で高い演算性能が求められるもののVector演算の需要は相対的に低い。現在の市場の需要では上述の例でいえばFP32 32-way Vector演算のスループットを上げるよりもFP8 16x16 Matrix演算のスループットを上げたい。ところが上述の実装方式ではVector演算ユニットを拡張してMatrix演算に流用しているから、Matrix演算性能を強化するにはVector演算性能を強化する必要がでてくる。
 例えばCDNA1では演算性能は同じ512-bit Vector演算ユニットで処理していたため同精度ならVector演算とMatrix演算で共通だった。CDNA1からCDNA2で512-bit Vector演算ユニットをMatrix演算のみ1024-bit Vectorで処理可能になったため、同精度ならVector演算とMatrix演算で1:2になった。とはいえ、レジスタファイルと演算ユニットをMatrix演算用に512-bit拡張しただけのため、スループットは2倍にしかならない。

 NVIDIAも"Maxwell" / "Pascal"世代では同様にVector演算ユニットを拡張して深層学習のMatrix演算を行っていたが、Volta/Turingで専用のMatrix演算ユニット=TensorCoreを実装した。
 TensorCoreはVector演算ユニット=CUDAコアとは別の実装なのでCUDAコアとは無関係に拡張することができる。実際、Volta/Turingに続くAmpere/Hopper/Adaでも継続的に拡張され続けているが、TensorCoreのスループットはCUDAコアのスループットとは無関係に強化されている。

 実はこれは単なる「新方式の演算ユニットの実装方法」という表面的な話ではなく、AMD(旧ATI Technologies)とNVIDIAの文化・フィロソフィーによるものの可能性がある。新方式の演算ユニットを実装する場合、伝統的にNVIDIAは新規の演算ユニットをGPUに追加する力業で実装する「Brute Force(力業)」方式の傾向が強く、AMD/旧ATI Technologiesは既存の演算ユニットを機能拡張する傾向が強い(参考)。
 ただし、さすがにここまでAI/深層学習市場が拡大し売上・株価に影響を与え始めるとAMD/旧ATI Technologies方式では無理があると言わざるを得ない。

Comment

最近の興味深かった話題(2024年第20週)

2024-05-20 | 興味深かった話題

2024年 6月版 Top500 が公開

TOP500 LIST - JUNE 2024

 今回意外だったのはORNL/HPE (Cray)/AMDのEl Capitanが登場しなかったことで、それ以外は実に順当な結果となった。ただ、ランキング自体は順当なものの話題はAI(という言葉は漠然としているので機械学習とか深層学習という言葉の方が適切に思えるが…)に話題を攫われているので、HPL(High-Performance Linpack)の存在意義がより一層怪しく感じられる気もするが…

 今回のランキングでは、恐らく動作周波数を落としているという意味ではフルスペックではないが、ANL/Intel/HPEのAuroraが2023年11月のランキングから約2倍に構成を拡大して(ハードウェア構成的には)フルスペックでのランクインとなった。下の表はTop500からノード数・CPU数・GPU数を逆算して纏めたものだが、ノード数・CPU数・GPU数が昨年Intelが2023年5月に発表していた予定の構成と一致していることが判る(参考)。

HPCNodesTotal CPUTotal GPURmax
(PFlop/s)
Rpeak
(PFlop/s)
Rmax/Rpeak
Frontier (2023.11)8,63117,26234,5241,194.001,679.8271.08 %
Frontier (2024.06)8,63117,26234,5241,206.001,714.8170.33 %
Aurora (2023.11)5,43910,87832,634585.341,059.3355.26 %
Aurora (2024.05)10,62421,24863,7441,012.001,980.0151.11 %
Aurora (Planned)10,62421,24863,744?2,069.19?

 今回の結果は、Argonne National LaboratoryとIntelとしてはある意味で予定通りだったのではと勘ぐってしまう。国民の税金を5億ドル費やしたフラッグシップHPCの一台でFP64精度で2 EFLOPS超を公約していたシステム・初登場時1位を獲るべきシステムが(とはいえIntelが遅延による違約金3億ドルを支払ったで実質2億ドル+2年超の遅延だが…)、実際には2024年に登場し2年前に登場した6億ドル・1.2 EFLOPSのシステムに及ばないなどというのは冗談でも笑えないからで、だからこそ、あえて50%程度の不完全な構成で2023年11月に登場させ、批難を分散させたのではないか?という推測は穿った見方が過ぎるだろうか。

Comment

最近の興味深かった話題(2023年第46週)

2023-11-18 | 興味深かった話題

2023年11月版 Top500 が公開

Top500 List - November 2023
Top500 Supercomputers: Who Gets The Most Out Of Peak Performance? -TheNextPlatform

 今回の最大の話題はORNL/Intel Auroraの初登場だが、悪い意味で驚きの結果となった。ランクインしたものの、約51%ほどのノード数で2位という結果となった。
 今回の結果が示しているのは恐らく何らかの想定外が起こっておりIntelはAuroraで1位を獲得することを諦めたということではないか。恐らく、次回=2024年6月のリストではAuroraはフル構成で今回1位のFrontierを超えてくるだろうが、次回はLLNL/HPE/AMDのEl Capitanが約2 ExaFLOPSでの首位獲得がほぼ確実だからである。

 Intelの発表によると、2023年6月リスト発表の時点でブレードを全数納品し終えたということなので、半年近く経っても構築が進んでいないことになる。本来、ハードウェアの構築やOSやミドルウェアのインストール自体はそれほど時間を要さず、構築後のチューニングに時間がかかるはずだが、約半分の規模での測定結果というのが何を示すのか解らない。ハードウェアに異常があったのかもしれないし、ハードウェアの構築とOS等のインストールは終わったが、大規模で動かすとまったく性能が出ないのかもしれない。

HPCNodesTotal CPUTotal GPURmax
(PFlop/s)
Rpeak
(PFlop/s)
Rmax/Rpeak
Frontier (2023)8,63117,26234,5241,194.001,679.8271.08 %
Frontier (2022)8,66117,32234,6441,102.001,685.6565.38 %
Aurora (2023.11)5,43910,87832,634585.341,059.3355.26 %
Aurora (Planed)10,62421,24863,744?2,069.19?

 上の表はTop500リスト中の性能と、コア数からノード数・CPU数・GPU数を逆算したものを纏めたものである。

 今回(2023.11)のAuroraの結果は計画の約半分の構成で計測したことが解る。興味深いのは、Frontierが4 GPUs/Nodeに対しAuroraが6 GPUs/NodeとGPUの比率が高く、さらにAuroraの方がFrontierより1.25倍ほど規模が大きいため、Auroraとしては約半分の構成でもGPU数ではFrontierのGPU数に肉薄しており、Rpeak(理論上の性能)も36%ほどしか差がない。それでも、理論値に対する実効性能の効率(Rmax/Rpeak)が低いため、結果としてはAuroraはFrontierの半分以下の性能しか達成できていない、ということだろう。
 一般的には、ノード数が増えるとネットワークの遅延が増えたり・並列演算できない演算があったり・遅いノードがボトルネックになったりして実効効率は悪化するため、フル構成で計測した結果は半分の構成の2倍とはならず、半分の構成の方が高い実効効率を示すが、それで半分の構成で55.26%となると、そのまま規模を2倍にしたフル構成だったとしてもAuroraはFrontierに勝てないだろう。もっとも、Intel GPUはハイエンド製品も・HPCでの採用も初めてだから初登場時点で最適化が進んでいないのは当然で、これは次回=2024年6月のTop500までには改善が進むだろう。
 言い換えれば、次回=2024年6月のTop500に登場すると見られるEl Capitanは既に実績と経験が豊富なAMD CPU+AMD GPUという構成なので性能の予測が大きく外れることは考え難い。

 不気味なのは中国勢で、TheNextPlatformの記事では存在が推測される2台のExaScaleシステムについて記載があるが、基本的には推測の域を出ない。NUDT Tianhe-2Aが初めて中国に首位の座をもたらしたのが2013年6月・さらにNRCPC Sunway TaihuLightの登場が2016年6月で中国に1位・2位をもたらしており、一方で米国が中国企業をエンティティリストに加えて禁輸措置が本格化したのが2018年頃であるから、中国政府系組織も成績を公表しないのだろう。



Comment

最近の興味深かった話題(2023年第27週)

2023-07-09 | 興味深かった話題

Braveブラウザーがポートスキャンブロック機能を搭載する

Braveブラウザ、他のブラウザが未実装のセキュリティ機能を追加 - マイナビ
Brave browser will prevent websites from port scanning visitors - Malwarebytes

 マイナビの記事では記者が「他のWebブラウザがBraveのようにローカルホストのリソースをブロッキングする機能を追加するかどうかはまだ不明だが、導入されることが期待されている」と締めているが、個人的には色々と疑問だ。実装方法や挙動が不明のため評価待ちといったところではないだろうか。

 そもそもの話として、Braveの新機能をサイバーセキュリティー業界での一般語=ポートスキャンとしてしまっていいのか怪しい。

 まず、サイバーセキュリティー業界で一般論的なポートスキャンの話をする。
 ポートスキャンはサイバーセキュリティーにおいて、防衛側も攻撃側も行う「情報収集」、あるいは企業などのIT部門が行うインベントリーの構築手段の一部である。組織内のネットワーク上のどのアドレスにどのようなホストが存在するのか?そのホストではどのようなサービスやアプリケーションがインストールされ・動作しているのか?といった個々の情報を組織ネットワーク単位で収集し、ネットワーク上に存在するホスト/ソフトウェア資産をデータベース化する。これに手作業の入力など他の情報を一箇所に集約データベースがインベントリーである。
 その情報収集方法として、フィンガープリンティングなどと呼ばれるが、スキャン対象のホストのどのポートでどのようなサービスが動作しているか検出する。例えばWebサーバーがリスニングしているTCP 80ポートにHTTPリクエストを送信して「Server: Apache/2.4.41 (Unix)」などと返ってきたら「Apache HTTP ServerサービスがUNIX/Linuxサーバー上で動作しておりHTTPをリッスンしている」ということが判るわけだが、サイバーセキュリティー的には同時にHTTPサーバーがApache 2.4.41で脆弱性があるバージョンである可能性があることが判り、サイバーセキュリティーの防衛側であれば、自分たちがどういったホスト/ソフトウェア資産と脆弱性を持っているのか把握し対策を講じることになるだろうし、攻撃側であればその脆弱性を利用してホストを攻撃しようとするかもしれない。
 余談だが、このためセキュリティーポリシーの整備された組織ではポートスキャン自体を禁止されている場合もある(例:セキュリティーチームなど特定IT部門以外によるポートスキャンを検知→攻撃者の可能性)。

 このような理由で、一般論としてホストベースのファイヤーウォールなどでポートスキャンのブロックはセキュリティー機能として存在するが、Webブラウザーというかユーザー空間のアプリケーションでブロックすることは一般的でない。
 一般的にはLinuxであればnetfilterカーネルモジュールやWindowsであればWindows Defender Firewallなどがカーネルレベル(TCP/IPでいうトランスポート層とネットワーク層)で行う。というのも、例えばApache HTTP ServerやMicrosoft IISといったHTTPサーバーがTCP 80をリッスンする場合、OSのカーネルがインターネット層からトランスポート層(第2層~第4層)までの処理を行い、ユーザー空間(TCP/IPでいうアプリケーション層=第5層)のサービスの下で動作するスーパーサーバー(LinuxのsystemdやWindowsのsvchost)がカーネルとサービス/アプリケーションとの橋渡しを行うので、ユーザー空間で動作するサードパーティーアプリケーションにポートスキャンのブロックを実装しても他のサービスが使っているポートを監視することはできないからである(TCP/UDPポート毎に各サービス・アプリケーション宛に振り分けられた後のため)。
 また、そもそも仮にユーザー空間に実装するとしても、アプリケーションとしての実装ではOSの起動時から終了時まで防護されないことになるためサービスとして実装される必要がある。(従来のポートスキャンに対する従来のnetfilter型firewallであれば)

 Braveブラウザーの開発者も当然このことを承知しているはずで、ここでいう「ポートスキャン」は一般的な意味=ネットワーク経由でマシンに対する(OSカーネルのTCP/IPスタックを経由した)TCP/UDPポートのスキャンとは異なるはずだが、では、なぜWebブラウザーでどういった「ポートスキャン」をブロックする必要があるのかMalwarebytesの記事に概要が説明されている。要点を大雑把に挙げると:

筆者は寡聞にして、この「ポートスキャンを行うWebサイト」の挙動に詳しくないのだが、恐らくはWebコンテンツに埋め込んだJavaScriptを使ってWebブラウザーに実行させているのだろう。例えばGoogle Chromeの場合JavaScriptエンジン=V8はNode.jsのようなもの(というかNode.jsがChromeのV8エンジンの流用)だから、ポートスキャナーをJavaScriptで実装しGoogle Chrome内蔵のV8エンジンで実行させることは難しくないだろう。
 そして、一般には、安全と見做されるマシン上の安全と見做されるアプリケーションから外部へのアクセスは、ローカルホストではブロックされないことが多いから、ネットワークセキュリティー(例:VLANを使ったアイソレーションなど)次第ではローカルネットワークに対するスキャンも可能だろう。

 この場合、Braveがブロックしようとしている「ポートスキャン」とは、サイバーセキュリティー業界での一般的なポートスキャン=「ネットワーク経由でマシンに対する(OSカーネルのTCP/IPスタックを経由した)TCP/UDPポートのスキャン」とはフローが異なり、「Webブラウザーでローカル実行されるスクリプトから、ローカルホスト・ローカルネットワークに対するTCP/UDPポートのスキャン」という意味なのだろう(記事を読んだ筆者の理解)。
 そうすると、恐らくこの「ポートスキャン」のブロック機能とは、Webブラウザー上でサイト毎にサンドボックス実行した上で、サンドボックス内とサンドボックス外との通信をモニタリング・ブロックすることになるのだと思うのだが、サンドボックス外に対するHTTP GETがユーザー操作によるものか、JavaScriptのポートスキャン機能によるものか判別は困難そうに思われる。

家庭用ルーターはRISC-Vに置き換わるのか?

MangoPi RISC-V router will support dual GbE, dual USB 2.0, CAN bus, RS485, and more - CNX Software

 CNX-SoftwareがRISC-VベースのSoCを利用したルーター型の開発ボード「MangoPi RISC-V」について報じているのだが、その中で「ルーターは主にMIPSベースのプロセッサーが使われてきて、そしてArmベースに置き換わったが、次はもしかしたらRISC-Vかもしれない」としているのが興味深い。
 家庭用ルーターがRISC-Vベースになるかは不明だが、個人的にはWiSoCと呼ばれるルーター用プロセッサー提供元の動向次第ではないかと思う。

 まず、ルーターでMIPSからArmに移行した経緯は、ちょうどIEEE 802.11nから802.11acに替わった時期に合致するのだが、振り返ってみるとMIPSからArmへの移行そのものは複合的な要因だったのではないかと思う。
 IEEE 802.11nから802.11acへの移行により、WiSoCの性能がMIPSでは限界が見えてきたというような理由もあるのだろうが、それだけならMIPSのままでもMIPS 24K→34K/1004K→InterAptiv/ProAptivなどの選択肢もあったはずである。恐らく、究極的な理由はMIPSの製品ロードマップや会社そのものの動向が不明瞭だったとか、WiSoCのメジャープレイヤーがAtheros・Broadcom(いずれもMIPSユーザー)・Freescale(PowerPCユーザー)からQualcomm・MediaTek・Realtek(いずれもArmユーザー)に交代したとかいう複数の理由が重なった結果ではないかと思う(FreescaleもBroadcomも別製品ではArmを扱っていたが)。
 また、802.11n・初期802.11acのメジャープレイヤーの3社がいずれも802.11nから802.11acへの転換期=2008~2014年頃に買収されており、親会社の意向もあったのかもしれない。

買収した企業買収された企業
2011QualcommAtheros Communications
2015Avago TechnologiesBroadcom
2015NXP SemiconductorFreescale Semiconductor

さらに、この時期はMIPSも新IPは発表しつつもゴタゴタが続いてロードマップが不明瞭になってきており、対するArmはスマートフォン用SoCで絶好調・毎年新IPを発表していたから、性能不足を理由にMIPSからArmに乗り換えるには良い時期だったのかもしれない。

 Qualcomm・MediaTek・Realtekといった企業からすれば、既存製品のノウハウをWiSoC開発に活かすことは理に適っている。
 組込用半導体は作って終わりではなく、10年間超に渡る供給保証・各種ドキュメント・BSP/SDKなどと呼ばれる開発キットがセットで提供される必要があり、そのサービスの質が評価される。
 例えばQualcommの場合、スマートフォン用SoC=SnapdragonファミリーではCAF=Code Aurora Forumで既に実績があったから、同社のWiSoC=IPQファミリーでもCAFが使用されることは理に適っていたはずだ。MediaTekもスマートフォン用SoCで・RealtekもSTBやNAS用SoCでArmベースのSoC・各種ドキュメント・BSP/SDKで既にエコシステムが存在したからWiSoCでArmへの移行は既存製品を活かす意味でも効果的だったはずだ。

 これが、802.11nから802.11acの過渡期に発生したWiSoCにおけるMIPSからArmへの移行の経緯だが、ではArmからRISC-Vへ移行するのか?というと予想は難しい。
 ルーターはスマートフォンとは違い純粋な組込機器にため、CPUアーキテクチャーの違いによるアプリケーションの互換性は問題となり難いからArmからRISC-Vへ移行の技術的な難易度は低そうに見えるし、恐らくCNX記事中のMangoPiホビー用開発ボードようなニッチなマーケットには今後も登場することだろう。
 しかし、未だにクローズドな組込以外ではRISC-Vの採用は少ない(恐らくRISC-VのメジャープレイヤーはHDD/SSDのコントローラーに採用しているWestern Digital・Seagateと、GPU内のコントローラーに使用しているNVIDIAだろう)ことを考えると、Qualcomm/MediaTek/RealtekがArmで実現しているようなシナジーやエコシステムをRISC-Vで実現できそうには思えない。

Comment

最近の興味深かった話題(2023年第26週)

2023-07-02 | 興味深かった話題

任天堂の次世代機

任天堂社長、次世代機への移行に言及 ニンテンドーアカウント活用へ - ITmedia

 任天堂社長が次世代機への移行に言及したそうで、各IT系メディアで取り上げられている。通常、任天堂・SIE・Microsoft各社はゲーミングコンソールを5~8年に1回程度の頻度で更新しているため、2017年に登場したNintendo Switchが2022~2025年のどこかで更新されることは自然なことだろう。
 誰もが予想する既定路線だと思うがニンテンドーアカウントというかSwitchのプラットフォームを使ったものになるようだ。むしろ疑問はアプリケーションプロセッサーの方である。

GenerationNintendoSonyMicrosoft
Gen 9Nintendo Switch (2017)PlayStation 5 (2020)Xbox Series X|S (2020)
(Gen 8.5)
PlayStation 4 Pro (2016)Xbox One X (2017)
Gen 8Wii U (2012)PlayStation 4 (2014)Xbox One (2014)
(Gen 7.5)

Xbox 360 S (2010)
Gen 7Wii (2006)PlayStation 3 (2006)Xbox 360 (2005)

 Nintendo Switchの成功は誰もが納得するところだろうから、ニンテンドーアカウントを「任天堂版Steam」とでも呼ぶべきプラットフォームと見做すならば、そのプラットフォームを活用し、次世代機でもアクセス可能とするのは当然に思える(もちろん、ここでの「任天堂版Steam」は他の任天堂ゲームコンソールから同じアカウントで所有するゲームタイトルにアクセス可能という意味であって、非任天堂マシンからアクセス可能とするという意味ではないが)。

 そうなると、次世代機もArm系アプリケーションプロセッサーの可能性が高い。一般にエミュレーションはオーバーヘッドが高い(最適化なしに普通にエミュレーションすると1/3程度の性能になるといわれる)ため、同じアーキテクチャーであればエミュレーションの必要なくNintendo Switchのゲームをそのまま動かせる可能性が高くなる。

 疑問はそのArm系アプリケーションプロセッサーをどこが供給するか?であるが、現行Nintendo Switchのアプリケーションプロセッサーの製造元=NVIDIAは2015年頃を境にモバイルから車載へ転換しておりモバイル用アプリケーションプロセッサーを手掛けていない。
 NVIDIA Tegra系列の最新モデル=Orinは圧倒的に高性能だが、その一方でコスト的にも消費電力的にもNintendo Switchサイズのゲーム機に収まるか怪しい。単純計算でも8倍以上の性能を持つがフルスペックでの消費電力は50Wに達する。もちろん、Orinを1/2程度にカットダウンした省コスト・省電力バージョンのハードウェアを作ることは技術的に難しくないだろうが、組込の世界はハードウェアを作って終わりではなくソフトウェアサポートも込みなので、果たしてNVIDIAがそこまでするか怪しい。

 筆者個人の勝手な予想としては、Qualcomm Snapdragon系アプリケーションプロセッサーという可能性もあるように思う。
 思うに、Nintendo Switchが登場した2017年以前の時点では任天堂としてもQualcomm Snapdragonは採用し難かったのではないか。Qualcomm Snapdragonのスマートフォンがターゲットだったし、そもそも任天堂のWii U・Nintendo Switchのライバルであるスマートフォンとの差別化が難しかったためである。しかし、現在のQualcommはSnapdragonをWindows on ArmやIoTに拡大しており、特にWindows on Arm用プロセッサーは魅力的ではないかと思える。
 下の表はWindows on Arm用Snapdragon(SC8xxx)と、同世代のスマートフォン用フラッグシップSnapdragon(SM8xxx)とを比較したものだが、Windows on Arm用Snapdragonはスマートフォン用Snapdragonと同技術をベースに拡大・高性能化した仕様であることが解る。

SoCDateCPUGPU (FP32 performance)Memory (Bandwidth)
PrimePerformanceEfficiency
SM8150
2019Q1

Cortex-A76 x4
Cortex-A55 x4
Adreno 640 (954.7 GFLOPS)
LPDDR4X 4ch (34.13 GB/s)
SC8180X
2019Q3

Cortex-A76 x4
Cortex-A55 x4
Adreno 680 (1842.5 GFLOPS)
LPDDR4X 8ch (68.26 GB/s)
SM8350
2021Q1
Cortex-X1 x1
Cortex-A78 x3
Cortex-A55 x4
Adreno 660 (1720.3 GFLOPS)
LPDDR5 4ch (51.2 GiB/s)
SC8280
2022Q1
Cortex-X1 x4
Cortex-A78 x4

Adreno 690 (2100 GFLOPS)
LPDDR4X 8ch (68.26 GB/s)
(参) Nintendo Switch
NVIDIA Tegra X
2015

Cortex-A57 x4
(Disabled)NVIDIA Maxwell (393 GFLOPS)
LPDDR4 4ch (25.6 GB/s)

RISC-V 64コアCPU

64-core RISC-V motherboard and workstation - CNX Software
Milk-V Pioneer

 CNX SoftwareがRISC-V 64コアSoCを搭載したワークステーション/開発機について報じている。
 Armの高額なライセンスを毛嫌いしてRISC-Vという選択肢は理解できるものの、結果として間接的に中国やロシアのIT界の発展を支援していることになることが気になる。命令セットのノウハウやコンパイラーは西側のものを流用しているからだ。T-Head C920 CPU IPを開発したT-Head Semiconductorは中国Alibaba子会社で、この開発基板に搭載されているSG2042 SoCを開発したSophon/Sophgoも恐らくはAlibabaの関連企業と思われる。

 本ブログでも2020年に露Elbrusの開発ボードについての記事を取り上げたことがあるが、2020年当時の基準でも10~20年ほど時代遅れで西側の脅威となりそうになかった。それが、今回のSophon SG2042 SoCや搭載されているT-Head C920を見る限りは差は確実に縮まっているように思われる。

 政治的な話を置いておいて技術的な話をしたいところだが、SG2042の詳細なブロック図などが無いため性能は判断が難しい。
 リンク先のTRM=Technical Reference ManualによるとC920コアが4コア単位でクラスターになっており、16 CPUクラスター・4チャンネルのDDR4メモリーコントローラー・PCIe Gen 4/CCIXコントローラー32レーンがメッシュネットワークで接続されているようだ。
 恐らく性能はあまり高くなく、ダイサイズは巨大(300~400 mm2程度?)ながらメモリーやPCIeなどのスペックから推測するに初代Epyc Embedded(2017年)や初代AWS Graviton(2018年)と同等ではないかと見える。Epyc Embeddedは最大でZen 16コア・DDR4 4ch・PCIe Gen 3 64-lane、GravitonはArm Cortex-A72 16コア・DDR4 4ch・PCIe Gen 3 32-laneを搭載したSoCだったが、仮に同等の製造技術で64コアを搭載しようとするとArm Cortex-A55~Cortex-A72程度ではないかと想像する(想像の域を出ないが)。
 C920 64コアの総合的な性能がGraviton(Cortex-A72 16コア)~Epyc Embedded(Zen 16コア)と同等と判断する理由はDDR4メモリーの帯域が同じだからで、より高速ならばメモリー帯域に対する要求も高くなるはずだからである。

 個人的に興味深いのはElbrus-8CBにせよSophon SG2042にせよ、コンパニオンとなるチップセットが存在しないSoCでありながらPCIeやUSBといったI/Oの扱いが重視されていない点である。
 チップセットは事実上PCIeハブやSATA/USB等のI/Oコントローラーを集積され、CPU側で持てないI/Oコントローラーの不足を補う役割がある。上述のEpyc Embeddedなどはチップセットを持たないSoCのため代わりにPCIe 64レーン・SATA・10GBASE-KR x2といった多様なI/Oを内蔵している。
 これに対しElbrus-8CBやSophon SG2042はチップセットの無いSoCでありながら僅かなPCIeしか持たない(Elbrus-8CBは20レーン・Sophon SG2042は32レーン)。記事のSophon SG2042の開発基板の場合、PCIe x16が3ポート見えるが電気的にはPCIe x8で、VIA Labs製USBコントローラーやJMicron製SATAコントローラーはASMedia ASM2824 PCIeスイッチでホストのPCIe 8レーンから32レーンを分配している。
 AWS GravitonもPCIe 32レーンしか持たないが恐らくクラウド専用のワークロードが前提なのでUSB機器等の各種I/Oを接続するとは考えられず不要と判断されたのだろう。Elbrus-8CBやSophon SG2042の想定されているワークロードがよく分からないため判断の難しいところである。

Comment

最近の興味深かった話題(2023年第25週)

2023-06-24 | 興味深かった話題

IBM/Red HatがRed Hat Enterprise Linuxのソースコードを保守契約者限定に変更

IBM Red Hat Puts RHEL Source Behind Paywall - ServeTheHome

 IBM傘下のRed Hatが、Red Hat Enterprise Linuxのソースコードの提供を保守契約者のみに変更したらしい。これまでは、SRPMファイルで提供されてきたため、ビルド環境さえあればRHEL互換Linuxを構築できたが、今後はそれができなくなる。恐らくCentOSがCentOS=RHELのダウンストリームという位置づけからCentOS Stream=RHELのアップストリームに変更されたのは、今回の動きの布石だったのだろう。
 また、AWSのAmazon Linux 2023の動きを見ると、今回の計画を既に知らされていたか想定されていたのだろう、Amazon LinuxはAmazon Linux 2=CentOS同様のRHELのダウンストリームから、Amazon Linux 2023でFedora=アップストリームからのフォークという開発形態に変更されている(非公式ながらこちらの記事が解り易い?)。

 ServeTheHomeの記事では、旧CentOSと同様の開発形態だったAlma LinuxとRocky Linuxへの影響に言及されているが、Oracle Linuxにも同様の影響が発生することだろう。

 ところで、興味深いのがGPL互換性だろう。
 実は筆者も誤解していたのだが、GPLの言うソースコードの提供はバイナリーに添付されるという条件のため、RHEL保守契約者にバイナリーとソースコードを提供するという新形態はGPL違反にならないようだ。

 ちなみに、蛇足ながら筆者個人に関して言うと、大昔からRHEL(ほか旧CentOSやRocky LinuxなどのRHEL互換Linux)が大嫌いで個人では使用しておらず、保守契約済の職場での付き合いのため影響がない。
 筆者はLinus Torvalds/Kernel.org公式のLinuxに好感を持っているため、Kernel.orgのカーネルに追従しているDebian GNU/Linux・Arch Linux・Amazon Linux・Intel Clear Linux・Microsoft CBL-Marinerなど(そのほかRaspberry Pi OS・OpenWrt・Armbianなども)には好感を持っているが、わざわざLTSでもないサポート切れのKernelに膨大なパッチを当てて10年間も保守して使っているRHELやUbuntuは理解に苦しむ。

Linux VersionRelease DateEOL DateLTSMajor Linux
4.182018-082018-11Not LTSRHEL 8
4.192018-102024-1219 th LTS ReleaseDebian 10 Buster
5.102020-122026-1221 st LTS releaseDebian 11 Bullseye
5.142021-082021-11Not LTSRHEL 9, SLES 15 SP4, SP5
5.152021-102023-1022 nd LTSOracle UEK7
5.172022-032022-06Not LTSUbuntu 22.04 LTS
6.12022-112026-1223 rd LTSDebian 12 Bookworm
Comment

最近の興味深かった話題(2023年第21週)

2023-05-28 | 興味深かった話題

ANL/Intel Auroraはどうなったのか?

TOP500、AMD CPU採用スパコンFrontierが性能引き上げ首位堅持。富岳は2位 - PC Watch
Aurora Rising: A Massive Machine For HPC And AI - The Next Platform

 2023年6月付のTop500リストが発表となったが、個人的に興味深かったのは、「未だにAuroraがランクインしていない」ことだった。

 Intelが米エネルギー省(Department of Energy = DOE)から受注したAuroraは、当初Xeon Phi "Knights Hill" MICを採用(2018年運用開始予定・0.1 EFLOPS)予定だったものがXeon "Sapphire Rapids" CPU + "Ponte Vecchio" Max GPU 構成(2021年運用開始予定・1~2 EFLOPS)に仕切り直しになるなど紆余曲折を経たほか、Intel 10nm/Intel 7製造プロセスの立ち上げの遅れの煽りを受けるなどしてさらに1年以上遅れていた。それでも2021年9月時点で大原氏も以下のように書かれていた

一応Ponte VecchioもSapphire RapidsもIntel 7ベースでの構築なので、これ以上遅れることがなければ今年中に量産が開始されるはずだが、それによる最初のシリコンの出荷は来年第1四半期以降となる。
現実問題としてシステムが納入を開始するのは2022年第2四半期以降で、そこから組み上げてテストを経て検収が完了するのは2022年末あたりだろう。つまり当初スケジュールから1年遅れると見込まれる

このため、筆者など「さすがに2023年6月のTop500には載るだろう」と踏んでいたのだが…今期も掲載されることはなかった。もっとも、The Next Platformの記事にある通り、Intelは全ブレードを納入完了したそうだから2023年11月のランキングには掲載されるはずだ。

 「2023年6月のTop500に載る」と思っていたのは、そもそもTop500上位に掲載されるようなフラッグシップHPCの場合、ランキング初登場時点では構築中・検収前ということが少なくないからだ。なにせノード数など規模が大きいし、スケジュールに間に合わせたパーツで構成されるので最適化も進んでいないなど、構築が大変だから仕方のないことだと思われる。
 Top500視点でいうと、最初にシステムの大部分を使って計測した数値で初登場し、その後のシステムの完成度が向上し・最適化が進み2〜3期(1~1.5年)ほどかけて数字がアップデートされていくことが多い。下のテーブルを参照頂ければ、最近Top500 1位を獲得した3システムも初登場後3期ほどはコア数や性能に揺れが見られることが解るだろう。

HPCListRankTotal CoresRmax (PFlop/s)Rpeak (PFlop/s)
DOE ORNL FrontierJune 202218,730,112
1,102.00
1,685.65
November 202218,730,112
1,102.00
1,685.65
June 202318,699,904
1,194.00
1,679.82
RIKEN FugakuJune 202017,299,072
415.53
513.85
November 202017,630,848
442.01
537.21
June 202117,630,848
442.01
537.21
DOE ORNL SummitJune 201812,282,544
122.30
187.66
November 201812,397,824
143.50
200.79
June 201912,414,592
148.60
200.79

だから、筆者がANL/Intel Auroraに期待した「2023年5月のTop500には載る」というのも、なにもフルスペックでの数値を期待していたわけでもない。
 言い方を変えると、もし仮に大原氏の言う2022年Q2~半年ほど遅れでの納入を開始したとしても、2023年Q1末までにAuroraの大部分が構築されているはずで、2023年5月のTop500には間に合う可能性が高い。それが、未完成システムすらTop500に掲載されていないということは、現時点でのAuroraの完成度が低いということなのだろう。
 ここで、例えば構築中のAuroraの計測結果がFrontier未満だったため、Intelに忖度して計測結果を提出しなかった、という可能性も考えられなくはないが、個人的にはそうではないと想像する。その理由は、2023年H2には2 EFLOPS予定のEl Capitanのインストールが開始予定で、2023年11月のランキングに掲載される可能性もあるからだ。
 El CapitanはTSMC N5E・N6で製造されるZen4とCDNA3を集積したAMD Instinct MI300をベースにCray Slingshotを組み合わせたシステムなので不確定要素が少なく、遅くとも2024年6月のランキングには間に合うだろうが、もし2023年11月のランキングに間に合うとするとEl Capitan 1位・Aurora 2位・Frontier 3位なんて状況も考えられる。

 ところで、いくらフラッグシップHPCとはいえ2年近くも遅延したシステムでは相対的な性能が低下しそうなところだが、The Next Platformの記事を読むと、どうやらIntelはAuroraのノード数を増やし2 EFLOPSを目指しているらしい。
 正直なところ、Auroraプログラムは実に歪だ。そもそものプログラム費用は約5億ドルだが、納入遅延による違約金を約3億ドルを支払ったようで(Intelの売上減というか赤字)、その一方で性能を2 EFLOPSまで引き上げるために当初の計画よりもノード数を増量している(Intelの製造コスト増)わけだ。
 The Next Platformの記事などは、米政府/米エネルギー省はたったの2億ドルで2 EFLOPSを入手できるという素晴らしい取引だとポジティブに受け止めている節があるが、米エネルギー省は2年近くのスケジュール遅延・Intelとしては大赤字の取引となっているわけで、2018~2023年のプログラム全体を通して見れば双方にとって悲惨な取引に思えるのだが…。

筑波大Tsubame 4.0

東工大、AI性能20倍の次世代スパコン「TSUBAME4.0」。24年春稼働 - PC Watch

 Tsubame更新自体は想定されていたことだろうと思うが、ラック数やノード数の少なさなどが気になるところである。筆者の感覚では、昨今のHPCシステムの場合、演算におけるGPUへの比重が高まった結果ノード数は減少傾向にあると認識している。Epycの場合だとPCIeが128~192レーンもあるわけで、Epyc 1ソケットでGPUを6~8基・InfiniBand/Ethernetアダプターを1~2基も接続できてしまうからだ。とはいえ、これほどラック数やノード数が減るというのは気になる(例えば、もし円/米ドルレートが$1=\100程度で構成部品の価格が33%安価だったとして、果たして同じ判断になったのだろうか?とか)。

 以下は歴代のTsubameの構成(コア数・ノード数)と性能(ピークFLOPSのみ)と登場年そして前世代のピークFLOPSの何倍かを並べたものだ(Tsubame 2.5など中間世代は省略)。こうして並べてみるとTsubame 2.0が異常だった(40倍超)だけでTsubame 2.0→Tsubame 3.0もTsubame 3.0→Tsubame 4.0も7年後に約5倍の性能向上ということで一致している。ちなみにTsubame 1.0→Tsubame 2.0は、HPCがちょうどCPUでの演算からGPUでの演算に切り替わる時期に一致し、Tsubame 1.0は時代のトレンドを先取りしてClearSpeed CSX600を採用したはいいがNVIDIA GPUほど効率が上がらず、Tsubame 1.2からNVIDIA GPUへ転換されていくことになる。この辺りのくだりは(大原氏の記事に詳しい)。
 また、66.80 TFLOPSという性能についても、2023年6月のTop500でいえば8位(DOE/NERSC/Cray Perlmutter)と9位(NVIDIA Selene)の間となり、歴代Tsubameと比較しても特別に劣るわけでもないことが解る。

SystemYearHighest
ranking
ManufacturerCPUAcceleratorRpeak
(TFlops)
Improvements
Total CoresTotal Nodes
Tsubame 1.02006H27NEC, Sun MicrosystemsAMD OpteronClearSpeed CSX60056.43
-11,664
655
Tsubame 2.02010H24HPEIntel Xeon X5670NVIDIA Tesla M20502,287.63x 40.5673,2781422
Tsubame 3.02017H213SGI (HPE)Intel Xeon E5-2680v4NVIDIA Tesla P10012,150.00x 5.31135,828540
Tsubame 4.02023H2/
2024H1

HPEAMD Epyc 7004NVIDIA H10066,800.00x 5.5046,080240

 ちなみに、計算ノードに採用されるのはHPE Cray XD6500とあるが、これは旧Crayの製品ではなくてCray買収前からHPEにあったApollo 6500系列の製品(高密度ブレードサーバー)である。インターコネクトにはHPE CrayのSlingshotではなく旧Mellanox(現NVIDIA)Quantum-2 InfiniBandを使うということだが、わざわざMellanox InfiniBandを選ぶということはGPUDirectを使うことを想定しているのかもしれない。

Comment

最近の興味深かった話題(2023年第19週)

2023-05-14 | 興味深かった話題

ASUS ROG Ally

ASUS Republic of Gamers Unveils the ROG Ally - ASUS Pressroom
「ROG Ally」正式発表。Ryzen Z1搭載で599ドルより - PCWatch

 ASUSがROG Allyを発表した。
 ここ数年、GPDやAyaneoなど中国系PCメーカーを中心に携帯ゲーム機型PCが普及し始めており、2021年からは米Valveも同種の製品=SteamDeckを出しているが、それに追随する形となる。

 個人的に驚いたのは価格だ。
 端末としてはROG AllyはSteamDeckとよく似ているが、SteamDeckの場合はラップトップPC用APUを半分にカットダウンしたようなカスタムAPU "Van Gogh" を採用したのに対し、ASUS ROG Allyは普通のラップトップPC用APU "Phoenix Point"を動作周波数と消費電力のみカスタマイズしたもので、例えばRyzen Z1 Extreme(TDP 9-30W)はRyzen 7 7840U(TDP 28W・cTDP 15-30W)のTDPのみカスタマイズしたものだ。もしSteamDeckのカスタムAPUのコストがUS$ 150程度と仮定するならSteamDeck全体でUS$ 399~649と安価でも驚くことではないが、Ryzen 7 7840Uの単価は公表されていないが$300前後はするはずで、GPDがRyzen 7 7840U・RAM 32GBのGPD WIN Max 2023をUS$ 1049に設定していることを考慮してもROG Ally ExtremeのUS$ 699という価格はバーゲンプライスと言っていい。

 以下の表は類似スペックのゲーム機型PCに加え、筆者の所有しているGPD WIN Max 2020(※Core/RyzenクラスのCPUを搭載した最初期の携帯ゲーム機型PC)のスペックを並べて比較したものだ。


GPD WIN Max2 (2023)ASUS ROG AllyValve SteamDeckGPD WIN Max (2020)
Year202320232023202320222020
SoCAMD Ryzen 7 7840UAMD Ryzen 5 7640UAMD Ryzen Z1 ExtremeAMD Ryzen Z1AMD Ryzen CustomIntel Core-i5 1035G7
CPUModelZen4Zen4Zen4Zen4Zen2Sunny Cove
Core count868644
Frequency (Base)3.30 GHz3.50 GHz

2.40 GHz1.20 GHz
Frequency (Turbo)5.10 GHz4.90 GHz5.10 GHz4.90 GHz3.50 GHz3.70 GHz
GPUModelRDNA3RDNA3RDNA3RDNA3RDNA2HD Graphics Gen 10
Core count128124264
MADs768512768256128512
Frequency (Base)1.5 GHz1.5 GHz

1.0 GHz300 MHz
Frequency (Turbo)2.9 GHz2.8 GHz2.7 GHz2.5 GHz1.6 GHz1.05 GHz
FLOPS8.9 TFLOPS5.7 TFLOPS8.6 TFLOPS2.8 TFLOPS1.6 TFLOPS1.075 TFLOPS
RAMStandardLPDDR5X-7500LPDDR5X-7500LPDDR5-6400LPDDR5-6400LPDDR5LPDDR4-3200
Frequency750075006400640055003200
Bandwidth120.0 GB/sec120.0 GB/sec102.4 GB/sec102.4 GB/sec88.0 GB/sec51.2 GB/sec
Capacity64 GB16 GB16 GB16 GB16 GB16 GB
MSRPUS$ 1199US$ 799US$ 699US$ 599US$ 399 (64 GB)
US$ 529 (256 GB)
US$ 649 (512 GB)
US$ 779

 左にいくほど登場時期が新しく・価格も高価になるので、左側の製品が右側の製品より高速になり・右側の製品が左側の製品に見劣りするのは当然だが、とはいえ、2020年のGPD WIN Maxから3年間・2021年のSteamDeckから2年間でCPUはコア数2倍で動作周波数も40%向上・GPUは演算性能が4倍に向上という躍進ぶりには目を見張るものがある。しかもRyzen 7版WIN Max 2023はともかくROG AllyもRyzen 5版WIN Max 2023もUS$ 600~800と、ほぼ同価格帯を維持している(SteamDeckの最低価格版はUS$ 399と安価だが、512 GB SSD版だとUS$ 649で、ROG Allyと価格差は無い)。
 ちなみに、恐らくだがASUS ROG Allyのスペックは完全には固まっていないと思われる。上記では公式からのスペックを写したが、GPUの動作周波数と演算性能が一致しておらず、ROG Ally Extreme/ROG AllyのGPUの演算性能がそれぞれ8.6 TFLOPS・2.8 TFLOPSになるためには動作周波数はそれぞれ2.8 GHz・2.7 GHzのはずで、発売までに数字が修正される可能性がある。

 個人的に気になったのはUSB4ポートで、なぜかROG AllyのスペックシートにはUSB4に関する記載が無い。
 AMD "Phoenix Point" APUはUSB4を統合しているはず(ただし現在のドライバーでは動かないというウワサもある)だが、実はROG Allyの公式スペックによるとUSBポートはUSB 3.2 Gen 2規格のType-Cポートが1ポートということになっており、これが正しいとするとROG AllyではThuderbolt 3/4機器をフルスペックで使えないことになる。
 可能性として考えられるのは、ASUSプロプライエタリーのROG XGポートを搭載した結果、高速シリアルレーンを使い切ってしまったパターンで、AMD Ryzen 7040 APUは計20レーンのPCIeレーンをもつが、ROG XGポート(8レーン)・NVMe SSD(4レーン)などで使用した結果、USB4で使えるPCIeレーンが無くなったのかもしれない。

IntelとSamsungの3nmノード

3nm世代の幕開け(のちょっと前) - PC Watch

 大原氏がTSMC・Samsung・Intelファウンダリー各社の「3nm」ノードの近況を記事にされている。

 やはり手堅く感じられるのはTSMCで、記事によるとN3は仕切り直しになった(N3A→N3B)そうだが、ちゃんとApple製品の製造に漕ぎ着けるあたりはさすがとしか言いようがない。
 そもそもの話だが、先端工場を持つファウンダリー3社で自社で半導体製品を持っていないのはTSMCだけなわけで、先端プロセスがコケるとビジネスへの打撃が大きいということもあるのだろう。Samsung・Intelに関する説明を読むと、そう感じざるを得ない。

 ある意味で興味深いのはSamsungである。
 記事になっているのはGAA(Gate-All-Around)を採用したSF3E(旧称 3GAE)プロセスで「(2022年6月)当初の歩留まりは10%台で、これが年末に40%近くまで向上した」とあるが、筆者は寡聞にして採用製品を知らない。もっとも、テストチップの歩留まりが40%ではビジネスになるか怪しいが…。
 Samsungの場合、先端プロセスの最初の製品はSamsung製Galaxy Sシリーズに搭載されるExynosが知られ、過去のハイエンドExynosシリーズを見てもExynos 980 (8LPP)→Exynos 990 (7LPP)→Exynos 2100 (5LPE)→Exynos 2200 (4LPE)とSamsungファウンダリーの最先端プロセスが採用されてきており、そのGalaxy Sシリーズは例年Samsung Exynos搭載版とQualcomm Snapdragon搭載版の2種類がリリースされるが、最新Galaxy S23にはSnapdragon 8 Gen 2版しか存在せずExynos 2300(仮称)は影も形もない。昨年SamsungがExynos開発を中止するのではというウワサが流れたが、そもそもExynos 2300(仮称)を開発しても製造するプロセスが無かったというのが真相ではないかと思う(実際、ハイエンド以外で5LPEを採用したExynosは今年に入ってからもリリースされ続けている)。SF3Eに続くSF3・SF3Pがある程度の歩留まりを達成した時点でハイエンドExynosが復活するのか注目したい。

 もっとも、個人的にSamsungファウンダリーで気になるのは「Samsung以外」である。なにせ、SamsungはExynosおよびファウンダリービジネスと並行する形で他社のSoCの設計支援と受託製造を行っている。
 有名どころではApple A4あたりまでのAppleがそうだが、近年の有名なのはTesla FSDプロセッサーを開発したTeslaと、Pixelスマートフォン向けにTensorプロセッサーを開発しているGoogleだろう。いずれもSamsungがExynosなどで採用しているArm CPU・GPUと委託元(Tesla・Google)の独自IPを混載したSoCとなっており、Google TensorなどはExynos 2000シリーズと瓜二つである(もっとも、デファクトスタンダード=Arm製IPを使う時点で似通ってしまうのであるが…)。もし仮に最先端プロセス開発からSamsungが脱落した場合の影響が気になるところである。


Samsung
Exynos 2100
Google
Tensor G1
Samsung
Exynos 2200
Google
Tensor G2
Part NumberS5E9840S5P9845S5E9925S5P9855
Announced2021Q12021Q42022Q12022Q3
CPU (Super)Cortex-X1Cortex-X1Cortex-X2Cortex-X1
CPU (Big)Cortex-A78Cortex-A76Cortex-A710Cortex-A78
CPU (Little)Cortex-A55Cortex-A55Cortex-A510Cortex-A55
GPUMali G78 MP14Mali G78 MP20AMD RDNA2Mali-G710 MP7
ModemExynos 5123Exynos 5123Exynos 5123Exynos 5300
Process Node5LPE5LPE4LPE5LPE

 Intelについては、以前のプロセスロードマップ発表時に記事にしている(参考:過去記事①過去記事②)。Intel 4が少なくとも半年遅れというのは「いつも通り」なのだが、本当に半年で済んでいるのか怪しいところである。
 まず、2021年7月のロードマップによればIntel 4が2022年後半・Intel 3が2023年後半の予定で、大原氏の記事にある通りIntel 4採用のMeteor Lakeの量産ウェハーが2023Q1に始まったとされるが、Intel 4改良版のIntel 3が2023年後半に量産開始になるとはとても思えず、良くて2024年前半ではないかと思う。さらに言えば、従来通りの技術=FinFETを使用したIntel 4でそれなのだからGAAを採用したIntel 20A・18Aが2024年前半・2024年後半というのは非現実的に思えてならない。

Comment

最近の興味深かった話題(2023年第13週)

2023-04-01 | 興味深かった話題

パナソニックが次世代Eneloopを発表

なぜパナソニックの充電池が「エネループ」ブランドに統一されたのか? - PC Watch

 PanasonicがEneloopブランド製品(第5世代Eneloop・第3世代Eneloop Lite)を発表し、重複していた充電式Evoltaとブランドの統一を発表したそうだ。
 大河原氏の記事は基本的に、事実と時系列の前後関係を述べたものなのでライターに非はないのだが、思うに、記事を読んだ多くの一般的な読者にとっては実に馬鹿馬鹿しい内容ではないかと思う。

 筆者個人としては「なぜ日本人は暖簾の商売を止められないのか?」「買収後10年経ってようやくか」という呆れに近い感情を覚える。消費者/顧客視点を置き去りにした企業側の自己満足的な行動に思えるからだ。
 そもそも、三洋電機がEneloopを発売したのは2005年だがWikipediaでは同社の経営再建の項は2004年から始まっている。思うに、Eneloopを発売した時点では三洋電機は負け組でポジティブなブランドイメージは薄かったに違いなく、「Eneloop」ブランドの人気は三洋電機ブランドに依らない独立性の高い人気だろう。「Eneloop」ブランドの独立性の高さを考慮すればEneloopのラベルをPanasonicに書き換えたとして「買収した側が買収された側のブランドのコントロールを奪った」という企業側の自己満足以上のメリットの無い行為に思える。それは露出度低下による「Eneloopブランドの棄損」であり、一部消費者の意識を逆撫でする「Panasonicブランドの棄損」であろう。
 だから、最初から「Panasonic Evolta」と「Eneloop」で併売すればよく、もし将来的にシナジー効果を求めるにも中身の設計や製造を共通化してラベルだけ別にすれば良かったのだ。それを一方のブランドを台無しにした上でブランドの棲み分けに失敗し、10年経って「統一しました」などと言われても経営陣の「ブランド」に対する認識の非常識さがアピールされるだけである(記事中にあるこのスライドなど失笑ものである)。

 実際に同一製品を2ブランドで併売している代表例がWestern DigitalとSanDiskだろう。前者はPCユーザーに馴染み深く・後者はデジタルカメラユーザーに馴染み深い、つまり客層が異なることから中身が同じ製品を異なるブランドで併売している。ちなみに、買収したブランドを残すやり方は世界的に見てもごく一般的である。スイス時計のSwatchなど10を超える時計ブランドを買収後も維持している(こちらの場合はさすがに製品自体も別物だが)。これもカジュアル・低価格なSwatchとラグジュアリーブランドのOmegaやBreguet等とでは客層もブランドイメージも異なるのだから当然だろう。
 経営や営業の観点からみて、PanasonicとWestern Digital・Swatchとどちらの方が客を見ているだろうか?

 個人的にはPCWatchのコラムは読者が気になっている全内容を網羅していないと思う。製造面への言及が欠落しているからだ。
 そもそも、三洋電機時代のEneloopは旧 三洋エナジートワイセル、Panasonicによる三洋電機買収後はFDKトワイセルが製造してきた日本製である(恐らくFDKの高崎工場製)。これに対し充電式Evoltaは2008年の初登場時から中国製だった( 恐らく中国 江蘇無錫新区のパナソニック エナジー無錫製)。もっとも、FDKトワイセルは中国(恐らく厦门FDK)などにも工場があり、海外展開を強化していた2015年には中国製Eneloopが存在していたようだが。

  個人的に気になるのは、第5世代EneloopはFDK製か?Panasonic製か?という点ではないかと思う。Eneloopブランドに統一したからといって旧Eneloopを踏襲した設計・製造とは限らず、蓋を開けてみれば中身は旧充電式Evolta後継だった、なんて可能性もゼロではない(個人的にはFDK製だと思うが…)。

Comment

最近の興味深かった話題(2023年第12週)

2023-03-25 | 興味深かった話題

NECはベクトルHPCを止めるのか?

Is This The End Of The Line For NEC Vector Supercomputers? (TheNextPlatform)

 TheNextPlatformが理研/東京工業大学の松岡聡教授のTwitter投稿を引用して「NECベクトルスーパーコンピューターラインの終焉か?」と報じている。筆者の知る限りでは公式発表はされていないものの、信頼性の高い情報筋からの情報でR&Dの中止ということでSX製品ファミリーの終息と見ていいだろう。

 そもそもHPCマーケットは大きくない上に国策が絡むため輸出するにも自由市場とはいかないし、NVIDIA・AMDのように本業の延長線でHPC製品を作っている企業と比べるとNECが劣勢となるのは仕方ないとは思うが残念である。もっとも、NECの決算資料や直近の経営計画などを見てもコンサルティング・SaaS・5G基地局・DXといった内容が中心だから既に利益には貢献しておらず、選択と集中という視点では正しいのかもしれない。

Comment

最近の興味深かった話題(2022年第21週)

2022-05-31 | 興味深かった話題

BroadcomがVMwareを買収

Broadcom、VMwareを610億ドル(約7.8兆円)で買収 - ITMedia
BroadcomがVMwareを買収した理由 実は双方にメリットあり - ITMedia

 これらの記事では同じくBroadcomに買収されたソフトウェア企業としてCA TechnologiesとSymantecが挙げられているが、個人的にはVMwareの方がBroadcomの本業=半導体とのシナジーが期待できそうで、むしろVMwareが旧CA Technologies・旧SymantecとBroadcomの本業とを繋ぐ役割を担いそうに思える。

 まず記事の説明を訂正すると、2019年にBroadcomはSymantecを買収したが、買収した内容はSymantecブランドと企業向けビジネスで、消費者向けのセキュリティーソフトウェア製品はNortonLifeLockブランドで継続している。そして企業向けビジネスには企業向けソフトウェア製品と企業向けサービスとが含まれるが、Accentureに売却したのは企業向けサービスで、企業向けセキュリティーソフトウェア製品は引き続きBroadcomに残っている。
 企業向けサービスとは何かというと、サイバーセキュリティー分野では特に大企業ではMSSP(Managed Security Service Provider)などのサービス名でログの監視・解析といったセキュリティー業務をアウトソーシングするケースが多く、旧Symantecが提供していたMSSPビジネス(約300名)をAccenture(アウトソーシングの世界最大手)が買収したという意味で、ここにソフトウェア製品は含まれない。

 その結果、2018年に買収した企業向けセキュリティーソフトウェア企業=旧CA Technologiesと併せてBroadcomは企業向けセキュリティーソフトウェアポートフォリオを手に入れたという認識が正しそうだ。

 この2件の買収案件の辻褄は合っているのだが、疑問はBroadcomの本業=半導体とのシナジーではないだろうか。上記のITMedia記事2件目の大原氏の記事でも、売上や収益に関する内容ばかりでシナジーについては一切触れられていない。
 Broadcom製品にはセキュリティー機能のある半導体(例えば暗号エンジンを搭載したネットワークアダプター)は存在するが、旧CA Technology製品や旧Symantec製品は直接結びつかない。例えばCA Technologiesは様々なユースケースでの認証技術(例:WebサイトのSingle-Sign-on製品SiteMinderなど)を手掛けるが、Webアプリケーション=アプリケーション層でやり取りされる認証にBroadcomの半導体がどう関わるのか?といえば関係は薄い。

 ここで、旧CA Technologies・旧Symantec製品とVMware製品・Broadcom半導体製品とVMware製品というシナジーを考えると見方は変わってくる。
 昨今の仮想化はハードウェアアクセラレーションが基本であるが、半導体側で搭載されたアクセラレーターを仮想マシンからシームレスにアクセスさせるには仮想化ソフトウェア側の対応が欠かせない。例えばBroadcom製NICに搭載されたSR-IOV機能に仮想マシンからアクセスするにはハイパーバイザーでのサポートが要るわけで、VMwareはそれを提供している(SR-IOVについては既に対応済だが、今後も同様の事象は発生する)。

 仮想マシンや付随するデバイスなどでは認証・暗号化などのセキュリティー技術が必要になり、ここで旧CA Technologies・旧Symantec製品を活用できる。
 例えばAWSやAzureなどのクラウドを使用していると認証鍵をプラットフォームのKey Vaultなどを使って利用するが、Key Vaultは専用ハードウェアとソフトウェアの組み合わせで構成されており、シームレスに認証・鍵の管理を行うにはプラットフォーム(クラウドの場合はAWSやAzureだが、本件の場合はVMware製品群)の対応が欠かせない。
 例えばAWSのCloudHSMは(Broadcomの競合で、Marvellが買収した)旧Cavium製Liquid Securityであるし、AWS EC2のNitroはKVMベースのハイパーバイザーとAnnapurnaLabs製セキュリティーチップで構成されているが、同様の仕組みはVMware製品とBroadcom製品とで実現可能だろう。仮想マシン技術とセキュリティーチップ(半導体)との間で認証したりセキュアな通信で鍵を取り出したり格納したりするのはソフトウェアだから、ここで旧CA Technologies・旧Symantecの技術を利用できる可能性がある。

 もちろん、ここで述べているのは机上の空論(理論上はこんなことができる)レベルの話で、実現するかどうかは今後のBroadcom・VMware次第ではあるが、VMwareの買収は、なかかな面白いと思う。

Comment

最近の興味深かった話題(2022年第19週)

2022-05-15 | 興味深かった話題

MIPSがRISC-V対応コアを発表

MIPS Pivots to RISC-V with Performance and Scalability - HPCwire

 MIPSがRISC-V ISA対応CPU IP「eVocore」ファミリーを発表したそうだ。
 MIPSは2020年にRISC-V ISAへの対応を表明していたが、その最初の製品が登場したことになるが、P8700・I8500という型番の示す通り、どうやら従来のMIPS製品(Warriorファミリー・Aptivファミリー)の延長線上という位置付けのようで、公開されたスペックもWarrior P6600・Warrior I6500/I6400とよく似ている。
 一般に、最新の複雑なCPUアーキテクチャーの新規設計には約4年間を要するとも言われるが、2020年に計画の発表・2022年に対応製品の発表というスケジュールは既存コアを流用したと考えれば納得しやすい。

 そもそも、UNIXワークステーション向けのCPU設計を手掛けていた頃のMIPSはMIPS I~MIPS Vといった命令セットを手掛けてきたが、1999年に命令セット体系を刷新しMIPS32・MIPS64に整理され、以降はMIPS32 Release 1~6 / MIPS64 Release 1~6という名称で更新されてきた。例えばWarrior P6600/I6500/I6400/M6200のという型番の場合、P/I/MはArmでいうA/R/Mに相当する種類/クラスを示し、最初の数字はMIPS32/64 Release 6 ISA対応を示している。
 上でも参照したマイナビの記事にも「RISC-V is based on MIPS-4 ISA」というMIPSの主張があるが、MIPS的にはRISC-Vは8番目のISAという位置付けなのだろう(MIPS32/64 Release 7に相当する7xxxファミリーは、かなり特殊な用途向けのため割愛)。

 以下は公開されているスペックを基に表にしたものである(右端は参考までにUC BerkleyのBOOMv3を載せている)。スペックもブロックダイアグラムも詳細が公開されているわけでは無いため一部が抜けているが、RISC-V対応のeVocoreとMIPS64 Release 6対応のWarriorはよく似ていることが解る。


eVocore
P8700
Warrior
P6600
eVocore
I8500
Warrior
I6500
Warrior
I6400
(Reference)
BOOMv3
ISARV64GHCMIPS64 r6RV64GHCMIPS64 r6MIPS64 r6RV64GC
L1$I32-64 KB32-64 KB32-64 KB32-64 KB32-64 KB32 KB
ExecutionOut-of-OrderOut-of-OrderIn-orderIn-orderIn-orderOut-of-Order
SMT SupportN/AN/ASMTSMT1-4SMT1-4N/A
Pipeline stages1616999> 13
Fetch width84???8
Issue width833?24
Exec ports87?767?8
ALU221224
Branch?2??2
MDU111111
FPU222222
SIMD width?128-bit??128-bit
Load/Store212112
L1$D32-64 KB32-64 KB32-64 KB32-64 KB32-64 KB32 KB
InterfaceAXI / ACEOCP 3.0AXI / ACEMCPMCP

 顕著な差異としては eVocoreでは (1) フロントエンド(フェッチ/イシュー/ディスパッチ)が強化されている (2) Load/Storeが強化されている (3) CPUのインターフェースがOCP/MCPから業界でデファクトスタンダードなArm AXI/AHB/ACEに変更された点だろう。(05/21修正)どうやらP6600/I6500などもAXIは利用可能でAXIかOCIから選択可能だったようである。

 最近は人気の無いMIPSであるが、ではMIPSのRISC-V対応が起死回生となるか?というのは今後興味深いところである。
 上の表にもRISC-V本家のUC Berkley BOOMv3のスペックを掲載したが、BOOMv3やSiFive P650などはMIPS製品と同水準の高性能コアも用意しておりMIPSが特別に高性能というようには見えない(組込では必ずしも性能が重要というわけでは無いが)。
(05/21加筆)一見するとフロントエンドだけを見れば高速そうに見えるが、バックエンドが釣り合っていないため、どの程度の速度が出るのか非常に怪しい。例えばApple A14に搭載の"Firestorm"は8-wide issueであるが16程度(Simple ALU x 4・Complex ALU x 2・iDiv x 1・Load x 2・Load/Store x 1・Store x 1・FPU/SIMD x 4・Branch x 2)と推定される強力な実行エンジンがあるからバランスが取れている。P8500/I8500はバックエンドがそれぞれP6600/I6500を若干改良した程度だから、P6600/I6500より若干高速という程度だろう。
 組込IPではツール類・ドキュメント・サポートの充実が重要となるため、RISC-Vでは新参となるMIPSがそれらを充実させられるかどうかが鍵になりそうに思う。

(05/21加筆)
 ちなみに最初の顧客であるが、予想ではIntel傘下のMobilEyeが次々世代製品EyeQ Ultraで採用される可能性が高いと見られる。EyeQ Ultraに搭載予定のCPUコアの製品名は明らかにされていないがRISC-V CPUコアを搭載予定で、現行EyeQ 6はMIPS Warriorコアを採用しているためである。

 ここからは筆者の根拠の無い想像になるが、筆者はIntelは独自RISC-Vコアを開発し、将来のEyeQでもIntel製RISC-Vコアに置き換えると予想しており、その場合はMIPSの採用は中止されるかもしれない。
 筆者がIntelがRISC-Vコアを開発すると予想する理由は (1) 傘下のHabanaLabs・MobilEye・Movidiusの製品や旧AlteraのFPGA製品に組み合わせるにはx86プロセッサーは効率が悪い場合がある (2) 現在のIntelはArmの大口顧客の1社でRISC-Vで置き換えることでライセンスコストを抑えられる (3) IntelはIDM 2.0戦略にあたりSiFiveとの提携などを通じてRISC-Vに取り組んでいる(4) 昨年12月にVIA TechnologyからCentaur Technologyの人材を取得しておりCPU開発チームを1チーム余分に抱えているためである。

Comment

最近の興味深かった話題(2022年第14週)

2022-03-27 | 興味深かった話題

NVIDIA "Hopper" HA100

“ペタ”FLOPSの性能を実現したモンスターGPU「NVIDIA H100」- PC Watch
AI性能を引き上げるために、あらゆる機能が強化されたNVIDIAの「H100」 - PC Watch

NVIDIAが同社の主催するGTC 2022にて新しいフラッグシップGPU「HA100」を発表したため、これを取り上げたい。

 以下はNVIDIA Volta V100・Ampere A100・Hopper H100と参考までにAMD CDNA2.0 MI250Xのスペックを並べたものである(演算ユニットの構成が異なるためAMDのスペックは空欄となっている)。


NVIDIA GV100NVIDIA GA100NVIDIA GH100AMD MI250X
Microarchitecture codenameVoltaAmpereHopperCDNA 2.0
Boost frequency (MHz)1530141016501700
InterfaceSXM2SXM4SXM5
Launch date2017-102020-052022-032021-11
LithographyTSMC 12FFNTSMC N7TSMC 4NTSMC N6
Die size (mm2)815826814
Transistor count (billion)21548029.1 x 2
# of SM or CU80108132110 x 2
Total FP64 CUDA cores256034568448
Total FP32 CUDA cores5120691216896
Peak FP64 SIMD7.839.753047.90
Peak FP32 SIMD15.6719.496047.90
Tensor Cores per SM421N/A
Tensor Cores640432528N/A
Peak FP64 Tensor15.6719.496095.70
Peak FP32 Tensor (raw)31.33155.9350095.70
Peak FP32 Tensor (sparsity)62.67311.871000N/A
Peak bFP16 Tensor (raw)N/A311.871000383.00
Peak bFP16 Tensor (sparsity)N/A623.742000N/A
Peak FP16 Tensor (raw)62.67311.871000383.00
Peak FP16 Tensor (sparsity)N/A623.742000N/A
Peak INT8 Tensor (raw)125.34623.742000383.00
Peak INT8 Tensor (sparsity)N/A1247.484000N/A
Peak INT4 Tensor (raw)N/A1247.48N/AN/A
Peak INT4 Tensor (sparsity)N/A2494.96N/AN/A
Memory TypeHBM2HBM2EHBM3HBM2E
Memory Interface4096-bit5120-bit5120-bit4096-bit x 2
Memory Bandwidth (GB/s)900160019203276
Vendor specific
Interconnect (GB/s)
NVLink
300
NVLink
600
NVLink
900
Infinity Fabric
800
PCIePCIe Gen 3PCIe Gen 4PCIe Gen 5PCIe Gen 4
Max TDP (watts)300400700560

※03/28訂正 - 初出時VoltaのbFP16のFLOPS性能が誤記されていました。bFP16対応はAmpereでの追加です。

 まずGH100を見てみる。表では省略しているがTensor演算でFP8対応が追加された一方でINT4対応が廃止されている。また、GA100で追加されたTF32にも対応している(NVIDIA独自のデータフォーマット。演算スループットはFP32と同じ)。
 性能はGA100比で約3倍になっているが、これはStreaming Multiprocessor(SM)の構成変更によるものである。SM自体の数は22%・動作周波数は18%しか増加していないのに約3倍の性能となるのは、SMに搭載されているシェーダー/CUDAコアの数が2倍になったためである。
 ちなみに、GH100の動作周波数「1650 MHz」はWikipediaからのものでNVIDIAの発表では実製品での設定は現時点で未定となっている。実は筆者もFLOPS値から動作周波数の算出を試みたのだが1650 MHzにはならなかった。製品登場時には変更となる可能性がある。

 AMDとの比較であるが、AMD MI250XはTSMC N6ということでGA100のTSMC N7と近い製造技術(ハーフノード世代)で、GH100のTSMC 4N(恐らくTSMC N4のNVIDIA向けカスタムノード)とは1フルノード世代分の違いがある。そのため実装されているトランジスター数から言えばMI250X(2ダイで計58.2 billionトランジスター)はGH100(80 billionトランジスター)よりもむしろGA100(54 billionトランジスター)に近い。
 FP32/FP64の特にSIMD演算では2ダイ構成ということもありAMD MI250Xに軍配が上がるものの、Tensor CoreをもつNVIDIAのTensor演算性能が目を惹く。AMD CDNAのMatrix Engineはラフに言えばSIMD演算ユニットとレジスターを2倍に拡張したものでSIMD演算性能の2倍にしかならないが、NVIDIAはTensor演算用に演算ユニットを新設した上にSparcityなども実装しているからTensor演算性能は圧倒的である。
 もっとも、そもそもMI250Xの開発目的=米エネルギー省Frontier HPCということでFP64性能が要件だったからMI250XがFP32/FP64 SIMD性能特化・Tensor演算性能は限定的となるのは仕方のないところではある。


(つづく)

Comment

最近の気になった話題(2022年第08週)

2022-02-26 | 興味深かった話題

MikroTik製機器とAnnapurna Labs製SoC

 MikroTikは欧州はラトヴィアにあるネットワーク機器メーカーで、DIY性の高く高性能なネットワーク機器が特徴的である。そんなMikroTikが幾つかの新製品を発表したのだが、なかなか興味深いので御紹介したい。

 今回発表された製品で共通するのはAnnapurna Labs製SoCを搭載している点だろう。
 Annapurna Labsはイスラエルに拠点を置くAWSに買収されたArm SoCベンダーで、AWSによる買収以前はNAS等のネットワーク機器用の組込SoCとして幅広く採用されていた。Netgear ReadyNAS・Asustor・QNAPなどのNASのローエンド~ミッドレンジでは過去にAnnapurna Labs製Alpine SoC搭載機器がいくつか存在していた。
 しかし、AWSによるAnnapurna Labs買収以降はAWS向けSoCに注力しているせいなのか、製品の投入ペースは落ちているように見え、AWS以外で同社製SoCの採用が減っているように見えるのだが、MikroTikは数少ない現存のAnnapurna Labs製SoCユーザーである。

CCR2004-1G-2XS-PCIe

MikroTik CCR2004-1G-2XS-PCIe is a 2x SFP28 25GbE Router on a PCIe Card - ServeTheHome

 CCR2004-1G-2XSは、一見するとSmartNICなのだが、実態はSmartNICではなく25GbE搭載のPC内蔵型のルーターである。

 昨今では仮想マシン(Linux KVM・Microsoft Hyper-Vなど)やコンテナー(Docker・Kubernetesなど)の利用により1台の物理ホストで複数のNIC/vNICを使うケースが増えている。この場合、一般消費者であればソフトウェア実装のL2ブリッジ(例:Linux Bridgeなど)やL3スイッチ(例:Open vSwitchなど)などでトラフィックを制御する方法が一般的であるが、ソフトウェア実装では負荷の高さや通信速度・通信遅延も気になるところである。そこでデータセンターではIntel X/Eシリーズ・NVIDIA/Mellanox ConnectXシリーズのNICを用いることで物理2ポートのNICに多数のVIFを搭載してNIC内部のvSwitch/vRouterでスイッチすることが一般的となっており、AWS・Azure・Google Cloudなどもそうしている(AWSは自社=Annapurna Labs製Elastic Network AdapterやElastic Fabric Adapterを採用している)。

 MikroTik CCR2004-1G-2XSは少し違う。そもそも搭載されているのがNIC用のASICではなくAnnapurna Labs製のネットワーク機器用SoC AL32400であるが、これは本来NASなどに搭載されているSoCで、例えばバッファローは法人向けNASでI/Oがやや異なる以外は同等のAL314を採用している(恐らくAL324の誤り。2桁目は世代番号でArm64対応Alpine v2 platform)。
 MikroTikはAL32400にMarvell製スイッチチップと同社製RouterOSを組み合わせてラックマウントタイプやデスクトップタイプのルーター/スイッチを幾つか製品化しており、CCR2004-1G-2XSもAL32400にRouterOSという組み合わせになっている。つまり言ってみればラックマウント型のCCR2004ルーターをPCIeに搭載するというのが本製品のコンセプトのように見える。ちなみに、MikroTik CCRの型番はCloud Core Routerという同社製ルーター製品ファミリーに付与される型番である。

 結果としてCCR2004-1G-2XSと競合製品とでは外観はともかく内部的にはかなり違うものになっている。
 競合製品の例としてConnectX搭載NICの場合、外部インターフェースは25GbE SFP28 x 2ポートながら上述のようにSR-IOVによりOS内部から見るとvNIC(VIF)1024基分で、NIC内蔵のvSwitch/vRouterでL2/L3スイッチングをオフロードできる。
 これに対しCCR2004-1G-2XSは外観こそ似通っているものの、OSから見たvNICは4基(25 GbE x 2 + 1GbE x 2)のみで、AL32400上のRouterOSで(L3)ルーティングする。1GbE x 2のみL2スイッチング可能なようである。

 恐らく全体のパフォーマンスだけで言えばConnectX搭載NICの方が高そうに思えるが、2ポート限定であればCCR2004はかなり高速だろうし、AL32400とRouterOS=Linuxを組み合わせているため将来的な拡張も理屈上は可能そうである(そういう計画があるかどうかは不明)。

 個人的に気になるのはRoCEやRDMAサポート(=NVMe-oFサポート)の有無である。AL324/AL32400はNAS用SoCでもあるしハードウェア的には対応していそうなのだが製品ページには特に記載は無い。
 もし仮にCCR2004-1G-2XSがNVMe-oFをサポートする(=SmartNICである)としたら、その立ち位置は面白いと思う。何せConnextXなどの普通のNICはNVMe-oF自体は対応するもののSoCではないためIOPをオフロードできないが、CCR2004-1G-2XSはArm Cortex-A57 4-core + 4 GB RAM + 25GbE x 2なので(NVMe-oFをサポートしていれば)IOPをオフロード可能なはずだからである。既存のSmartNICはMarvell LiquidIO・Broadcom Stingray・NVIDIA/Mellanox BlueFieldなどがあるが、これらの製品は概ねArm Cortex-A72 8-core + 16 GB RAM + 100GbE x 2といったスペックで$1000超なので、CCR2004-1G-2XSはおよそ1/4の性能を$200で実現できる可能性がある(NVMe-oFをサポートしていれば)。

 よく解らないのはプロダクトブリーフなどに記載されている「This NIC can reach wire-speed (100Gbps) with Jumbo frames. 」である。恐らく25GbE x 2ポート x 全二重接続で合計100 Gbpsということで、この文句の趣旨は「(25GbEは単に通信規格の理論上の性能ではなく)本当に理論通りの性能がでますよ」「2ポート x 全二重接続の高負荷時でも処理性能は落ちることはなく合計100 Gbpsでますよ」という意味だと思うが紛らわしい。

MikroTik CCR2216-1G-12XS-2XQ

MikroTik CCR2216-1G-12XS-2XQ Readied as a 25GbE and 100GbE Router - ServeTheHome

 CCR2216-1G-12XS-2XQは25GbEスイッチである。データセンター向けでは200GbEスイッチや100~400GbEスイッチが出回っているので特別に速いというよりは、(主に価格や流通網的に)消費者に手の届く初めての全ポート25GbEスイッチとなる。これまでも10GbEスイッチのアップストリーム用の2ポートに25GbEを搭載した製品は幾つかあったが、全ポート25GbEでアップストリーム用の2ポートが100GbEという能本格的な25GbEスイッチは初めてではないかと思う(もっとも$2795≒約30万円なので導入する人は多くないだろうが…)。

 ここまでだと、ただの25GbEスイッチであるが、興味深いのが搭載されているSoCでAnnapurna Labs AL73400が搭載されている。これはAWS Gravitonのことである。AWS Graviton/AL73400自体はAWS S3やAWS Route 66などに採用されてきたはずで、25GbEスイッチへの搭載は驚くことでは無いがAWS/Annapurna Labsが外販したほぼ初めてのケースではないかと思う。

※ちなみにUbiquiti Networksも約1年前にUniFi USW-Leafという25GbE x48 + 100GbE x6というCCR2216-1G-12XS-2XQを大型化したような製品を発表しており、こちらもAL73400を搭載していて驚きの$2,000とされているのだが…公式サイトにも一向に製品が登録されない。

 L2スイッチにはMarvell Prestera 98DX8525が搭載されているのでL2スイッチは98DX8525・L3ルーティングはAL73400で処理するものと思われる。
 ブロックダイアグラムが公開されていないためスペックシートからの推定になるが、98DX8525は100GbE x 6 or 25GbE x 24 or 10 GbE x 48 + 管理用 10GbE x 1という構成になっているため、CCR2216-1G-12XS-2XQでは100GbE x 2 + 25GbE x 12 + 管理用 1 GbE x 1を外部インターフェースとしており、残りは100GbE x 1ポート(または25GbE x 4ポート)である。AL73400は詳細が未公開であるが100GbEか25GbEは搭載していると思われるため、恐らく98DX8525 - AL73400間は25GbEまたは100GbEで接続されるものと思われる。
※AWS A1インスタンスのスペックを見る限りでは25GbE x 1のように見えるのだが…Apline v2 platformのAL32400が25GbE x 2なのに、Alpine v3 platformのAL73400が25GbE x 1というのはちょっと信じられない。

Comment

最近の気になった話題(2021年第49-50週)

2021-12-18 | 興味深かった話題

IntelがCentaur Technologyから人材を獲得

Intel、1.25億ドルでVIA傘下Centaurの人材を取得 - PC Watch

 実は筆者も先日CentaurのWebサイトを訪れて「Under Construction」となっているのは見ていたが、この取引についてはPC Watchの記事を見る(12月10日)までは知らなかった。

 普通に考えるとIntelは新しいCPU開発チームを立ち上げるのだろうと思うが、筆者のような捻くれ者は他の可能性も勘ぐってしまう。例えばCHAのNPU=NCORE(参考1参考2)を開発した人員を取得したかった、なんて可能性も考えられるかもしれない(可能性はかなり低いと思うが)。
 Intelは2020年にNeural Processing用のx86-64拡張命令=AMXを発表し来年登場する"Sapphire Rapids"に搭載されるが、AMXはMMX/SSE/AVXとは異なりCPUに統合されるというよりアクセラレーターとして実装されるそうだから、構造的にはCHAのNCOREのようにCPUコアと同じリングバス上にアクセラレーターが載るということも考えられる。もっとも、NCOREは物理的な配置はともかく、キャッシュコヒーレンシ―すらなくDMA経由でのアクセスだし、AMXのようなMatrix演算基ではなく2048-bit SIMD x 16という超ワイドなSIMD演算基ということを考えると、AMX向けではないように思う。
 やはり、新しくCPU開発チームを立ち上げると考えるのが妥当だろう。

 CPU開発チームをゼロから立ち上げるのは難しいようで、既存のチームが一緒に移籍するという話をよく聞く。
 古くはAMDでAthlonを開発したのはDECでAlpha EVを開発していたチームという話は有名だが、それ以外にもIntelのAtom/E-Coreのチームは旧FreescaleのPowerPCコア開発チームだし、2019年までSamsungでExynos-M "Mongoose"コアを開発していたチームは元AMDでBobcat/Jaguar等いわゆる猫系コアを開発していたチームだし、Qualcommが買収したNuviaは元Appleのメンバーが独立した会社だったりする。そのため新規にCPU開発チームを立ち上げるにあたり既存の開発チーム=Centaurを買収するというのはおかしな話では無い。

 記事中では「今回の取引により、Centaurの社員の一部がIntelに移籍される。台湾のメディアの報道によれば、今回の移籍は志願制となっており、Centaurに残ることもできる。また、固形資産ならびに無形資産の譲渡はない」とあり、移籍は志願制とのことだが、1999年にVIAがIDTからCentaurの買収に費やしたのは5100万ドルで、20年超の歳月による物価の違いを加味しても1.25億ドルという額は実質的な買収に見える。

AMDがSamsungにMPUの製造委託する(?)

AMDがMPUの一部をSamsungに製造委託の可能性 - マイナビ
AMD Might Use Samsung's 4nm Node for Chromebook CPUs - Tom's Hardware

 マイナビの記事では「エントリーレベルのCPU」としか触れられていないが、Tom'sと元ネタのJ.P. MorganによるとChromebook用のCPUだという。筆者は今年ウワサされていたArmベースのChromebook向けRyzen C7の可能性が高いと見る。

  AMDがChromebook用SoCをx86ではなくArmでSoCを作るのか?SamsungでArmならExynosで良いのではないか?と思われるかもしれない(というか某所でそういう反論を受けた)が、これは幾つかの理由で理に適っている。筆者が考えるに以下のような利点がある。

  • Chromebook向けにZen系アーキテクチャーは妥当でない可能性がある
    通常のRyzen APUがターゲットとするのは$1000前後~のWindowsラップトップと考えられるが、$200~のChromebookには載せられない。SoCのコストとしては前者は$150~・後者は$50程度と大きな差がある。これは絶対的にダイエリアと消費電力が大きいからでもある。Zen系からArm Cortex系に変更することでCPUコア部分のコストと消費電力を半分以下に削減できる。

  • AMDのZen系CPUで4コア構成はZen 2が最後の可能性がある
    Valve SteamDeckに搭載予定の超低消費電力向けRyzen APU "Van Gogh"(Zen2 CPU+RDNA2 iGPU)に見られるように、どういうわけか4コアのAPUはZen2世代に留まっており、Zen3以降は8 Core/CCX構成で4 Core/CCXという構成が見られない。その前提であればZen3以降では$200~のChromebook専用SoCは現実的でないし、PixelBookのような$1000~のハイエンドChromebookであれば、そもそも専用SoCは必要無い。

  • Arm純正Cortexコアのサポートは難しくない
    x86とArmの両方をサポートするリソースがAMDにあるのか?という疑問もあろうが、カスタムArmコア=K12はともかくArm純正のCortex系コアを導入するのであればエンジニアリングリソースはほとんど必要ない。Samsung・Armが既にCortex-A78等のPOPをインプリメント・最適化済のはずで、AMDがCPUコアの物理設計に手を入れたりデバッグしたりする必要性はほとんどない。
    難しいとすれば、それはCPUコア以外の部分やソフトウェア(UEFIなど)だろう。ただし、AMDがXilinx(ZynqなどのSoC製品でArmを採用)の買収を成功させ両社のポートフォリオを統合する想定ならArm SoCのサポートを極端に忌避する理由も無い。

  • AMDはSamsung 4nmプロセス向けRadeon iGPU "Voyager"を開発済
    AMDはRadeon iGPUをSamsungにライセンスしており、SamsungはExynos 2200で搭載予定とされる。言い換えればAMDは既にAXI接続でSamsung 4nm向けに物理設計済のiGPUを保有している。
    マイナビ記事中ではSamsung 4nmの歩留まりが低いとあるが、それでもAMDが報道の通りSamsung 4nmを使うとすれば、それはExynos 2200がSamsung 4nmだからだろう。

  • ZenベースのRyzen APUを高リスクで製造するとは考え難い
    Ryzen APUはエンタープライズ向けRyzen Pro(つまり取引相手はDellやHPのような大手PCベンダー)や組込向けRyzen Embedded(つまりデキが悪くても10年間サポートが必須)としても展開されるため、もしSamsungへの初の製造委託をリスクとして捉えるならば高リスクの方法では製造しないと思われる。

  • AMDはChromebook市場ではIntelに勝てる可能性がある
    AMDはWindows/x86市場ではシェア20%程度でIntelに負けているが、Chromebookであれば現時点ではIntel Celeron/Core i3以外では台MediaTek・中RockChip(最近はほとんど見かけなくなった)など競合が少なく、入り込む余地がある。
Comment