Sony PlayStation 5 Pro発表 (1) 価格編
「PlayStation 5 Pro」登場。性能45%向上 - PC Watch
Sony PlayStation 5 - Wikipedia
SonyがPlayStation 5 Proを発表した。日本での反応は各メディアで報じられているが、各国で同様の反応らしい。つまり「高い!」である。
PlayStation 5 (Nov 2020) | PlayStation 5 Pro (Nov 2024) | Delta (in US$) | |
---|---|---|---|
US | US$ 499 | US$ 699 | + 40.1% |
EU | € 499 (US$ 591.8) | € 799 (US$ 885.5) | + 60.1% (+ 49.6%) |
Japan | ¥ 49,980 (US$ 479.8) | ¥ 119,980 (US$ 851.6) | + 140.1% (+ 77.5%) |
各国の値上げ率を見てみると、米国で+ 40%・欧州で+ 60%となっている。インフレーションは分野によって異なるが米国の過去5年間でのインフレーション率が8.00%とのことなので2020~2022年頃の半導体不足などを計算に入れても値上げされていることが解る。
面白いのは米国価格・欧州価格での米ドル換算での値上げ率で、米国+ 40%に対し欧州+ 50%と、米ドル基準で値上げしているように見える。ちなみに、米国はVAT別表示・州毎にVAT率が異なるため、VAT +20%とすると、2020年のPS5は約US$ 599・2024年のPS5 Proは約US$ 839となり、欧州の価格に近い価格設定であることが解る。…謎なのは日本での価格設定で、米ドル換算でも+ 77.5%の値上げとなっている。
Sony PlayStation 5 Pro発表 (2) スペック編
Sony PlayStation 5 Pro costs $699, launches November 7 - Videocardz
詳細なスペックは公表されていないため本稿では議論しないが、興味深いのはメジャーな欧米メディアは「Zen 2 + RDNA 3/4」と推測していることだ。ゲームコンソールでは高い後方互換性維持のため古いハードウェアを使い回すことが多いが、とはいえ2019年のZen 2を持って来るとしたら驚きである。
高性能GPUを実現するため新しい製造プロセス=TSMC N5/N4Pを採用するとしたら、Zen 4/5が妥当だが、Zen 4/5ではAVX-512対応など命令セットおよび実行レイテンシーの非互換性・大幅なトランジスター増があるため避ける可能性は否定できない。CCDのトランジスター数はZen 4はZen 2の+ 66.6%で、同じ製造プロセスなら恐らくダイサイズも同程度増加する≒GPUに割り当てられるダイサイズが減ることになり、もしSonyがGPU性能を重視するならZen 4/5を採用しない可能性はある。
しかし、Zen 3ではなくZen 2を選ぶ理由はあまり考え難い。命令セットもダイサイズもほぼ同じでIPC +19%を達成している。いずれにせよTSMC N5/N4Pを使う時点で物理実装を新規に起こす必要がある。
あえてZen 2を採用するとしたら、気になるのはPS5でSonyが行ったと言われるZen 2のカスタマイズ(Chips and Cheeze)で、PCで採用されているZen 2→Zen 3であれば後方互換性維持はあまり関係無さそうだが、PS5カスタマイズ版Zen 2と通常のZen 3とではAVXの遅延が大きく違うはずで、後方互換に問題が生じてもおかしくなさそうな気がする。
AMD RDNA・CDNAはUDNAに統合される
AMD announces unified UDNA GPU architecture — bringing RDNA and CDNA together to take on Nvidia's CUDA ecosystem - Tom's Hardware
個人的には開発リソースの効率化の最適化だろうと思う。
従来AMD・NVIDIA共に「FP64スループット重視」のデータセンター用/コンピュート用と「FP32スループット重視・レイトレーシング等のグラフィックスの追加機能重視」のグラフィック用の2系統に分類していたところ、AI/深層学習の爆発的な市場拡大に伴い、リソースをMatrix演算ユニットに向ける必要がでてきたのだろう(だとするとAMDの判断は遅すぎるが…)。
2015年~頃の従来の考え方だとデータセンター/コンピュート用とグラフィックス用とに分けるのは理にかなっていた。
NVIDIAは2016年に発表した"Parker"で同一コード名ながらコンピュート用とグラフィックス用とに分化(参考)・その次世代でもコンピュート用="Volta"とグラフィックス用="Turing"とに分化させている。同様にAMDがデータセンター用=CDNAとグラフィックス用=RDNAとに分化したことはおかしな事ではなかった。
そして、コンピュート用とグラフィックス用の違いは「FP64スループット=実装コストの高い高スループットのFP64演算ユニットのSIMDエンジンを搭載する代わりにSIMDエンジンの数は少ない。ディスプレイ出力なども搭載しない」か「FP32スループット重視・追加機能重視=FP64が低スループットのFP32重視のSIMDエンジンをより多く搭載する。レイトレーシング等のグラフィックス用機能を多く搭載し、ディスプレイ出力も搭載する」といったものである。
その状況が変わったのがAI/深層学習におけるMatrix演算の需要増加である。
科学演算におけるFP64の必要性自体は恐らく変化していないだろうが、より経済規模が大きな市場が出現したことにより求められる演算性能の優先度が変化してしまった。
深層学習での精度はどんどん下がっており、かつては学習でFP32・推論でFP16/bFP16が使用されていた時代もあるが、最近は学習でTF16/bFP16・推論に至ってはFP8・INT8・INT6・INT4などが使われている。また、GPUで伝統的なVecror演算ではなくMatrix演算が求められる。Vector演算用のSIMD演算ユニットでも複数サイクルかけてMatrix演算を処理できるが効率は良くない。
Vector演算の精度の違いは、Vector演算/Matrix演算の違いに比べたら些細な違いでしかない。
問題は実装である。AMDはVector演算ユニットを拡張することでMatrix演算機能を実装した。この方式は「Vector演算とMatrix演算の両方で高い演算性能が求められる」という前提では実装コストの効率が良い。例えば従来FP32を32-way SIMDで演算していたところ、FP8を128-wayで演算できるようにするわけだ。もし16x16のマトリックスなら計256要素なので2サイクルで演算できることになる。
しかし、現在の市場の状況はMatrix演算で高い演算性能が求められるもののVector演算の需要は相対的に低い。現在の市場の需要では上述の例でいえばFP32 32-way Vector演算のスループットを上げるよりもFP8 16x16 Matrix演算のスループットを上げたい。ところが上述の実装方式ではVector演算ユニットを拡張してMatrix演算に流用しているから、Matrix演算性能を強化するにはVector演算性能を強化する必要がでてくる。
例えばCDNA1では演算性能は同じ512-bit Vector演算ユニットで処理していたため同精度ならVector演算とMatrix演算で共通だった。CDNA1からCDNA2で512-bit Vector演算ユニットをMatrix演算のみ1024-bit Vectorで処理可能になったため、同精度ならVector演算とMatrix演算で1:2になった。とはいえ、レジスタファイルと演算ユニットをMatrix演算用に512-bit拡張しただけのため、スループットは2倍にしかならない。
NVIDIAも"Maxwell" / "Pascal"世代では同様にVector演算ユニットを拡張して深層学習のMatrix演算を行っていたが、Volta/Turingで専用のMatrix演算ユニット=TensorCoreを実装した。
TensorCoreはVector演算ユニット=CUDAコアとは別の実装なのでCUDAコアとは無関係に拡張することができる。実際、Volta/Turingに続くAmpere/Hopper/Adaでも継続的に拡張され続けているが、TensorCoreのスループットはCUDAコアのスループットとは無関係に強化されている。
実はこれは単なる「新方式の演算ユニットの実装方法」という表面的な話ではなく、AMD(旧ATI Technologies)とNVIDIAの文化・フィロソフィーによるものの可能性がある。新方式の演算ユニットを実装する場合、伝統的にNVIDIAは新規の演算ユニットをGPUに追加する力業で実装する「Brute Force(力業)」方式の傾向が強く、AMD/旧ATI Technologiesは既存の演算ユニットを機能拡張する傾向が強い(参考)。
ただし、さすがにここまでAI/深層学習市場が拡大し売上・株価に影響を与え始めるとAMD/旧ATI Technologies方式では無理があると言わざるを得ない。