NVIDIA "Hopper" HA100
“ペタ”FLOPSの性能を実現したモンスターGPU「NVIDIA H100」- PC Watch
AI性能を引き上げるために、あらゆる機能が強化されたNVIDIAの「H100」 - PC Watch
NVIDIAが同社の主催するGTC 2022にて新しいフラッグシップGPU「HA100」を発表したため、これを取り上げたい。
以下はNVIDIA Volta V100・Ampere A100・Hopper H100と参考までにAMD CDNA2.0 MI250Xのスペックを並べたものである(演算ユニットの構成が異なるためAMDのスペックは空欄となっている)。
NVIDIA GV100 | NVIDIA GA100 | NVIDIA GH100 | AMD MI250X | |
Microarchitecture codename | Volta | Ampere | Hopper | CDNA 2.0 |
Boost frequency (MHz) | 1530 | 1410 | 1650 | 1700 |
Interface | SXM2 | SXM4 | SXM5 | |
Launch date | 2017-10 | 2020-05 | 2022-03 | 2021-11 |
Lithography | TSMC 12FFN | TSMC N7 | TSMC 4N | TSMC N6 |
Die size (mm2) | 815 | 826 | 814 | |
Transistor count (billion) | 21 | 54 | 80 | 29.1 x 2 |
# of SM or CU | 80 | 108 | 132 | 110 x 2 |
Total FP64 CUDA cores | 2560 | 3456 | 8448 | |
Total FP32 CUDA cores | 5120 | 6912 | 16896 | |
Peak FP64 SIMD | 7.83 | 9.75 | 30 | 47.90 |
Peak FP32 SIMD | 15.67 | 19.49 | 60 | 47.90 |
Tensor Cores per SM | 4 | 2 | 1 | N/A |
Tensor Cores | 640 | 432 | 528 | N/A |
Peak FP64 Tensor | 15.67 | 19.49 | 60 | 95.70 |
Peak FP32 Tensor (raw) | 31.33 | 155.93 | 500 | 95.70 |
Peak FP32 Tensor (sparsity) | 62.67 | 311.87 | 1000 | N/A |
Peak bFP16 Tensor (raw) | N/A | 311.87 | 1000 | 383.00 |
Peak bFP16 Tensor (sparsity) | N/A | 623.74 | 2000 | N/A |
Peak FP16 Tensor (raw) | 62.67 | 311.87 | 1000 | 383.00 |
Peak FP16 Tensor (sparsity) | N/A | 623.74 | 2000 | N/A |
Peak INT8 Tensor (raw) | 125.34 | 623.74 | 2000 | 383.00 |
Peak INT8 Tensor (sparsity) | N/A | 1247.48 | 4000 | N/A |
Peak INT4 Tensor (raw) | N/A | 1247.48 | N/A | N/A |
Peak INT4 Tensor (sparsity) | N/A | 2494.96 | N/A | N/A |
Memory Type | HBM2 | HBM2E | HBM3 | HBM2E |
Memory Interface | 4096-bit | 5120-bit | 5120-bit | 4096-bit x 2 |
Memory Bandwidth (GB/s) | 900 | 1600 | 1920 | 3276 |
Vendor specific Interconnect (GB/s) | NVLink 300 | NVLink 600 | NVLink 900 | Infinity Fabric 800 |
PCIe | PCIe Gen 3 | PCIe Gen 4 | PCIe Gen 5 | PCIe Gen 4 |
Max TDP (watts) | 300 | 400 | 700 | 560 |
※03/28訂正 - 初出時VoltaのbFP16のFLOPS性能が誤記されていました。bFP16対応はAmpereでの追加です。
まずGH100を見てみる。表では省略しているがTensor演算でFP8対応が追加された一方でINT4対応が廃止されている。また、GA100で追加されたTF32にも対応している(NVIDIA独自のデータフォーマット。演算スループットはFP32と同じ)。
性能はGA100比で約3倍になっているが、これはStreaming Multiprocessor(SM)の構成変更によるものである。SM自体の数は22%・動作周波数は18%しか増加していないのに約3倍の性能となるのは、SMに搭載されているシェーダー/CUDAコアの数が2倍になったためである。
ちなみに、GH100の動作周波数「1650 MHz」はWikipediaからのものでNVIDIAの発表では実製品での設定は現時点で未定となっている。実は筆者もFLOPS値から動作周波数の算出を試みたのだが1650 MHzにはならなかった。製品登場時には変更となる可能性がある。
AMDとの比較であるが、AMD MI250XはTSMC N6ということでGA100のTSMC N7と近い製造技術(ハーフノード世代)で、GH100のTSMC 4N(恐らくTSMC N4のNVIDIA向けカスタムノード)とは1フルノード世代分の違いがある。そのため実装されているトランジスター数から言えばMI250X(2ダイで計58.2 billionトランジスター)はGH100(80 billionトランジスター)よりもむしろGA100(54 billionトランジスター)に近い。
FP32/FP64の特にSIMD演算では2ダイ構成ということもありAMD MI250Xに軍配が上がるものの、Tensor CoreをもつNVIDIAのTensor演算性能が目を惹く。AMD CDNAのMatrix Engineはラフに言えばSIMD演算ユニットとレジスターを2倍に拡張したものでSIMD演算性能の2倍にしかならないが、NVIDIAはTensor演算用に演算ユニットを新設した上にSparcityなども実装しているからTensor演算性能は圧倒的である。
もっとも、そもそもMI250Xの開発目的=米エネルギー省Frontier HPCということでFP64性能が要件だったからMI250XがFP32/FP64 SIMD性能特化・Tensor演算性能は限定的となるのは仕方のないところではある。
(つづく)