ALH84001

私的コラム&雑記(&メモ)

最近の興味深かった話題(2023年第46週)

2023-11-18 | 興味深かった話題

2023年11月版 Top500 が公開

Top500 List - November 2023
Top500 Supercomputers: Who Gets The Most Out Of Peak Performance? -TheNextPlatform

 今回の最大の話題はORNL/Intel Auroraの初登場だが、悪い意味で驚きの結果となった。ランクインしたものの、約51%ほどのノード数で2位という結果となった。
 今回の結果が示しているのは恐らく何らかの想定外が起こっておりIntelはAuroraで1位を獲得することを諦めたということではないか。恐らく、次回=2024年6月のリストではAuroraはフル構成で今回1位のFrontierを超えてくるだろうが、次回はLLNL/HPE/AMDのEl Capitanが約2 ExaFLOPSでの首位獲得がほぼ確実だからである。

 Intelの発表によると、2023年6月リスト発表の時点でブレードを全数納品し終えたということなので、半年近く経っても構築が進んでいないことになる。本来、ハードウェアの構築やOSやミドルウェアのインストール自体はそれほど時間を要さず、構築後のチューニングに時間がかかるはずだが、約半分の規模での測定結果というのが何を示すのか解らない。ハードウェアに異常があったのかもしれないし、ハードウェアの構築とOS等のインストールは終わったが、大規模で動かすとまったく性能が出ないのかもしれない。

HPCNodesTotal CPUTotal GPURmax
(PFlop/s)
Rpeak
(PFlop/s)
Rmax/Rpeak
Frontier (2023)8,63117,26234,5241,194.001,679.8271.08 %
Frontier (2022)8,66117,32234,6441,102.001,685.6565.38 %
Aurora (2023.11)5,43910,87832,634585.341,059.3355.26 %
Aurora (Planed)10,62421,24863,744?2,069.19?

 上の表はTop500リスト中の性能と、コア数からノード数・CPU数・GPU数を逆算したものを纏めたものである。

 今回(2023.11)のAuroraの結果は計画の約半分の構成で計測したことが解る。興味深いのは、Frontierが4 GPUs/Nodeに対しAuroraが6 GPUs/NodeとGPUの比率が高く、さらにAuroraの方がFrontierより1.25倍ほど規模が大きいため、Auroraとしては約半分の構成でもGPU数ではFrontierのGPU数に肉薄しており、Rpeak(理論上の性能)も36%ほどしか差がない。それでも、理論値に対する実効性能の効率(Rmax/Rpeak)が低いため、結果としてはAuroraはFrontierの半分以下の性能しか達成できていない、ということだろう。
 一般的には、ノード数が増えるとネットワークの遅延が増えたり・並列演算できない演算があったり・遅いノードがボトルネックになったりして実効効率は悪化するため、フル構成で計測した結果は半分の構成の2倍とはならず、半分の構成の方が高い実効効率を示すが、それで半分の構成で55.26%となると、そのまま規模を2倍にしたフル構成だったとしてもAuroraはFrontierに勝てないだろう。もっとも、Intel GPUはハイエンド製品も・HPCでの採用も初めてだから初登場時点で最適化が進んでいないのは当然で、これは次回=2024年6月のTop500までには改善が進むだろう。
 言い換えれば、次回=2024年6月のTop500に登場すると見られるEl Capitanは既に実績と経験が豊富なAMD CPU+AMD GPUという構成なので性能の予測が大きく外れることは考え難い。

 不気味なのは中国勢で、TheNextPlatformの記事では存在が推測される2台のExaScaleシステムについて記載があるが、基本的には推測の域を出ない。NUDT Tianhe-2Aが初めて中国に首位の座をもたらしたのが2013年6月・さらにNRCPC Sunway TaihuLightの登場が2016年6月で中国に1位・2位をもたらしており、一方で米国が中国企業をエンティティリストに加えて禁輸措置が本格化したのが2018年頃であるから、中国政府系組織も成績を公表しないのだろう。



Comment