最近の9月8日に米国学会IEEEの広告にエキサ・スケール(10の18乗、ゼロが18個並ぶ膨大な数で和算では100京に相当)のスーパー・コンピュータでは、信頼性が壁となって性能が出ないという論文速報があつた。
エキスコン・シリーズの当初に、このブログ表題は「エキストリーム・スケールのコンピュータ」から採用したことは最初に書いた。当然ながらエキサ・スケールのスーパーコンピュータも視野の範囲である。
まだ発刊に至っていない論文を早速ダウンロードして、ざっと目を通した。その論文の要旨をごく簡単に紹介する。
スーパーコンピュータは、並列多重方式を想定している。コンピュータの演算を行うコア(かっては中央演算装置CPUといっていたが、最近ではコアという)を膨大な個数用いて並列的に処理する。この論文の最初に引き合いに出している世界最高速の天河1Aは186,368個のコアがあり、演算速度は4.701ペタ・フロップス(ペタはペセタともいい10の15乗で、フロップスは浮動小数点演算単位)であるという。中国から投稿された論文なので、まずは宣伝が掲げられている。
コアの個数が大きくなると、1個あたりのコアが故障する確率が低くても、エキスコンとしての信頼性は低下する。天河1Aを引き合いに出させてもらうと、コア単体の故障率が一時間あたり10万分の1としても、平均故障間隔(故障がなくて稼働できる時間)は35分程度となる。
このような膨大な数のコアによるエキスコンを使って数時間にわたり、計算した結果は果たして正確なのかどうか確認するすべもない。もし再計算して結果が違っていたら、何度も計算を繰り返さなければならない。このことからエキスコンの処理能力には「信頼性の壁(Reliability Wall)」があるといい、このことをこの論文で最初に著したと主張している。
ある小話を思い出す。
駆け出しのサラリーマンに、会社の月末決算をさせたという。ソロバンしかない時代である。この若いサラリーマンは、ソロバン計算は得意ではなかったらしい。集計した結果は、収支の帳尻が合わない。致し方なく何度も計算し直すがなかなか一致しない。ついには1円の誤差で帳尻が合ったから、自分のポケットから1円玉をとりだし、これを帳簿に貼り付けてようやく真夜中に帰宅したという。
信頼性の壁を提唱しようするこの論文は、計算の途中で誤りがあれば、引き返して再処理を行う、専門用語では「ロールバック・リトライ」の概念が根底になっている。このロールバックには数多くの方式が提案されており、いまなお研究テーマの一つであると聞いている。例えばエキスコンを二つにわけて同じ処理を実行させる方式もあるかもしれない。この場合の計算処理速度は半分になる。仮に膨大なデータを照合するのであればその照合に時間がかかり、さらに照合結果に再び誤りが生じるかも知れない。
中国から投稿されたこの論文は、学会誌に受理されていて、正式に掲載される前の段階であるが、引用文献も国際的な基準にあり、内容もしっかりと書かれていることから、このような論文が採録されるようになった中国の学術基盤が高くなっていることは注目したい。ただし著者は、天河の開発にかかわった気配もあり、エキスコン天河の平均稼働時間が低いこともあるのではないかとの疑念も残る。
一般にエキスコンの平均稼働時間が公表されていないが、今後はこの評価基準も重要であると教唆される論文内容である。
最近になって計算速度が世界トップの座についたという日本のスパコンについて、信頼性はどのように確保しており、平均稼働時間はいかばかりなのか教えて頂きたいところである。
優れた平均稼働時間は、将来のエキスコンのセールス・ポイントであると確信させてくれた論文である。
(納)
エキスコン・シリーズの当初に、このブログ表題は「エキストリーム・スケールのコンピュータ」から採用したことは最初に書いた。当然ながらエキサ・スケールのスーパーコンピュータも視野の範囲である。
まだ発刊に至っていない論文を早速ダウンロードして、ざっと目を通した。その論文の要旨をごく簡単に紹介する。
スーパーコンピュータは、並列多重方式を想定している。コンピュータの演算を行うコア(かっては中央演算装置CPUといっていたが、最近ではコアという)を膨大な個数用いて並列的に処理する。この論文の最初に引き合いに出している世界最高速の天河1Aは186,368個のコアがあり、演算速度は4.701ペタ・フロップス(ペタはペセタともいい10の15乗で、フロップスは浮動小数点演算単位)であるという。中国から投稿された論文なので、まずは宣伝が掲げられている。
コアの個数が大きくなると、1個あたりのコアが故障する確率が低くても、エキスコンとしての信頼性は低下する。天河1Aを引き合いに出させてもらうと、コア単体の故障率が一時間あたり10万分の1としても、平均故障間隔(故障がなくて稼働できる時間)は35分程度となる。
このような膨大な数のコアによるエキスコンを使って数時間にわたり、計算した結果は果たして正確なのかどうか確認するすべもない。もし再計算して結果が違っていたら、何度も計算を繰り返さなければならない。このことからエキスコンの処理能力には「信頼性の壁(Reliability Wall)」があるといい、このことをこの論文で最初に著したと主張している。
ある小話を思い出す。
駆け出しのサラリーマンに、会社の月末決算をさせたという。ソロバンしかない時代である。この若いサラリーマンは、ソロバン計算は得意ではなかったらしい。集計した結果は、収支の帳尻が合わない。致し方なく何度も計算し直すがなかなか一致しない。ついには1円の誤差で帳尻が合ったから、自分のポケットから1円玉をとりだし、これを帳簿に貼り付けてようやく真夜中に帰宅したという。
信頼性の壁を提唱しようするこの論文は、計算の途中で誤りがあれば、引き返して再処理を行う、専門用語では「ロールバック・リトライ」の概念が根底になっている。このロールバックには数多くの方式が提案されており、いまなお研究テーマの一つであると聞いている。例えばエキスコンを二つにわけて同じ処理を実行させる方式もあるかもしれない。この場合の計算処理速度は半分になる。仮に膨大なデータを照合するのであればその照合に時間がかかり、さらに照合結果に再び誤りが生じるかも知れない。
中国から投稿されたこの論文は、学会誌に受理されていて、正式に掲載される前の段階であるが、引用文献も国際的な基準にあり、内容もしっかりと書かれていることから、このような論文が採録されるようになった中国の学術基盤が高くなっていることは注目したい。ただし著者は、天河の開発にかかわった気配もあり、エキスコン天河の平均稼働時間が低いこともあるのではないかとの疑念も残る。
一般にエキスコンの平均稼働時間が公表されていないが、今後はこの評価基準も重要であると教唆される論文内容である。
最近になって計算速度が世界トップの座についたという日本のスパコンについて、信頼性はどのように確保しており、平均稼働時間はいかばかりなのか教えて頂きたいところである。
優れた平均稼働時間は、将来のエキスコンのセールス・ポイントであると確信させてくれた論文である。
(納)