goo blog サービス終了のお知らせ 

ALH84001

私的コラム&雑記(&メモ)

先週の興味深かった記事(2019年 第43週)

2019-10-28 | 興味深かった話題

Intel Tremont

Intel、次世代省電力コア「Tremont」でシングルスレッド性能を改善 - PC Watch
Intel Unveils 10nm Atom Tremont Microarchitecture - Tom's Hardware
Intel Unveils the Tremont Microarchitecture - WikiChip Fuse

 「驚いた」というのが率直な感想である。
 Intelは省電力・高効率コア=Atom系コアと高性能コア=Core系コアをFaverosで混在させることは繰り返し説明してきた。これはArmでいうと、高効率なCortex-A53/A55と高性能なCortex-A72/A77を組み合わせるようなものと思うが、蓋を開けてみると違う姿が見えてくる。
 A53/A55などは同時2命令デコード/インオーダー実行のシンプルなコアだが、Tremontのそれはまったく違う。同時6命令デコード/同時4命令イッシュー/アウトオブオーダー実行という重量級で、恐らくROBやら物理レジスターファイルやら各部キューやキャッシュなどで省コストな設計になっているのだろうが、数世代前のCore系コアを凌駕しかねない。

# ちなみに、設計元単位で並べているのでAtom系=省電力コアであるが、設計規模からしても
# Atom系コアの実行性能はArm Cortex-A72/A77系コアに近いレベルである

 現行のAtom系コアはGoldmont Plusであるが、先祖返りすればSilvermontに行き着く。
 このSilvermontはCore系プロセッサーに比べれば圧倒的に軽量級のアーキテクチャで、2命令デコード/2命令イシュー/2命令リタイヤのアウトオブオーダー実行コアだった。それがいつの間にかGoldmont Plusでは同時3命令デコード/4命令イシュー/4命令リタイヤへと拡張された。この3 IPCというのはCore2と同等である。
 今回発表されたTremontではGoldmont Plusからフロントエンドが二重化されたほか実行ポートが2ポート増え、同時6命令デコード/4命令イシュー/4命令リタイヤとなっている。気になるのはイシューの部分が同時4命令に絞られている点にある。同時3命令デコードのフロントエンドが二重になっているが、同時3命令デコードなら実効で2.5 IPCくらいはなりそうなものである(もし実効で2 IPC程度なら同時2命令デコードで十分という話になる)。それが二重となると通常は5.0 IPC程度が期待されそうなもので同時4命令イシューでは少な過ぎる。
 もっとも実行ユニット群が強力なわけではないからイシューを大幅に広げてもポート競合が発生してIPCが上がらない可能性もある。その意味では私にはTremontはGoldmont Plusの正常進化というよりもSilvermont 2コアを1コアに融合したようにも見える。

 SilvermontTremontSunny Cove
Decode 2 3 x 2 5
uOP cache - - 6
Issue 2 4 6
# of Exec Port 5 10 10
ALU 2 3 4
FPU/SIMD 2 2 3
Jump - 1 -
AGU 1 2 4
STD - 2 2

 今回のフロントエンド二重化は、新しいCPUの方向性かもしれない、とも思う。
 例えば、IBMはPOWER 9で4クラスターの実行ユニット群を束ねて1つのフロントエンドに接続してSMT4コア、さらにSMT4コアを2基束ねてSMT8コアを作り出した。つまりSMT8コアではフロントエンド2クラスターに実行ユニット群8クラスターである。一般にCPUではフロントエンドと実行ユニット群が1:1で組み合わさってきたが、POWER9やTremontのような事例が出てきた。もっとも、このような構成はGPUでは一般的で、今後このようなフロントエンドと実行ユニット群が非対称な構成のコアが主流になるのかもしれない。
 また、今回の拡張は近年のAtomの主戦場だったネットワーク機器をターゲットにしている可能性もある。フロントエンド二重化は、仮に一方のスレッドがメモリーアクセスなどでストールしている場合でも他方のスレッドは処理を継続できるので、新しいHyperThreding/SMTの実装方式と見做すこともできる。その一方で、実行ユニット群はCore系コアと比べて低性能・低コストで代わりに多コアを集積することができ、軽量な処理を大量に実行するネットワーク処理(ルーターなど)に向いている可能性が高い。

 ベンチマーク結果など数字が出ていないので、今回の実装がどういう結果をもたらすか分からないが、今後のCPUの動向を伺う上でも興味が尽きないところである。


今週の興味深かった記事(2019年 第42週)

2019-10-20 | 興味深かった話題

NVIDIAが新しいShield Android TVデバイスを準備中

New NVIDIA SHIELD TV Pro pops up on Amazon Shield TV Streaming Stick - XDA Developers

 NVIDIAの新しいShield Android TVデバイスが誤ってAmazon.comに掲載されていたらしい。
 興味深くはあるものの期待外れの感は強い。搭載されているプロセッサーは「NVIDIA Tegra X1+」とされ現行より25%高速とされるが(後述)、そもそも現行NVIDIA Shield TVに搭載されているTegra X1は2015年に登場したプロセッサーだから、4年越しでたった25%では期待外れである。

 実はこの話には以前からウワサがあった。というのも、任天堂がSwitch Liteを準備中であること・そのSwitch LiteおよびSwitchがどうやら新らしいNVIDIA製プロセッサーを搭載していること・NVIDIAがShield TV新モデルのFCCの申請していたことなどが既に報じられていたからである。任天堂Switchは2017年の初登場であるが現行Shield TVと同じく2015年登場のTegra X1を搭載していた。

 これには後日談があり、新Switch・Switch Liteのプロセッサーは確かに変更されたいたものの期待されたほどではなかった。Switch Liteに搭載されているプロセッサーは「ODNX10-A1」で(iFixitで確認できる。Switchに搭載されていたのは「ODNX02-A2」である)、これはTSMC 20nmからTSMC 16nmに製造プロセスを移行したTegra X1プロセッサーのB01ステップ(Tegra X1+)であり、GPUが1 GHzから1.26 GHzに変更されているのが唯一の違いである。どうやら今回のShield TV ProもこのB01ステップのTegra X1を搭載するようだ。
# Tegra X1で無効化されていた、省電力用CPUコアがB01ステップでは有効化されている可能性がある

 ちなみに、iFixitはじめTegra X1とTegra X1+とでは写真で見る限り同じに見える。スペック上では20nmから16nmと36%も小型になっているにも関わらずである。これは当然で、PC Watch後藤氏の記事に解説がある通り、TSMC 20HKMGと16FFはPlanarからFinFETにトランジスターが変更された以外、バックエンドは共通である。TSMCは12nmや7nmのプロセスも持っているが、想像するに20HKMGから可能な限り低コストでプロセスを移すとなると16FFが都合が良かったのだろう。

 NVIDIAは同社製Tegraプロセッサーを搭載したShieldデバイスをほぼ2年毎にリリースしているが、2015年以降は注力しているように感じられない。それはある意味では当然で、2015年までのTegraはスマートフォン・タブレット・スマートTV Boxをターゲットとしていたが、2017年に登場したTegra X2からは車載へと方向転換している。Tegra X2まではまだ携帯端末用と車載用の中間的なプロセッサーであったが(例:TDP 7.5~15w)、さらに後継のXavierでは完全に車載向けとなっており(例:TDP ~30w)、スペック的にもコスト的にも携帯端末には搭載できない。

 任天堂Switchは2017年の登場のため、Switch後継デバイスは恐らく2022年頃に登場する。NVIDIAが次々世代Shieldデバイスをリリースするのも2021年頃だろうから、2021/22年を目処に新しいプロセッサーを準備してくることを期待するばかりである。

スコットランド エジンバラ大学のArcher2 HPC

世界最速!CPUだけで28PFLOSを実現するAMD Rome採用スパコン - PC Watch

 元記事のタイトルには「世界最速!」とあるが、本文中にある通り「CPUベースの完全汎用演算システムとしては世界最速を謳う」とのことでバズワードの感は強いが、アクセラレーター全盛の現在でCPUのみという構成は興味深い。もっとも、搭載プロセッサーは米AMD Epyc・システムは米Cray Shastaということで、米国のSummit・日本の京/富岳のようなハードウェア設計から独自開発した国策HPCではない。

 この「CPUベースの完全汎用」というのは定義が難しい。
 例えば今年退役した理研/富士通の京コンピューターはアクセラレーターを搭載しないSPARC64IX VIIIfxのみの構成でHPLではRmax 10.5 PFLOPS・Rpeak 11.5 PFLOPSだったので、これよりは2.5倍程度高速といえる(ただし京コンピューターは2011年製である)が他は比較が難しい。米エネルギー省NERSCのCoriはIntel Xeon Phi 622,336コア搭載でHPLでRmax 14.0 PFLOPS・Rpeak 27.9 PFLOPS、中国NRCPCのSunway TaihuLightSW26010 10,649,600コア搭載でHPL Rmax 93.0 PFLOPS・Rpeak 125.4 PFLOPSとArcher2と同等クラスか上回っているが、いずれもHPC用にアクセラレーターを統合してカスタム設計されたプロセッサーであるが、GPUのようなアクセラレーターとは異なりOSをブートできる汎用CPUである。


先週の興味深かった記事(2019年 第41週)

2019-10-14 | 興味深かった話題

PlayStation 5は2020年末の発売

「プレイステーション 5」 2020年の年末商戦期に発売 - PlayStation Blog

 PlayStation 5(PS5)の「Zen 2 8コア」「RDNAベースのRadeon GPU」というスペックは出回っていた予想記事通りだが、そもそも予想以前に「ほかに選択肢がない」という理由で順当な内容である。詳細なスペックはまだ発表されていないが、PlayStation 4 ProおよびXbox One X以上と考えると概ね予想はできそうだ。

 AMD Zen 2ベースのRyzen 4000Gシリーズは来年登場するが、PS5のAPUとRyzen 4000G APUは、恐らくいずれもCPU(CCD)・GPU・cIODの3チップMCM構成となるだろうが、PS5のAPUはRyzen 4000G APUとは異なり、ディスクリートGPU並のGPUチップレットが搭載され、cIODがGDDR6メモリー対応となることだろう(いずれもPS4 Pro・Xbox One Xを超えるために必要)。
 対するMicrosoftの次世代Xboxは恐らく2021年の登場で、こちらはまだスペックが予想できない。順当にいけばAMD製APU(CPUはZen 3 8コア)であろうが、2021年末となるとIntel Core + Xeという構成も考えられる。ただし、2020年末のPS5の開発キットが2018年初頭に配布されていたことを考えると、次世代Xboxの開発キットも既に配布済のはずで、やはりAMD製APUと考えるのが妥当そうだ。

AMD Zen3の公式情報+非公式情報

Rumor : AMD Zen 3 Delivers 8%+ IPC & 200Mhz Higher Clock vs Zen 2 - WccfTech

 先に述べておくと、私はZen 3に関する技術的な説明を省いた「Zen 2比で〇〇%性能向上」といった報道の多くは眉唾だと思っている。これには2点理由がある:
(1) 確かにAMDはZen 2で非常に勢いづいており、ユーザー視点でも期待したい気持ちは解るが、次の大規模な改良はTSMC 5nmプロセスを採用するZen 4かZen 5まで持ち越しだと思う。なぜならAMDはZen・Zen+・Zen 2・Zen 3…と1年インターバルでのインクリメンタルな改良を行っているので、毎年の大きな性能向上は期待し難い。特にZen 2とTSMC N7・Zen 3はTSMC N7+と同規模の製造プロセスを採用するため、回路規模が大幅に増える拡張は行われないだろう。
(2) そもそもZen 2は明らかな弱点が少ない。例えばZen/Zen+の場合は128-bit幅のAVX-2・帯域の狭いLoad/Store・遅延の大きいL3キャッシュと素人にも見える弱点があったが、Zen 2の問題点はZen 3で変更が公式発表済のCCXのレイアウトの変更ぐらいのものである(これは大原氏がZen 2で予測していた内容でもある)。

 これらを踏まえて本題に入ると、記事にあるZen 2比で最大8%のIPC向上というのは理解できる。
 Zen 2世代で4 core/CCX単位のCCDチップレットあたり2CCXに分割されている理由が薄かったので8core/CCX単位のCCDチップレットに1CCXというのは理に適っている。これによりCCX間でのキャッシュコヒーレンシートラフィックが削減できるほか、Infinity Fabric経由となっていたCCXを跨いでのキャッシュアクセスが削減でき遅延も減らせるので、ワークロード次第で最大8%のIPCというのはありえる話であろう。
 個人的にはZen 3で重大なポイントはEUV露光のN7+プロセス採用によるマルチパターニングの削減と歩留まりの改善によるコスト削減を期待している。

Buffalo製Wi-Fi6対応Wi-Fiルーター

バッファロー初のWi-Fi 6ルーターは「こだわりの凝縮」開発秘話 - INTERNET Watch

 率直に言うと、記事を読んで困惑してしまった。

 記事中で挙げられている幾つもの「こだわり」の中でも「8msバースト長への対応」や「80MHz幅と160MHz幅への対応」などはについては理解できるのだが、LAN側10GBASE-T対応などは現実的なのかよく分からない。

 LAN側の対応規格についてであるは、以前の製品がレビュー記事で他社製の競合製品「NETGEAR Nighthawk AX12 RAX120」「ASUS GT-AX11000」との比較が掲載されていたが、競合製品の5GBASE-Tや2.5GBASET-Tに対し10GBASE-T対応は確かに本製品の特徴と言える。
 ただし、個人的にはこのLAN側10GBASE-Tがどの程度役に立つのか分からない。本装置でいえば4.8Gbps(5GHz)Wi-Fiや4ポートの有線LANに複数の装置が各1~4.8Gbpsで接続されているような場合、WAN側へのトラフィックは10Gbpsに制限されてしまうし、多対1ではルーティング速度も恐らく劣化するだろうから、LAN側10Gbpsが達成できるケースは限定されるのではないか(例:クライアントが1台しか接続されていない場合など)。
 あるいは、10G/5G/2.5GBASE-T対応のPCやNASなどを束ねたスイッチ(こちらも$500以上する)のアップストリームにLAN側10GBASE-Tポートを使う場合は最大限活用できそうな気がするのだが、果たしてそういう環境がBuffaloの顧客(個人ユーザー・小規模オフィス)でどの程度ありえるのか疑問だ。

 ついでに、記事中でほかに挙げられている、縦置の場合の熱設計の話も趣旨は理解できるのだが、やはりユースケースがよく分からない。ハイエンドPCユーザー(個人)であれば縦置/横置を決めてしまって良いと思うし、縦置きを重視しかつ10GBASE-Tを導入するような小規模オフィスであれば金属筐体にしてしまっても良かったのではないかと思う。
上記で活用例として述べた10GBASEスイッチのアップストリームとして使うような場合には金属筐体・空冷ファン付の大型なスイッチと並べることになるわけだから、縦置きする必要性ない。

 余談だが、本製品のSoCは恐らくQualcomm IPQ8078である。リファレンスボードもネットで探すことが可能であるが、秘密主義で知られるQualcommのことなのでSoCの詳細は解らない。Cortex-A53 2.2 GHz 4コアに単純なネットワーク処理に特化したNPU 1.7 GHz 2コアとが統合されており、10GBASEと1000BASE-TのMACを各1基ずつ搭載しているようだ。前世代IPQ806xでは似た構成で5Gbps程度だったようなので、動作周波数が2倍以上に上がったIPQ807x世代ではルーティング性能(fastpath)は10Gbps程度だろう。


今週の興味深かった記事(2019年 第40週)

2019-10-06 | 興味深かった話題

Linux Kernel 5.4にLockdownが実装

Linux 5.4-rc1がリリース,議論となった「ロックダウン」機能も実装へ - Gihyo.jp

 詳細を理解していないので、ザックリ調べての所感だが、コンテナ環境などではセキュリティー上有益ではないかと思う(ところが「linux container lockdown」などではほとんど記事がヒットしない)。

 基本的にコンテナ内からカーネルやデバイスへのアクセスは制限されるとはいえ、コンテナのセキュリティー上の最大の懸念事項は共有されているカーネルにある。CoreOS Container LinuxやRed Hat Atomic Hostなどを挙げるまでもなく、コンテナーホストのLinuxは基本的にRead Onlyでいい(日本のIT業界の流行語でいうとImmutableでいい)はずで、Userlandから動作中のカーネルへの変更を許可しないというのはセキュリティー上有益に思える。
 ただし、個人的に気になるのは他のカーネル機能との競合で、例えば最近のカーネルではkpatchと呼ばれる動作中カーネルに対するセキュリティーパッチを再起動不要で適用する機能があるが、これも「Userlandから動作中のカーネルへの変更」にあたるのではないかと思う(試してないので推測)。もちろん、本当にコンテナーホストLinuxがRead OnlyならパッチなどあてずにOSごと入れ替えというのが筋なのだろうけれども。

 ついでに気になるのが、メインラインカーネルとディストリビューションのカーネルの不一致で、来年4月に出るUbuntu 20.04 LTSには間に合うだろうが今年5月にリリースされたRHEL 8(Linux Kernel 4.18)での取り扱いが怪しい。RHELのメジャーバージョンは約5年に1回リリースされるので、RHELでメインラインLinux KernelのLockdownが使えるのは2024年頃ということもありえる(恐らく、それ以前にRed Hatが独自にLinux Kernel 4.18にバックポートしそうな気はするが)。

Xilinx Versal

AIエンジンを持ったXilinxの「Versal FPGA」その1 その2 - マイナビ

 気になるのは「Xilinxは何処へ向かっているのか?」言い換えれば「XilinxはFPGAベンダーなのか?」という点である。

 XilinxがFPGA以外のロジックを載せることは理にかなっている。FPGAがASICに比べ圧倒的にトランジスタ効率や電力効率が悪くなる。恐らく厳密な数字は調査会社や出典による様々だろうが、例えばこの記事によれば「FPGAは同じプロセスで製造されたASICに比べて10倍ほど効率が悪い」としている。そのため、アプリケーションCPU・DSP・メモリーインターフェース・Ethernetコントローラー・PCI Expressインターフェース・それらのコントローラーを相互接続するオンチップネットワークなど、誰でも使うロジックはFPGAではなくASICとして実装するのが望ましい。
 とはいえ、XilinxはSynopsys・MentorGraphics・CadenceのようなEDAベンダーではないので、例えばアプリケーションCPUコアはArmからライセンスを受けている。

 ここで気になるのがXilinxがAIエンジンを独自実装し、さらに開発環境としてVitasを提供している点で、当然これはIntelのOneAPIやNVIDIAのCUDAなどとは互換性が無い。NPU・開発環境・アクセス方法が乱立するのは好ましくないように思うのだが…。

Microsoftが新Surfaceを発表

マルチベンダーSoC/OSへと大きく舵を切るMicrosoftを象徴するSurface Duo - PC Watch

 私の知る限り、Microsoftは「Windows/Officeのベンダー」から「Azure/Microsoft365クラウドプロバイダー」へと大きく方向を転換している。ZDNetの記事などで報じられている情報が正しければWindowsのチームがAzureの傘下に加わり、AzureはWindows 10 ServerやカスタマイズしたHyper-Vなど先端の製品化されていないWindows技術が大量に投入されている。そう考えると、MicrosoftにとってのWindowsはAmazonにとってのFire端末と同じく顧客に同社製サービスを提供するための端末ということになるのかもしれない。

 それを踏まえて、MicrosoftにとってSurfaceとは何なのだろう?と思う。
 PC Watch記事中ではAMDプロセッサーと共に「マルチベンダーSoC」と括られてしまっているが、私からすれば両社は大きく異なっているように見える。

 AMD RyzenはIntel互換CPUで、昨今のIntelの7nmプロセス移行の失敗を見ればセカンドソースを確保するというのは理に適っている。
 一方、Windows on ARMはまったく鳴かず飛ばずである。驚くべきことに、QualcommはMicrosoftの要請に応じてSnapdragon 850(SDM850)・Snapdragon 8cxとWindows専用Snapdragonを出し続けている。SDM850はSDM845と、SM8cxはSM81500と多くの部分を共有しているとはいえ、スペックが明らかに異なっておりシリコンレベルでカスタマイズされているのが分かる。つまり少なくとも数百万ドル(数億円)かけてMicrosoft製品向けに独自プロセッサーを開発していることになる。
 想像するに「Microsoft SQ1」なるプロセッサーはMicrosoftとQualcommの妥結点ではないかと思う。Qualcommは売れもしないSoCを数億円かけて開発し続けるわけにはいかず、Microsoftは「共同開発した」という面目でSoCを買い上げることで補填しているのではないか。ちなみにWikipediaを信じる限り、SQ1のスペックはオーバークロックされている以外は7月にリリースされたSnapdragon 8cxと共通である。

 Snapdragon採用よりもさらに謎なのがAndroidの採用である。
 上述の通り、MicrosoftにとってSurface端末がAmazonにとってのFire端末であるならWindows以外のOSの採用は理解できる。しかし、Androidというのは辻褄が合わない。なぜならAndroid向けにはOfficeもMicrosoft Defender ATP等のクラウドベースの企業向けソリューションもフル機能でサポートされていないからである。


今週の興味深かった記事(2019年 第39週)

2019-09-29 | 興味深かった話題

Hot Chipsで発表されたNPU(続)

Hot Chips 31はマシンラーニングが花盛り - マイナビ

 二週間前から継続して、Hot Chips 31で発表されたNPU(Neural Processing Unit)に関するHisa Ando氏による解説がマイナビに掲載されている。今週はTesla MotorsのFSDとNVIDIAのRC18に関してのものだった。

 記事の内容の前提であるが、Tesla Motorsの運転補助にはHW1.0~HW3.0までの三世代が存在しており、第一世代HW1.0ではIntel傘下MobilEye EyeQ3ベース、第二世代HW2.0/2.5ではNVIDIA Drive PX2(NVIDIA Tegra TX2 + NVIDIA Pascal GPU)ベース、そして第三世代ではTesla内製によるFSDベースとなっている。

 2019年現在でのNVIDIAのハードウェアを使ったDeep Learningとは、つまりNVIDIA GPUによる汎用的なコンピューティング機能=General Purpose GPU=CUDAを使っているので、よりASICに近いニューラルネットワーク専用ロジックを使えば電力効率や性能が向上できる。また、チップやチップを利用可能にするソフトウェア(いわゆるBSPやSDK)に要する開発コストを除外すれば、チップの単価が下がるのも理解できる。
 ただし、大手自動車会社・関連会社を何社も相手に何百万個ものプロセッサーを出荷するNVIDIAに対し、自社でしか使用しないプロセッサーを内製するというのは採算がとれるか難しい(例えばプロセッサーのリソグラフィーに必要なマスクを作るだけで数百万ドルのコストがかかる)。記事中ではテープアウトまで14カ月で開発したとあるが、逆に言えばEDA会社(Synopsys・MentorGraphics・Cadence・Arm・CEVAなど)がライセンスする既存のIPを組み合わせ、独自開発を極小化にしないと採算が取れないということではないかと思う。

 個人的に気になるのは開発時期である。TeslaはFSDを今年4月に発表しているが、出荷までにはテープアウト後6~12カ月程度かけて検証することになる(実際には、検証で不具合が出るとさらに遅延が発生する)。4月の発表時点でどの程度まで検証が進んでいたか不明であるが、仮に発表時点で開発に14カ月・検証に12カ月を費やしていたと仮定すると2017年2月頃に開発を開始したという計算になる。
 Teslaの自動運転ハードウェアエンジニアリングといえば、AMDでRyzenの開発を主導したJim Keller氏が担当副社長として在籍したことで知られ、Keller氏がFSDの開発に関与したという報道は無いが、時期的には奇妙に一致する(2017年2月~2018年4月)。

 一方のNVIDIAであるが、以前はGPGPUのリーダーとしてマシンラーニング環境の代名詞的な存在であったものの、近頃はGoogleはGoogle TPU・AWSは傘下Annapurna Infarentia・FacebookはIntel Nervana NPP-I/NPP-Tを利用しており、専用ハードウェアの登場で劣勢になりつつある印象が強い。
 そのNVIDIAはHot Chipsなどで2018年度の研究チップ(Research Chip 2018=RC18)を発表しているが、あくまで研究開発用なので製品化されるものではない。おそらくNVIDIAはGPU機能を持たない専用NPUを開発中と見られるが、その登場が待たれる。

Ryzen 4000シリーズはSMT4に対応か?

Rumor : AMD Zen 3 Architecture to Support up to 4 Threads Per Core With SMT4 Feature - WCCF Tech

 WCCF Techが報じた「ウワサ」であるが、ZEN 3ベースのAMD Ryzen 4000シリーズはSMT4に対応する可能性があるのだという。

 そもそものSMTであるが、一般向けとしてはIntelがPentium 4(Northwood)で採用したHyperThreadingが最初であるが、2セットのレジスタファイルやプログラムカウンターを用いることで2つのスレッドが1コアのCPU内で完全に並列で実行される技術で、当時はOut-of-Order実行と並んでパイプラインを埋める技術という認識が強かった。ところが、近年はCPUとメモリーの速度のギャップが年々開いており、CPUがメモリーを読み書きする遅延を隠ぺいする技術として認識されてきている。
 ちなみに、Pentium 4と同時期にマルチスレッド技術をCPUに持ち込んだSun Microsystems "Niagara"ファミリーは、専ら後者に注目しており、同時に実行できるスレッドはCPU1コアあたり1スレッドのみで、メモリーアクセスのイベントが発生する毎にスレッドが切り替わる仕様であった(参考)。このような方式はSMTに対してVMTと呼ばれている。

 SMTは上手く動作させれば10~20%程度の半導体リソース追加で20~最大40%程度のパフォーマンス向上を狙えるということで効率は良いが、シングルスレッド性能が向上するわけでもなく、むしろ並走するスレッド数が増えるとポート競合が発生しやすくなるため(この場合はシングルスレッド性能が低下する)、演算ユニットなどSMTを実装する1コアにリソースが潤沢にあることが前提となる。逆に、仮にSMT4やSMT8でポート競合が完全に無くなるほどのリソースを追加すると、1スレッド用小型CPU4コアや8コア分のリソースが必要になってしまいSMTである意味が無くなってしまう。バランスが重要となる。
 ちなみに、4並列以上のSMTは初めてではなく、IBM POWERファミリーでは前世代POWER 8・最新POWER 9でSMT8を実現しているが、POWER 9の場合は "64b slice" を8 sliceを束ねたような格好をしているが、"64b slice"はまるで小型CPUのような格好をしており1スレッドで専有される。共有されているのはキャッシュ・デコーダーなどのフロントエンドと除算ユニット・暗号エンジン・10進数アクセラレーターなど使用頻度が低い演算ユニットだけである。

 以下に、IBM POWER 9・AMD Zen 2・Intel Sunny Coveの各コアのスペックとスレッドあたりのリソースの量を示す。

 キャッシュの容量や各実行ユニットの数だけを見れば、Zen 2コアやSunny Coveコアの方が1スレッドあたりのリソースが潤沢そうに見えるかもしれないが、これはZen2やSunny Coveでは実行ポート1ポートに複数の演算機能をもたせているからである(ALU・FPU・SIMD・Load/Storeの数を足すと実行ポート数よりも多くなるのはこのため)。実際にはスレッドあたりの実行ポートの数についてはPOWER 9・Zen 2・Sunny Cove共に5~5.5とほぼ互角である。恐らく、1スレッドをOut-of-Orderで競合を避けつつ効率よく動作させるためにはこの程度のポート数が必要なのだろう。

 IBM POWER 9 (SMT8)AMD Zen 2Intel Sunny Cove
SMT SMT8 (per thread) SMT2 (per thread) SMT2 (per thread)
L1$I (KB) 64 KB 8 KB 32 KB 16 KB 32 KB 16 KB
Exec Ports 42 5.25 11 5.5 10 5
ALU 8 1 4 2 4 2
FPU 8 1 4 2 3 1.5
SIMD 8 1 4 2 3 1.5
Load 8 1 3 1.5 2 1
Store 8 1 2 1 2 1
L1$D (KB) 64 KB 8 KB 32 KB 16 KB 32 KB 16 KB

1ポートに複数の機能をもたせることはSMT2程度であればポート競合の回避には役立つだろうが、SMT4まで増やしてしまうとポート競合は回避できないだろう。

 AMDがZen 3でSMT4を実装するかどうか公式発表は無く不明だが、Zen 3は既に開発が完了しており来年に製品が投入されることから、Zen 2を拡張したものであることは確実と思われる。この場合Zen 3がPOWER 9のような構成に化けるとは考え難く、もしSMT4を実装するならばポート競合の多発とシングルスレッド性能の低下は避けられないだろう。
 HPCや軽量な処理が多スレッド発生するWebサーバーなどのワークロードではメモリーの遅延がボトルネックになることが多いため、SMT4にすることで多少はシングルスレッド性能を犠牲にしても全体的な性能を向上できる可能性がある(Sun Microsystemsが提唱したThroughput Computingのアイデアと同じである)が、ユーザー1人がリソースを占有するデスクトップ用途ではSMT4はパフォーマンス向上に繋がらない可能性が高い。

 もしAMDがZen 3でSMT4を実装する場合、IntelがHyperThreadingの有効/無効をXeon / Core i7/i5/i3 / Pentiumの製品毎に使い分けているように、製品毎でSMTなし/SMT2/SMT4を使い分けるのではと予想する。

# ただ、AMDはRyzenでもEpycでも半導体ダイを使いまわしているので、
# 果たしてRyzenで有効に使えないSMT4を実装してくるのかという点には疑問が残る。

CentOS 8がリリース

CentOS 8.0がリリース,ローリングリリース「CentOS Stream」もアナウンス - Gihyo.jp

 Red Hat Enterprise Linux 8(RHEL)のGAから4カ月を経てCentOS 8およびCentOS Streamがリリースされた。

 御存知の通りRHELはオープンソースで、ソースコードはほぼSRPM形式で公開されている。そのため原理的にはSRPMからRHELクローンをビルド可能であり、実際にCentOSはそうして作られているし、Oracle LinuxやAmazon Linuxも同様である。

 前置きが長くなってしまったが、ここで疑問なのがローリングリリースモデルを採用するというCentOS Streamである。
 ローリングリリースモデルのような高速なリリースサイクルの採用自体は理解できる。なにせ5月にRHEL 8が出るまで最新だったRHEL 7など2013年6月にリリースされたLinux Kernel 3.10を使い続けている。これはRed Hatが5年に1回程度の頻度でしか新バージョンを出さないためで、2年に1回の頻度でLTSが出るUbuntuとは対象的である。
 とはいえ、Ubuntuのようなポイントリリースならともかくローリングリリースというのは理解できない。Red Hatのローリングリリースには既にFedoraがあって差別化が難しく、その一方で従来のRHELとの互換性も低くなることが予想されるが、さらにそれをCentOSブランドで出すとなると、もはや位置づけがよく解らない。

 そもそも、Red Hatのリリースサイクル高速化は近年のDocker/Containerサポートに起因しているはずである。Dockerの機能拡張にLinux 3.10のまま対応することが難しく、同社はそれを解決するためにCoreOSを買収した。
 Fedoraと統合後のCoreOSがどのように運用されるのかまだ分からないが、Fedoraや旧CoreOSのようなローリングリリース版とRedHatブランドの企業向け有償版とが出ることだろう。この場合、恐らくRed Hat版は1年に複数回の高速なリリースサイクルを採用するだろうと予想する。これはDockerの更新頻度に追従は必要だが、Red Hatの顧客の大企業はローリングリリースに適応できないためである(ちなみにDocker Enterprise Editionのリリース頻度は3カ月に1度である)。
 それならば、CentOS Streamはそれに準じたものであるのがユーザーとしては理解しやすい。例えばRed HatブランドとCentOSブランドでそれぞれStream版とCoreOS版が3カ月に1回の頻度でリリースされる、といったような。

 以上は筆者の予想・希望なので、Red Hatが実際にどうするのか不明だが、解りやすい≒予測しやすく計画を立てやすいリリースモデルの採用を期待したいところである。

Wave ComputingのCEOが交代していた

CEO Leaves Wave, Putting MIPS' Future in Doubt - EE Times

 Hisa Ando氏の個人ページの記事で知ったのだが、Wave ComputingのCEOが9月2日に交代していたらしい。

 個人的な疑問はWaveの製品・顧客で、WaveはNPUのIP(TritonAI 64)を開発している企業だが、同社のニュースサイトを見てもTritonAI 64の発表以外はMIPS TechnologiesのCPUコアライセンスの話題しか掲載されていない。また、EE TimesにもMIPSの主要顧客としてMediaTek(同社が買収した旧Ralink系の家庭用ルーター製品用SoCにMIPS24KcやMIPS1004Kcなどが採用されている。MediaTek SoCは日本ではBuffalo WSRシリーズルーターに採用されている)やIntel傘下のMobilEye(EyeQ2から最新EyeQ5まででMIPS34KfやMIPS I6500-Fなどが採用されている)の名が挙げられているが、Waveの顧客の名は挙げられていない。

 背後にベンチャーキャピタルTallwood Venturesがついており、自身が儲けていなくても企業運営や企業買収などが可能とはいえ、あまり明るい未来は感じられない。


今週の興味深かった記事(2019年 第38週)

2019-09-21 | 興味深かった話題

Hot Chipsで発表されたNPU

Hot Chips 31はマシンラーニングが花盛り - マイナビ

 Hot Chips 31で多数発表されたNeural Processing UnitについてHisa Ando氏による解説が先日よりマイナビに掲載されている。

 個人的に印象深かったのは、各社が発表したNPUは学習 traning 用と推論 inference 用のプロセッサーが別々になっているケースが多かった点である。学習に使われるのが主にFP32・推論に使われるのが主にINT8であることを考えれば演算ユニットを分ける選択肢があるのは理解できるが、素人考えでは同じ装置を使い学習させ推論させる方が最適化などで有利だったり、運用も簡単なのではと想像していたので意外であった。

 しかしよくよく考えてみると、確かにHabana Labsが主張する通り長時間を費やす学習に対し推論にはリアルタイム性が求められるなど要求性能は大きく異なるし、また、Amazon・Microsoft・Google・Facebookといった大規模ユーザーの顔ぶれを考えてみても、同じ装置で学習と推論を実行する必要性は低く、また推論専用の装置にFP32演算機能を持たせるのは無駄であるから、確かに学習用NPUと推論用NPUに分けることは合理的と言えそうだ。

 もっとも、学習用と推論用を分けるといっても、Habana Labsが推論用Goyaと学習用Gaudiでほぼ同一のアーキテクチャーを踏襲しているのに対し、Intelは推論用Spring Hillと学習用Spring Crestで全く異なるアーキテクチャーを採用するなど、各社でアプローチ方法はまちまちに見える。

 ところで、私のような個人ユーザーからすると、NVIDIA GPUのような$100~500でAmazonで買えて学習にも推論にも使えるような装置の登場に期待したいところである。現状はNPUとしては汎用的なNVIDIA GPUを使うか推論専用のIntel MyriadやGoogle EdgeTPUに限定されてしまうのが残念である。

Oracleが同社クラウドサービスに無償メニューを追加

打倒AWSの切り札になるか Oracleがクラウドとデータベースを全世界で無料提供 - ITmedia

 AWSの無料利用枠の場合、EC2 t2.microインスタンスのほかS3 5GB分やRDSがサインアップから1年間だけ月間750時間(31日間)無償という制限になっている。そのため、無償のインスタンスは「お試し」用で個人サーバーなどの用途で常用することは現実的ではない。これがOracle Cloudでは仮想マシン2インスタンス・計100GBのブロックストレージ・計10GBのオブジェクトストレージ・データベース20GBまで無期限なので無償インスタンスのままでも何かに使えそうだ。

 もっとも、Oracle Cloudの無償の仮想マシンインスタンスは1/8 OCPU + RAM 1 GBだったりと、性能面での実用性は低そうなので用途はかなり限定されるのではと思われる(ちなみにAWS t2.microの場合は1 vCPU + RAM 1 GBである)。1 OCPUがIntel XeonまたはOracle SPARCの物理1コアということのようなので、仮に3.0 GHzのXeon 1/8コア分と仮定すると、性能の目安としては概ねRaspberry PiのCortex-A53 1.5 GHz x 4コアと同等と考えてよさそうだ。自宅でRaspberry Piサーバーを運用しているような人であれば、それをクラウドに移行してみても良いかもしれない。

# そもそも低コストなんだからケチケチせず有償で使えという声もありそうだが…
# 個人的には、無償枠縛りのRaspberry Piスペックでどこまで実用性を追求できるか試すのも面白そうだと思う

BackBlazeが値上げ

Backblaze、ここ10年で初の1ドルの値上げ - マイナビ
Raising Prices is Hard - BackBlaze

 値上げ自体は今年3月に実施されたようだが、意思決定の舞台裏についてのブログポストが9月17日付で投稿されたらしい。
 値上げというと印象は悪いが、よくよく調べてみると、これまでの利用額から$1/月の値上げされ容量無制限で$6/月となったらしい。これは個人利用限定の価格設定とはいえ容量無制限で$6/月という低価格には驚かされる。

 2年間で$110というプランもあり、USB接続HDD 8TBが$130であることを考えると6~8TBほどバックアップするような人であれば実用性が高そうだ。

# 個人的には大容量データはすべてNASに保存しているため、NASがバックアップサービスに対応しないと実用に耐えない


今週の興味深かった記事(2019年 第37週)

2019-09-15 | 興味深かった話題

NetCAT

The NetCAT is out of the bag: Intel chipset exploited to sniff SSH passwords - The Register
NETCAT - VU Sec

 2018年初のMeltdown/Spectre以降、Intel CPUに関連する脆弱性の報告が相次いでいるが、今回はData Direct IO(DDIO)に関するものである。

 詳細はThe RegisterおよびVU Secの記事を御覧頂くとして、難しいのは脆弱性の対象となる構成がやや不明瞭な点にある。The Registerには以下のようにある。

... requires the eavesdropper to have compromised a server that has a direct RDMA-based Infiniband network connection to the DDIO-enabled machine ...

RDMAはRemote DMAのことで、NFSやiSCSIなどのネットワークストレージでリモートからDMAアクセスする機能である。NFSやiSCSIでよく利用されるとはいえ、NIC(ネットワークアダプター)が対応している必要があり、データセンターはともかく消費者には一般的とは言えない。もっともRDMAだけであればAWS EC2 Enhanced Networkingでも使用している。問題はInfiniBandの方である。
 InfiniBandとなると対象となる環境は限られてくる。例えば、私の理解する限りではAWS EC2 Enhanced Networkingは40Gbit以上のEhternetでInfiniBandではない。ところが、IntelサイトによるとDDIOはInfiniBandに限らない。

... Intel DDIO has no hardware dependencies and is invisible to software, requiring no changes to drivers, operating systems, hypervisors, or applications. All I/O devices benefit from Intel DDIO, including Ethernet, InfiniBand*, Fibre Channel, and RAID.

脆弱性がDDIO全般に及ぶのであればInfiniBandに限らずEthernet・Fibre Channelなども対象となりそうだが、脆弱性を発見したVUSECサイトにもInfiniBandとは明記されていない。また、EthernetアダプターでInfiniBandプロトコルを使うRoCEの場合は脆弱性の対象になるのか?という疑問もある。

Huawei Ascend SoC/DaVinci NPU

エッジからデータセンターまで幅広く活用可能なHuaweiのDaVinci - マイナビ
Tesla V100の2倍以上のピーク演算性能を達成したデータセンター用DaVinci - マイナビ

 HuaweiがHotChipsにてAscend SoC/DaVinci NPUファミリーについて発表したらしい。
 私の理解する限り、Neural ProcessingはHuaweiに限らず中国および中国企業にとって極めて重要なパラダイムの変遷である。例えばCPUには長い歴史があり(例えばIntel i4004が登場したのは1971年のことである)、メジャーなCPUベンダーは膨大な数のパテントを抑えエコシステムを構築済で、新参の中国企業がCPUでIntelやIBMといった企業に勝つことは難しい。
 その点で、パラダイム変遷は新興企業に大きなチャンスをもたらすことになる。例えばスマートフォンの登場はNokia・Ericssonといった古参の端末ベンダーやTexas Instruments・ST Microelectronicsといった組込プロセッサーベンダーを市場から蹴り出し、代わってApple・Huaweiなどに繁栄をもたらした。同様に、Neural ProcessingはCPU・GPUといった従来のハードウェアでは絶対に米国企業に勝てない中国企業にもチャンスをもたらす可能性がある。

 しかしAscendを見ると、また違った側面に気付かされる。Ascendで特徴的だと思うのが高度な動画デコード/エンコード能力である。記事から引用すると、以下のようにある。

(前略)...Ascend 310は電力効率の高いエッジ用のSoCである。FP16で8TFlops、INT8では16Topsのピーク性能を持つ。それに16チャネルのH.264/265のデコード、1チャネルのH.264/265のエンコードができる。
(中略)…Ascend 910はFP16で256TFlops、INT8では512Topsのピーク性能を持つ。そして、128チャネルのH.264/265のデコードができる。

「Deep Learning」などと検索すればわかる通り、マシンラーニングと画像認識との結びつきは強い。例えば自動車の自動運転においてもカメラが捉えた映像/画像を認識して追跡したり回避したりといった判断を行うことになる。そこで、Intel MyriadやIntel Nervana NPP-I1000などの一部のプロセッサーはニューラルネットワーク処理用とは別に画像処理用や音声処理用のロジックをもっている。とはいえ、自動車用であればカメラがあっても7基(前方x3・左右各x1・後方x2)といった具合で、その中で16チャンネル・128チャンネルの動画デコーダーというのは文字通り桁違いである。

 しかし、Huaweiという会社の背景を考えてみれば納得がいく。つまり監視カメラ用である。
 中国では政府による監視が取り沙汰されている(参考1参考2)。これらの政府御用達の監視技術に用いられているのがHuaweiなのか別のベンダー製なのかは不明だが、Huaweiの成り立ちが元人民解放軍所属の軍事技術関係者であることからも、その可能性は高いのではと推測する。

 ところで、Tesla FSDやHuawei Ascendの登場がNVIDIAにもたらした影響はいかがほどだったかと愚考せずにはいられない。過去3年ほどの間、NVIDIAはTensorCoreやDLAといったNeural ProcessingのAcceleratorをGPUに統合する道を選んだ。言い換えればNVIDIA Teslaは汎用的なGraphic Processing Unit(主)にNPU(従)を統合したものであって生粋のNPUではない。それはそれで間違いではなかったのだろうが、これほどNeural Processingに特化したプロセッサーが登場すると、NVIDIAのGPUは性能的にもコストパフォーマンス的にも見劣りしてしまう。Xavierなどはその最たる例で、自動運転用にあれほどのGPUが必要なのか?と思わずにはいられない。GPUに統合されていないNPUの登場が待たれるところである。


今週の興味深かった記事(2019年 第36週)

2019-09-08 | 興味深かった話題

Samsung Exynos 980, Huawei/HiSilicon Kirin 990

Huawei Kirin 990 & Samsung Exynos 980 are the First Mobile SoCs with Integrated 5G Modem - CNX Software

 最先端プロセスである7nm/8nmが非常に高価であるせいもあるのだろうが、なんとも難しい構成である。

 Samsungが発表したExynos 980・Huawei/HiSiliconが発表したKirin 990に、現行のプロセッサーを比較してみた。
 まずはSamsungであるが、前世代Exynos 9820/9825とExynos 980との比較で気になるのはCPUの変更である。Armの新開発Cortex-A77は非常に高いパフォーマンスが予想されているとはいえ、Samsungは独自実装のExynos MシリーズCPUコアを持っており、Exynos M4 2.73 GHzとCortex-A77 2.2 GHzとでは前者の方が高速ではないかと想像する。ミッドレンジコアの省略やGPUが同じMali-G76ながらMP12からMP5への大幅削減も併せて考えると、5Gモデムの消費するリソースが相当に大きく、半導体バジェットの制限からCPUやGPUを削減したのではと推測する。
 Huaweiはスペック表だけで見れば、Kirin 980をシュリンクして5Gモデムを統合しただけという感じだ。CPUはやや動作周波数が向上しているが高性能なCortex-A77の搭載は見送っており、一方でGPUは同じMali-G76ながらMP10からMP16に拡張している。

 先入観なしにExynos 980とKirin 990を比較すると、多くのワークロードで後者の方が優れているのではないかと思われるが、そもそもSamsung・Huaweiとも自社製プロセッサーを外販していないため搭載端末がSamsung製端末・Huawei製端末に限られる。言い換えればAndroid OSの動作も微妙に異なってくるし、Huaweiに至ってはEMUI Androidから独自のHarmony OSへの移行が決まっており単純比較はできない。さらに言えば、Huaweiについては米中貿易摩擦によりArmもHuaweiへのプロセッサーライセンスの停止を検討中と報道されており、いつプロセッサーの製造が停止されるか分からない。
# 勝手な想像だが、Kirin 990にCortex-A77が搭載されなかったのはライセンスを取得できなかったせいかもしれない。

 New GenerationCurrent Generation
Samsung
Exynos 980
Huawei
Kirin 990 5G
Samsung
Exynos 9825
Huawei
Kirin 980
Qualcomm
Snapdragon 855+
High
Perormance
Arm Cortex-A77
2.2 GHz x2
Arm Cortex-A76
2.86 GHz x2
Samsung Exynos M4
2.73 GHz x2
Arm Cortex-A76
2.60 GHz x2
Arm Cortex-A76
2.96 GHz x1
Moderate N/A Arm Cortex-A76
2.09 GHz x2
Arm Cortex-A75
2.4 GHz x2
Arm Cortex-A76
1.92 GHz x2
Arm Cortex-A76
2.42 GHz x3
Low Power Arm Cortex-A55
1.8 GHz x6
Arm Cortex-A55
1.95 GHz x4
Arm Cortex-A55
1.95 GHz x4
Arm Cortex-A55
1.80 GHz x4
Arm Cortex-A55
1.80 GHz x4
GPU Arm Mali-G76 MP5 Arm Mali-G76 MP16 Arm Mali-G76 MP12 Arm Mali-G76 MP10 Qualcomm Adreno 640
Integrated
Modem
3G/4G/5G 3G/4G/5G 3G/4G 3G/4G 3G/4G

今週の興味深かった記事(2019年 第35週)

2019-09-01 | 興味深かった話題

Intel Lakefield発表

Intelが3D積層のヘテロジニアスマルチコアCPU「Lakefield」の技術を発表 - PC Watch

 目玉は3Dスタッキング技術Foverosの初採用だが、ユーザー視点で見るとどういうマーケットを想定しているのか分からない。
 Foveros技術とFoverosを採用したLakefieldプロセッサーの概要は1月に発表済である(ちなみに、このときのプレゼンテーションビデオはYouTubeで観ることができる)が、高性能Core系コアは1コアのみでAtom系コアが4コア、パフォーマンス/消費電力でいうとCore Yクラスでマーケットは大きくない。消費電力だけで言えばAndroidタブレットもありえるのだろうが、Intelアーキテクチャー採用となるとChromebookぐらいしかない。薄型のWindows 2-in-1を作れなくもないのだろうが性能的に厳しいかもしれない。その一方で、3Dスタッキングでコストが増加しているはずだがパフォーマンスが低いのであまり高価では売れないのではないか。

 勝手な想像だが、Foverosは今後は様々な製品で採用されることになるのだろうが、現時点では新技術で歩留まりや発熱に不安がある。言い換えると広く出回るCore i3/i5/i7では採用し辛く、相対的に小さい≒失敗してもダメージが小さいマーケット向けにしたのかもしれない。

 Foverosは3DスタッキングでAMDのMCMとは異なるが、いずれもCPUを高価な最先端プロセス(10nm/7nm)・I/Oを大電流に適した大きめのプロセス(14nm/12nm)で作り、組み合わせているという点では似ている。

IBMがPOWER ISAをOpen Source化

Get your royalty-free soft-core OpenPOWER processor core blueprints here - TheRegister
IBM's Power-ful open source gift - ZDNet

 IBMが、RISC-VやArmに対抗するためだろうが、POWER ISAとリファレンスデザインのOpen Source化に踏み切った。
 IBMがOpenPOWERを始めた2013年時点では、Armの脅威度は上がっていたしApple MacOSがPowerPCからIntelに移行済で勢いは衰えていたものの、まだサポーターがいた。旧Freescaleは蘭NXPによる買収前でPowerPC版QorIQを展開していたし、旧LSI(現在はBroadcomの一部)はRAID HBAでPowerPC 476を採用していた。また、AppliedMicro(現在はMacomの一部)はIBMよりPowerPC 400シリーズを買収して組込製品の展開を始めていた。
 しかし、Avagoに買収されBroadcomの一部になったLSIはCPUの自社開発はやめArmを採用しているし、MacomはAppliedMicroが自社開発していたCPUを売却した。NXPはFreescaleの事業を引き継いでいるが、マイクロプロセッサーの主力はArmベースのi.MXとQorIQ LayerScapeシリーズでPowerPCベースの新しい製品は古い製品が残っているのみである。まさに四面楚歌といった状態である。

 ちなみに、POWER/PowerPCプロセッサーは米軍・NASA関連で広く採用されており、戦闘機に搭載されるようなコンピューターのプロセッサーは概ね旧FreescaleかIBMのPOWER/PowerPCである。そのためNXPやIBMがPOWER/PowerPCを簡単に止めることは考えられないが、サポーターが減るとビジネスが難しくなる。

 とはいえ、公開されたのはPOWER ISA(命令セット)でマイクロプロセッサー自体は自前で開発する必要があるし、公開されたソフトコアプロセッサーMicrowattはFPGAなどに実装して使う分にはいいが、単体で製品化できるようなものではない。

 一方、ZDNetでは今回のIBMのアクションに関して、winnerとloserを記事にしているが、的外れだろう。
 まず、上述の通りOpen Sourceになったのは命令セットとMicrowattという小規模なソフトコアのみで、POWER9のような最高性能・最先端プロセッサーが公開になったわけではないから、中国やロシアのような米国と敵対する国々にとっても「x86やArmに依存しなくていい」以上の意味はないし、命令セットに関わらず数億トランジスターレベルのCPUを設計する技術がなければ最先端CPUを設計することはできない(そして、その点では中国は既にMIPSを取得済である)。
 また、上述の通りPOWER/PowerPCのサポーターの減少が問題となっているから、採用するベンダー(記事中ではAppleやMicrosoftなど)が劇的に増加するとは想像し難い。クラウドベンダーについても既にGoogleはRackspace/IBMと共同で"Zaius"を採用しているし、AWSやAzureがGoogleに続いてPOWERを採用する可能性はあるが、ZaiusでもプロセッサーはIBM POWER9そのものでGoogleがCPUを設計したりはしていない。投資やリスクが馬鹿にならないので既製品を使うというのは妥当に思える。仮にAWSやAzureがGoogleに続くとしても今回のPOWER ISA公開とは無関係だろう。
 逆に、記事中のLoser側も妥当性に欠ける。

フッ化水素輸出管理/DRAM問題はどうなった?

日本、サムスン電子向けフッ化水素輸出を許可 - Bloomberg
フッ化水素の韓国向け輸出許可 管理強化後初めて - 日本経済新聞

 一部メディアで、8月30日にステラケミファからサムスン向けの輸出申請が許可されたという内容が報じられたが、逆にほかの一部のメディアではフェイクニュースだという話もでてきている。実際、日経の記事にも以下のようにある。

ステラケミファの広報担当者は「30日朝の時点で経済産業省から通達は来ていない」と述べた

 対韓国のフッ化水素の輸出問題は、ホワイト国(グループA)からの除外に関する輸出管理の強化であって輸出規制ではないので、きちんと書類を揃えて申請すれば許可されないと逆に日本がWTO違反になってしまう。もちろん、その書類も用途の内容が製造する工程表や配管図なども求められるそうで簡単に揃えられるものでもなかろうが、とはいえ1カ月超も輸出されていないというのは驚かざるをえない。

 ところで、私は半導体製造に詳しくはないが、製造する工程表や配管図というのは企業秘密には違いなかろうが輸出許可申請のために門外不出とか、それが漏れたら他社にシェアを奪われる、という「秘伝のタレ」的なものとも思えない。

 その理由は、まず、そもそも半導体の製造方法のおおまかな材料やメーカー・露光パターンなどは決まっているからである(参考1参考2参考3)。最先端プロセスならどこも蘭ASMLの光源と独Carl Zeiss SMTのレンズを使った装置を使って露光させているし、材料もシリコンウェハーなら日本のSumcoやSEH(信越半導体)や独Sitronicあたりで決まっている。話題のフッ化水素だって森田化学とステラケミファがシェアの大部分を抑えている。露光時間などのより細かい工程や薬品のレシピは門外不出の企業秘密だろうが、役人に提出するレベルの工場の配管図や工程表で大きな打撃を受けるほどとは思えない。

 また、NANDやDRAMの市場の特殊性が挙げられる。NANDやDRAMは技術的にはIntelやIBMが開発・生産するようなマイクロプロセッサーに比べ難易度は低いものの、その一方で大量生産・ダンピングに近い価格で販売・シェアを奪ってライバルを蹴落とすということが横行しており、企業体力がある巨大企業でなければ市場で生き残れないなど、技術以外による部分が大きい。そのため、日本製ではDRAMは米Micron(旧Elpidaを買収)、NANDは米Western Digital/東芝(Kioxia)ぐらいしか競合が存在しない。かといって機密情報が漏洩していい理由にはならないが、技術が漏洩すると一朝一夕でライバルが出現するというような市場ではない。

 ちなみに、DRAM eXchangeのインデックスDXIは連日で値下がりを続けており、7月初旬の底値にこそ達していないが2カ月かかってようやく6月上旬の水準まで下がった。これは需要が停滞しているとみられる中で、生産量は微量ながらも増加を続けているからだろう。その一方で、私が個人的に購入を考えていたSamsung製DDR4 2666 32 GB ECC Unbuffered DIMMは取扱店が消えた(※モジュール単体で32GBはほかに見つからなかった)。

Sony MDR-M1ST

伝説のモニターヘッドフォン再び、ソニー「MDR-M1ST」を「CD900ST」と聴き比べる - AV Watch
ソニーが新モニターヘッドフォン「M1ST」で求めた音。定番機CD900STとの違いは? - AV Watch

 SonyのMDR-CD900STというと30年ほども前からモニターヘッドフォンの定番で、スタジオモニターとしては珍しく一般消費者のオーディオマニアにも受けが良い(※調べてみてもらえると分かるが、スタジオで使用されている機器とオーディオマニア御用達の機器とではブランドも製品も全く異なる)。
 音質もさることながら15000~18000円程度で購入できるという手軽さも要因だろう。私も宅内使用用の高音質ヘッドフォンについて訊かれれば迷わずMDR-CD900STを勧めていた。一般人でも手の出しやすい価格だと思う。

 新モデルMDR-M1STにも俄然興味がそそられる。個人的に大きいと感じるのは入力インピーダンスで、MDR-CD900STでは63 ohm (1kHz) とポータブル機器との組み合わせには適さなかったが、MDR-M1STでは24 ohm (1kHz)なのでヘッドフォンとしては大きくなく、恐らくポータブル機器との組み合わせでも使えるだろう。
 気になるのは値段で31500円というのは安くない。MDR-CD900STから30年間のインフレ・高性能化を考えれば妥当なのだろうが、予算3万円とすればAKG K240 MKIIなど他も選択肢に入ってくる。


今週の興味深かった記事(2019年 第34週)

2019-08-25 | 興味深かった話題

Intel Nervana NPP-I 1000

Intel NNP-I 1000 Spring Hill Details at Hot Chips 31 - ServeTheHome

 本製品はIntelが買収したNervanaによる製品で、Intelはターゲットの異なる製品群を持つNeural Networkプロセッサー会社をかれこれ三社も買収している。消費者向けビジョンプロセッサーのMovidius、車載自動運転補助のMobilEye、そしてデータセンター向けプロセッサーのNervanaである。ちなみに、MovidiusとMobilEyeはイスラエルの会社であるがNervanaはシリコンバレーの会社である。

 記事中の写真ではSpring Hillの巨大なダイにLPDDR4Xのダイがオンパッケージで接続されているように見える。写真では大型のチップに見えるが、基板の規格がM.2 22110だとすると横幅が22 mmしかないことになる。統合されているCPUコアがSunny CoveであることからIntel 10nmプロセスで製造されていると推測できる。
 ところで、Intelは第10世代CoreからCoreプロセッサーとしてのコードネーム(例:Coffee Lake・Ice Lake・Comet Lakeなど)とは別にCPUコアにもSunny Coveという名称を付けている。これは推測するに、Coreプロセッサーの名称とコアの名称がイコールでなくなるからであろう。これまではCoreプロセッサーだけに統合してきたためCoreプロセッサーの名称≒コアの名称と考えて問題無かったが、今後はNervanaプロセッサーに統合したり、あるいはFoverosマルチチップ技術などによって異種コアと混載されたCoreプロセッサーが登場するからであろう。

 どういう訳か、M.2というとイコールNVMe SSDかWi-Fiアダプターという風潮があるが、M.2は物理フォームファクターの規格で、プロトコルはUSB/SATA/PCIe等で選択可能(切り欠きによって対応プロトコルを区別している)なので、このようなNeural Network Processor等も接続可能である。もっとも、縦横だけでなく厚みなど物理形状に制約があるため、電気的には実現可能でもGPUやRAIDコントローラーなどは製品化しにくいであろうが。

 INT4/INT8/FP16のみの対応で推論のみに対応しているが、50w・92 TOPS (INT8)ということで、Google TPUv3(学習も対応でbFP16で90TFLOPS)・AWS Inferentia(推論のみ100TOPS)・Qualcomm AI100(推論のみ350TOPS)などと比較すると見劣りするが、一方で低い消費電力(50w)・狭いインターフェース(PCIe x4)・さらに記事中のFacebookのGlacier Point V2ボードにM.2スロットが6ポート設けられているように、パフォーマンスが必要な場合は複数モジュールを束ねて使用する思想なのかもしれない。
 Nervanaからは既にNNP T-1000(Spring Crest)が発表済みであるが、NNP I-1000は推論(Inference)用・NNP T-1000は学習(Training)用ということのようである。

Cray Rosetta

How Cray makes Ethernet suited for HPC and AI with Slingshot - The Next Platform

 8月14~16日の日程で開催されたHot Interconnect 26でCrayのCTOがキーノート スピーチを行い、Slingshot/Rosetta ASICについて説明したらしい。
※注:どうやら、Slingshotはインターコネクト技術全体を指し、RosettaはスイッチASICを指すらしい。

 このRosetta ASICは注目に値する。なにせCrayのようなHPCベンダーが単なるPCクラスターベンダーと異なるのは、インターコネクト・コンパイラー・OS・MPIなどシステムとしての統合技術が差別化要因によるわけだが、Crayはそのインターコネクト(Gemini、Ariesなど)を2012年にIntelに売却してしまい先行きが心配されていた。それにも関わらず、そのCrayが今年後半から出荷されるShastaシステムにおいて独自新インターコネクトを持ってきたためだ。

 さらに、米国エネルギー省が2020年前後に国立研究所(オークリッジ国立研究所・アラゴンヌ国立研究所・ローレンスリバモア国立研究所・NERSC)に設置するエクサスケールのフラッグシップHPCは3台が計画されていたが、CrayはShastaシステムでその3台すべてを落札した。

SiteSystemYearContractorBaseCPUAccel.Note
DOE LBNLPerlmutter (NERSC-9) 2020 Cray/NVIDIA/AMD Cray Shasta AMD Epyc NVIDIA Volta Next Pre-Exascale
DOE ArgonneAurora (A21) 2021 Intel/Cray Cray Shasta Intel Xeon Intel Xe 1 Exa Flops
DOE ORNLFrontier 2022 Cray/AMD Cray Shasta AMD Epyc AMD Radeon Instinct 1.5 Exa Flops
DOE LLNLEl Capitan 2023 Cray Cray Shasta TBD TBD > 1.5 Exa Flops

 IntelがCrayのインターコネクトの買収に14,000万ドル・NVIDIAがMellanoxの買収に69億ドルを支払っていることを鑑みれば、Crayが簡単にインターコネクトを作れるはずがなく、NextPlatformの記事では、Rosetta ASICはBroadcom(Tomahawk III)かMellanox(Spectrum-2)あたりのスイッチAISCを買って来たと見ているようだが、どうも詳細が不明瞭で分からない(個人的には、もし本当にBroadcomやMellanoxの製品の流用ならBroadcomやMellanoxが登壇するべきじゃないかと思うのだが…)。

 そもそもの話として、Slingshotは詳細こそ不明だがEthernet互換技術が売りとされている。とはいえ通常のEthernetは汎用性が高く=ソフトウェア処理が多く・プロトコルスタックが重厚であるため、そのままでは遅延が大き過ぎる。逆を言えば、ある程度の汎用性を捨ててハードウェア処理を増やしプロトコルスタックを薄くすることで遅延を減らすことは可能で、実際にRoCEというEthernetハードウェアにInfiniBandプロトコルを組み合わせた高速Ethernet互換技術が存在する。ちなみにBroadcom Tomahawk IIIやMellanox Spectrum-2はEthernetスイッチであるがRoCEをスイッチできる。
 記事中にはRCoEとSlingshotの遅延の比較グラフが載っており、いかにSlingshotが遅延を減らしたかが分かるが、恐らくはRoCEと同様にEthernetハードウェアに軽量なプロトコルスタックを載せているのだろう。

 あと、個人的に疑問なのはネットワークアダプターである。過去のCrayのインターコネクト(例:Aries)ではPCI-Expressインターフェース・ネットワークコントローラー・48ポートルーターを統合したASICで、独自のDragonflyトポロジーを採用し外部にスイッチを必要としなかった。今回はネットワークコントローラーとスイッチASIC=Rosettaが分かれているようだが、全体像としてどうなるのか気になるところである。


先週の興味深かった記事(2019年 第33週)

2019-08-18 | 興味深かった話題

DRAM価格動向

Market Activity - DRAM eXchange

 先週/今週のニュースというわけでもないのだが、DRAM価格が再び値下がりを開始した。
 日本政府によるフッ化水素輸出の厳格化(※ホワイト国≒最恵国待遇から普通の待遇にするという話なので、輸出規制ではない)のニュースを受けて一部メディアが騒いだ関係で価格が10~20%ほど跳ね上がっていたが、急激に値下がりしはじめている。

 韓国政府が、日本政府によるホワイト国からの除外への報復(上述の通り輸出規制でもないので、明確なWTO違反であるが)としてDRAM等の輸出を禁止したようだが、DRAMについては米Micronほか台Nanyaなども生産しているほか、NANDについても米Micronのほか米Western Digital・東芝が生産しているので特に影響はない。

 唯一、Samsung・SK Hynixのみ製造していて影響が懸念されるのはHBM2(あと細かい話ではGDDR5X・GDDR6なども一部GPU用メモリー)である。消費者レベルではHBM2はNVIDIAやAMDのGPUでの採用が知られているが、これらはそもそも日本ではなく中国・台湾で製造され、完成品の基板の形で日本に輸入されているので直接は影響がない。これはソニーのPlayStationでも同様と思われる(台湾Foxconnが輸入すればいい)。
 影響がありそうなのは富士通/理研が構築中の次期フラッグシップHPC=富岳に搭載されるA64FXと、NECがHPC向けに販売しているSX-Aurora Tsubasaベクトルプロセッサーであるが(←これを実際に取扱っているSIerのオッサンたちがこんな中二病ネームを連呼しいる姿とか想像できない…)、いずれもプロセッサー本体は台湾TSMCでの製造なので恐らくはTSMCがHBM2を輸入・パッケージングすれば済む話だろう。

Huawei Harmoniy OS

組み込みOS業界の黒船となるか、ファーウェイの「HarmonyOS」 - @IT

 発表から一週間ほど経ったが、いまいち内容が明確でない。
 マイクロ カーネルのくだりは、30年ほど前にあったモノリシック vs マイクロ カーネル論争でマイクロ カーネル支持派が主張していた内容と大きな違いはなく目新しさはない(そして、特定用途用を除けばメジャーなOSはいずれもモノリシック カーネルあるいはモジュラー化されたハイブリッドカーネルである)。

 記事中にある分散アーキテクチャと分散仮想バスというのも記事の中身だけではよく分からない。
 マイクロ カーネルでは必然的に従来カーネルが提供してきた機能が分散されたサービスとして提供されるが、サービス間の通信の遅さは問題点でもあるので、単に「分散アーキテクチャ」といわれても優劣を判断できないし、多数の通信プロトコルを抽象化してパスをひとつにするというのは管理が容易そうな反面、多数の通信のうち重要な通信を優先制御するQoSが無ければ、うまく動作しないのではないかと思う(タスクの優先制御については述べられているが、通信の優先制御はまた別の話である)。
 また、タスク実行の優先制御と遅延についても述べられているが、優先制御されることが良いとも一概にはいえない。ハードウェアでもソフトウェアでもそうだが、優先度の高いタスクを低遅延に処理させるために、遅く処理して構わないタスクの処理をキューに溜めて遅延させる必要がある。逆説的に言えば、優先されるタスクにリソースを空けておく必要があるため処理の効率は落ちる。PCなどで、あらゆるタスクを総合的に高速に実行したい場合は極端な優先制御はしない方が良いが、車載など人命に関わる場合はそういうわけにはいかない。用途に合わせた匙加減の問題である。記事中には「Linuxと比べてアプリケーションの応答遅延を25.7%削減できる」というが普通のLinuxカーネルは上述の理由でリアルタイム処理に最適化されていないし、逆に組込向けやAutomotive Grade Linuxなどであればリアルタイムに最適化されたカーネルもあるはずで、一概にどれが正しいとは言えない。

 本稿で私=素人が指摘しているような内容は、当然Huawei内部では研究・検討・対策もされているのであろうが、その内容を見られるような発表には見えなかった。

 あと、消費者目線ではAndroidとのアプリケーションレベルの互換性が気になるところであろうが、Ubuntu Touch・Jolla Sailfish・Palm webOS含め、いずれも成功していない。Goole Playストアの有無は大きいのではと思われる(中国以外では)。そもそも中国国内ではGoogle Playが使えないためBaiduやTencentを引き続き使えばいいのかもしれないが、中国以外では普及しないだろう。
 Ubuntu TouchやChrome OSはAndroidをコンテナーで動かす仕組みで実現しているが、Harmony OSはLinuxカーネルベースではないため、この方式は実現が難しそうだ。


先週の興味深かった記事(2019年 第32週)

2019-08-11 | 興味深かった話題

Exynos 9825

Samsung Announces the Exynos 9825 SoC: First 7nm EUV Silicon Chip - AnandTech

 恐らく、新規プロセスのためリスク低減を狙った結果ではないかと推測するが、AnandTech記事中にもある通りExynos 9820からの強化は限定的で、機能的には「次世代」とは呼び難いが、新規のEUVプロセスを採用したことを考慮すれば無理からぬ話ではある。
 有名なIntelの昔のTick-Tockモデルを例にとると、既存のリスクの低い製造プロセスを使ってリスクの高い新アーキテクチャーのプロセッサーを実装し、新規のリスクの高い製造プロセスを使って既存のリスクの低いアーキテクチャーのプロセッサーを実装することでリスクを低減する。とはいえ、製造面のリスクは消費者の知った話ではないし、次世代Galaxy S11では別のプロセッサーが用意されるのだと期待したい。

 気になるのは、9820では実装されていたShared complex sL3 @ 4MBの記載が無い点だろう。単に記載が省略されているだけなのか、廃止されたのかは不明である。
 EUVでは、初期投資はともかくリソグラフィーのコストは12/8nmまで使われていたクアドパターニングよりは下がると見られており、半導体サイズは大きく(≒高コストに)しやすいはずで、大容量キャッシュを搭載している可能性は高い。

NVIDIAのディスクアクセス技術

Nvidia GPU Accelerators Get A Direct Pipe To Big Data - NextPlatform

 昔、NVIDIAはx86 CPU開発の可能性を模索していた時代もあったようだが、現在はCPUに依存しない/CPUを経由しない演算に注力しているように見える。

 これは不思議ではない。例えば東大/産総研のABCIなどの場合もXeon Scalable 2基にNVIDIA Tesla V100 4基で構成されていて、演算における比率はCPUよりもGPUの方が大きい。今やHPC/クラウドで実行されるワークロードはGPUへの依存度が高く、さらに増え続けている。システムの制御は相変わらずCPU依存とはいえ、例えばどのビッグデータを処理するか制御するのはCPU経由となるかもしれないが、全てのデータをCPU経由で読むのは効率が悪い。

 もっとも、NVIDIAは今回の発表をMellanox買収に合わせてきた感じが強く思える。現在のHPCなど大型のシステムではデータは外部ストレージに格納されているが、そのネットワークアダプターはCPU側の制御されている。この従来型の構成では必然的にデータはCPU/メインメモリー経由となる。
 Nextplatformの記事で興味深いのはCPU・GPU・ネットワークアダプターを接続しているのが一般的なチップセット(つまりPCIe-to-PCIeブリッジ)ではなくPCIe Switchである点で、つまりネットワークアダプターはCPUとGPUの両者にホストされている。だからGPUからネットワークアダプターを直接制御して、データをメインメモリーを通さずにGPUーメモリーに直接ロードできる。
 とはいえ、このような構成が現在一般的かというと怪しい。もっとも、Intel Xeonの弱点のひとつはPCIeのレーン/リンクの少なさ(参考:AMD Epyc 128レーンに対し、Skylake-SP 48レーン)で、GPU・InfiniBand EDR・チップセット・NVMe…と接続してしまうと枯渇してしまうため、PCIeスイッチは意外によく見かける。現在はXeonをホストにGPUやInfiniBandをデバイスとしてスイッチ経由で接続している状態であるが、ハードウェアは似た構成のままでGPUをInfiniBandのホストとすることは可能かもしれない。

 いずれにせよ、NVIDIAがTesla GPUとMellanoxのInfiniBandを統合的に利用可能とすることでBigDataやTensorプロセッシングの効率は上がりそうだ(この場合はGPUに搭載されるメモリーの容量も増やす必要がありそうだ)。


今週の興味深かった記事(2019年 第31週)

2019-08-03 | 興味深かった話題

理研/富士通 京コンピューターがGraph500 9連続1位

スパコン京が有終の美 ビッグデータ処理 V9 - 神戸新聞

 京コンピューターがTop500のGraph500で首位を記録し、4年半連続となる9連続で首位をマークしたらしい。
 京コンピューターは8月末に運用終了の予定であるが、今でも批判が絶えず、その一部は事実に反する。事実と反するコメントで最大のものは「ベンチマーク番長(ベンチマークでしか存在感が無い≒実用的でない、という意味)」というものだろう。

 現在のHPCの主流はTop500で首位のSummitに代表されるような汎用プロセッサー + アクセラレーターを組み合わせたハイブリッド構成であるのに対し、京/富岳は汎用プロセッサーのみを使ったHPCである。アクセラレーターはピーク性能を得やすいが複雑で並列化/ベクトル化されていないような処理では性能が大きく劣化する。これに対し汎用プロセッサーでは比較的性能の劣化が小さい。
 これは決してアクセラレーターが汎用性が低いとか、ハイブリッドな構成はベンチマークでしか強くない、といったような意味ではなく議論の絶えない話題であるが、汎用プロセッサーのみの構成はコストパフォーマンスは低いが汎用性が高い。Graph500でトップというのも納得の結果と言える。

 京コンピューターはHPLinpackを使うTop500トップからの陥落は早かったが、今年6月のランキングでもビッグデータ処理を想定したGraph500で首位のほかHPCG 3位にランクされており、汎用性は高いはずである。

AMD Zen 2とTSMC 7nmの特性

AMDアーキテクチャの変化の原因となった7nmプロセスの特性 - PC Watch

 後藤氏がTSMC N7について解説されているが、個人的に気になるのはZEN3以降である。
 もし、ZENが登場した2018年初頭に、ある程度CPUアーキテクチャーに詳しい人にZENの未来の姿(ZEN2またはZEN3)を予想させるとすれば、現在のZEN2に比較的近い姿を予測することができたはずである。それは、ZENの弱点が明らかだったからである。では、ZEN2の詳細が明らかになった今、ZEN3は予測できるか?というと、なかなか難しいのではないか。

 後藤氏は記事中では淡々とTSMC N7について解説されているが(それが趣旨なので)、気になるのは僅か74平方mmというZEN2のCPUダイ(CCD)である。なにせCPUのように外部と結線が多いダイでは100平方mm弱あたりが限界だから、仮に7nmプロセスから5nmプロセスに移行するとして場合に面積が半分(単純に計算して(5/7)^2=0.51...)になるというのは考えられない。恐らくZEN/ZEN+からZEN2でL3キャッシュ容量が倍増されたのも半導体面積を稼ぐことが目的であろうし、5nmに移行しても100平方mm弱の面積は維持されることだろう。とはいえ、AVX-512は発案者のIntelすらブレている状態(Xeon Phi・Skylake-SP・Cannonlake・Ice Lakeでそれぞれサポートしている命令セットに違いがある)で普及には程遠いのでサポートされるとは思えないし、なかなか予測がつきにくい。

IntelがOmni-Pathから撤退

Intel Confirms Retreat on Omni-Path - HPCWire

 本件をひとことで評価するなら、Intelは買収した組織を活かすのが下手ということなのかもしれない。
 Intelは30年も前からEthernetアダプター製品ラインナップを持っているものの、Omni-Pathはそれとは別のラインで、Crayから買収した、同社でAries/Geminiインターコネクトを開発した部門が元になっている。ところが、Aries/GeminiはHPC特化のネットワークだったのに、Omni-Pathはスター型/Fat-tree型でInfiniBandと真っ向から競合する製品だった。

 そもそも、HPC製品を手掛ける企業がInfiniBandのような安価で高性能なオープンスタンダードを敵に回してまで自らネットワークアダプターを作る理由というのは一般人には容易には想像できないが、CrayのAries/Geminiを調べてみて頂けると想像し易いだろう。Aries/Geminiは複数のネットワークアダプターとスイッチとを統合した専用ASICを用い、Ethernet/InfiniBandとは違い独自のDragonfryトポロジーで相互接続でき、40を超えるノードと僅か1ホップ・最大構成でも全ノードと最大3ホップ接続できる。日本だと理研/富士通が京/富岳にTofu独自コントローラーを用いているのも6次元3D Torusネットワークを使うためであるが、これらのHPC用の独自インターコネクトはホップ数≒遅延を減らすことで差別化を図っている。

 Intelの場合はHPCベンダーではないので汎用性を重視したのかもしれないが、結果としてInfiniBandに敗れてしまった。
 ちなみにインターコネクトを失い他社との差別化方法に疑問を持たれていたCrayは、新たにインターコネクトのチームを設立したらしくShastaシステムでSlingshotインターコネクトの開発に成功している。

 


今週の興味深かった記事(2019年 第30週)

2019-07-27 | 興味深かった話題

AppleがIntelのモデム部門を買収

Apple、Intelのモデムチップ部門買収へ - ITmedia
Apple to Buy Intel’s Modem Business for $1 Billion - EETimes

 この取引はAppleにとっては三重の意味でメリットがある

  • Qualcommはモデム採用ベンダーに対しモデムチップの価格に加え特許使用料を徴収しており、Appleの場合は四半期ごとに$150M-$250Mと見られていた。Appleは既に保有する特許にIntel(旧Infineon)の特許を加えると保有特許は17,000件超に達し、特許料の一部を相殺することができる
  • AppleはAシリーズプロセッサーを内製しているが、モデム技術を持たないため外付になり、モデムを持つ競合他社(Qualcomm・Samsung・MediaTek・Huawei)に対しコスト・フットプリント(基板上の設置スペース)・消費電力で不利になっている。これらの問題を改善できる。Intelモデム部門は5Gモデムの開発に成功していないが、4Gモデムを内蔵・5GモデムのみQualcommから調達という選択肢を持てる
  • IoTではすべての機器にWi-Fiやモデムが搭載されることになるから、自社製品にモデムを統合可能になることは有利。IoT機器では通信速度は求められないからIntelが開発済の4Gモデムや派生品を流用できる可能性がある

もっとも、7月の買収発表ではAシリーズプロセッサーに4G LTEモデムが内蔵されるのは早くとも2021年登場のA15以降になるだろう(※通常のスケジュールでは既にA13は量産・A14はそろそろテープアウトするはずである)。

 ところで、Appleが買収に費やした$1Bという金額であるが高いのか安いのか解り難い。IntelはInfineonからモデムを買収する際に$1.4Bを支払って買収・さらに富士通からトランシーバーを買収(買収価格は非公開)しているから、価格としては割安にも見えるが、同部門は4月に5Gモデム開発放棄を発表し、(1) 今後5Gモデムの開発に成功するか不透明 (2) 人材の流出の懸念があるから、簡単には評価が難しい。
 しかし、上記の1~3点目を鑑みれば、特許料の支払い額を減額できるうえ、自社製品のコストダウンも行えるから長期的に見れば十分に元が取れそうに見える。モデムは難しいビジネスで、実装するための関連特許が膨大なこともあるが、仮に実装しても携帯電話会社の接続試験を通過しなければ携帯電話会社の販売する端末には採用してもらえない。

DRAM価格

God DRAM you! Prices to slide more than 40% in 2019 because chip makers can't forecast - The Register

 日本・韓国政府間のいざこざで注目を集め、にわかに価格高騰騒動が巻き起こった(※地域限定)DRAM市場であるが、世界水準で見れば一過性のもので、DRAMスポット価格は下落を続けている。DRAMモジュール価格は一時的に10%強ほど上昇したものの一段落した状況である。

 そんな中、Gartnerが出したのが2019年は供給過多でDRAMの価格が40%下落するというものである。もっとも既に2019年も半ばであるから今から42.1%下落するという意味ではないし、年初より2019年中は下落することが報じられていたから順当な内容である。報道各社は価格高騰を煽る記事を書いているが、フッ化水素等の半導体材料の輸出が問題となるのも影響は限定的(韓国メモリーベンダーの中国工場のみ)なので予想から大きく逸脱することは無い。
 ちなみにDRAM eXchangeのインデックス=DXI(株価における日経平均やDawJonesに相当)を指標とすると、7月9日までの過去半年で25869から17202まで既に34%も下落していた。7月10日から大きく反発したものの4月後半並の水準まで戻したものの、7月19日以降は再び下落を続けている。同様のペースでいけば11月頃には7月序盤の水準に戻り年末頃までに通年で40%前後の下落となるのは不思議な話ではない。もっとも、メモリーのスポット価格とはDRAMチップのトレーでの取引価格なので、一般消費者のDRAM DIMMモジュールの価格に何時反映されるかについては予測はつかない。

 ちなみに、個人的にDDR4 DIMMを購入するか迷っていたのであるが、価格の反発も一段落したので当初の予定通りBlack Friday/Cyber Mondayをターゲットに購入することとしたい。

AIハードウェア

VLSIシンポジウムが「AIハードウェア」シンポジウムになる日 前編 後編 - PC Watch

 記事中で説明されている内容は興味深いとは思うのだが、個人的には「VLSI」と違い「AIハードウェア」が注目を集めるのは一過性のトレンドということで永遠に続くわけではないと認識している。

 昨今、コンピューターのパフォーマンスの伸びが鈍化してきていると認識されている。CPUを例にとると、かつて4年毎に設計が刷新されて18~24ヶ月毎にパフォーマンスが倍に向上していたが、Intelの最新プロセッサーは2016年に登場したコアを1プロセッサーあたりの2倍に増やしただけに過ぎない。コア数を倍に増やすと理論上の最高性能は2倍になるが、そのようなワークロードは稀のため経験的には1.2~1.4倍程度にしか向上しないことが知られている。36ヶ月でパフォーマンスは1.4倍にしかならなかったわけだ。

 このような背景でAI≒ニューラルネットワーク/ディープラーニングが盛り上がっているのは以下の理由だと理解している:

  • CPU性能の成長鈍化に伴い、一部でドメインスペシフィック(特定分野向け)半導体が脚光を浴び始めているものの、特定業種向けの特殊なプロセッサーの製品化に難しさがある。例えばIBMは金融機関で重宝されるメインフレーム/UNIXサーバー用に十進数演算ユニットを実装しているし、富士通はアニーリング用ハードウェアを実装しているが、ユーザーもニーズも限定的で採算がとれると判断できなければこれらのハードウェアは製品化しにくい。多くの分野で使用できる柔軟性と既存のCPU・GPU以外のプロセッサーとは異なる特徴を両立したプロセッサーとしてニューラルネットワーク用プロセッサーが注目を浴びている
  • 仮想通貨のマイニングとは異なり、従来のハードウェアでは処理が難しい。例えばCPUやGPUで実装されているSIMD演算ユニットなどは一次元のベクトルである(例えば座標はx,y,zだし、色はr,g,bである)が、これに対しディープラーニングは大量のデータを二次元のマトリックスで処理する。もちろん、一次元の演算を複数回実行することで二次元の演算は行えるが、一括で処理可能なハードウェアがあればアドバンテージを取れる可能性はあり、新興国や新興企業にもチャンスがある。
  • 上記とも関係するが、データ精度が過去のトレンドと異なるのもポイントであろう。ディープラーニングが普及する前の2010年以前のHPCなどでは科学演算における倍精度浮動小数点演算(64-bit・FP64)性能が重視されたが、これがディープラーニングでは精度よりもデータ量・演算量が重要となることから、データの圧縮のため、にわかに半精度浮動小数点(16-bit・FP16)が使われ始めた。但し、各社共、最適なハードウェアアーキテクチャーやフレームワークを探っている状況でGoogleに至ってはFP32との変換の容易さからBrain FP16(bFP16)を定義したぐらいである。

今週の興味深かった記事(2019年 第29週)

2019-07-20 | 興味深かった話題

Qualcomm Snapdragon 855 Plus

Qualcomm、GPU性能が15%向上した「Snapdragon 855 Plus」- PC Watch

 想像だが、これはSonyやOnePlusなど年2回のサイクルでフラッグシップ機をリリースするベンダー向けの対応ではないかと思う。現状では連続する2機種は同一のプロセッサーを採用している(例:OnePlus 6とOnePlus 6T、Xperia XZ2とXperia XZ3)。
 もっともこれは、かつてQualcommはSnapdragon 800/801/805・820/821と半期毎にハイエンドプロセッサーを出していた時代があり、Sonyなどの一部スマートフォンベンダーが当時のQualcommの製品サイクルに合わせていたという方が正しい。Qualcommからすれば同じ設計・製造過程で製造した製品を選別するだけで新しいSKUを作ることができ、スマートフォンベンダーからすれば前世代機種との差別化ができるからwin-winだといえる。

メモリーの値段の話題

DDR4メモリ、じわじわ広がる値上がりや購入制限の動き - ITMedia
韓国への輸出規制の背景に見え隠れする中国の国家戦略 - アゴラ
サムスンはなぜ中国からフッ化水素を調達したのか? - アゴラ

 コンピューターの主記憶として一般的なDRAMメモリー・SSDや可搬型メディアに用いられるNANDフラッシュの大部分は韓国企業によって製造されている(DRAMNAND)。いずれも首位はSamsungでSK HynixもDRAMで約30%・NANDで約10%のシェアをもっている。ちなみに、この分野のプレイヤーが重複するのは製造設備が共通化できるからである。逆にCPUやGPUに用いられるロジック用製造プロセスとメモリー用製造プロセスとでは製造設備が異なる。また、Samsungは両方を手掛けている。

 実は今年は米国による対中貿易制裁もあってメモリーの供給過多・値下がり傾向で、数カ月前の時点では2019年中はこの基調が続くものと考えられていたが、日本の対韓国向けフッ化水素の輸出に関する問題で、にわかにこの見通しに暗雲が立ち込めてきている。
 市場は韓国勢がDRAMで72%・NANDで40%もの供給量を占める寡占状態にあるため、仮にSamsung・SK Hynix供給分の減少は市場への影響が非常に大きい。実際には、メモリーベンダーおよびメモリーモジュールベンダーの過剰在庫・米Micron・米Western Digital/日Toshiba連合も生産設備を増強中・かつ日本から韓国への「非ホワイト国」扱いで個別輸出許可での輸出も再開することを考えれば即座に価格が上昇するとは考え難いが、既にCorsair・G.SkillなどゲーミングPCで大手のメモリーモジュールベンダーが受注停止という話もあり様子見といったところではないかと想像する。
 もっとも、メモリーモジュールの供給量で実際に主流であるDell・HP・Lenovoなど大手PCメーカー向けとなるメモリーモジュールはSamsung製・Micron製・SK Hynix製といった純正メモリーかKingston製が大半を占め、Samsung・SK Hynixなどは三ヶ月分程度の在庫を抱えているともいわれるから、これらのベンダーにCorsair・G.Skillのリアクションが当て嵌まるかどうかは分からない。ただし、Samsung・SK Hynixが大口顧客以外への供給量を絞る判断もありえる。とにかく現時点でメモリーのスポット価格は上昇している

 アゴラ7月17日の解説によると、韓国が非ホワイト国扱いになることで、(1) ホワイト国だった時点での横流しは合法 (2) 非ホワイト国でも韓国国内での使用について個別輸出許可での輸出は合法、ということだそうで、影響を受けるのはSamsung・SK Hynixでも中国工場におけるものに留まりそうだ。これはもちろん両社にとって減産を余儀なくされるだろうが、DRAMの7割・NANDの4割に相当する供給が止まるというような事態ではないということである。

 ちなみに横流しということで、今回のフッ化水素の輸出制限の問題で中国・北朝鮮への横流しが話題になることがあるが、どうやら横流しはSamsung・SK Hynixの中国工場への再輸出ということのようで、中国内の他の半導体企業向けの話は出ていないし、北朝鮮に至っては日本製の高純度フッ化水素の使い道がない。
 また、中国の半導体ということでHuawei/HiSiliconのプロセッサーなどへの影響を口にする人もいるが、私の知る限り同社のKirinプロセッサーは台湾TSMCでの製造のため今回の件とは無関係である(というか、それを製造できるような先端工場は中国内には存在しない)。

 ところで、個人的にはRyzen 3000シリーズを想定してDDR4 3200~3600あたりのメモリーをBlack Friday/Cyber Mondayを目途に入手するつもりでいたが、前倒しするかもしれない。5カ月近くも先であるから状況は一段落していそうであるが、Samsung・SK Hynixが減産すると想定すれば、現在より価格が大きく下がっているとも思えないが上がっているリスクはある。
 この問題が私のような自作PCユーザーにとって悩ましいのは、Ryzen 3000のようなCPUについてメーカーが実質的に高価なオーバークロックメモリーを推奨している点にある。例えばAMDはRyzen 3000でDDR4-3600 CL16を推奨しているが、JEDECの規格はDDR4-3200まで・現存するJEDEC準拠のメモリーモジュールはDDR4-2400あたりが主流でDDR4-3200は選別品でラインナップが限定されている。

Libra

「リブラに全財産預けられますか?」Facebook責任者の答えは ~米国上院の公聴会一問一答 - 仮想通貨 Watch

 知れば知るほど、なぜLibraサービスで扱う通貨がLibraであって米ドルや欧ユーロでないのか、なぜ企業Libraは銀行でないのか理解ができない。もしFacebook社員がLibraに全財産預けられるのだとすれば、その信頼性はどこから来るのか?その信頼性を中国・ロシア・イランなどの米国政府と対立する国々の人々が利用できることに問題は無いのか?といった疑問を感じる。

 LibraがBitcoinと違い価値が安定するのは通貨バスケットによるものだが、通貨バスケットは米ドル・欧ユーロ・日本円など基軸通貨に信頼性を依存しており、言い換えれば安定性に関しての「Libraは信頼できる」ということは基軸通貨が信頼できるという意味でしかない。この信頼性に発展途上国の人々が便乗することに問題は無いのかと懸念する。

 Libraの用途については記事中にある通り、銀行口座を持っていない17億人の人々(世界銀行のデータ)に決済手段を提供できることが含まれるが、その銀行口座を持っていない人々は主に通貨が不安定な発展途上国の人々である。その発展途上国のユーザーと基軸通貨に裏打ちされたLibraの信頼性とは相容れないものではないのか。
 例えばベネズエラは2017年1月から18年1月までの1年間でインフレ率2616%を経験し、国家が主導する世界初の仮想通貨「Petro」を発行・2018年8月に10万分の1に切り下げるデノミを実施したが、同様な事態は有名どころではトルコやジンバブエでも起こっている。Libraのような通貨が生まれた場合、このような国の人々の間で利用が拡大することは間違いない(ベネズエラに関して言えば反米だから政府が規制に動くだろうが)。つまり想定ユーザーとLibraの仕組みが合致していないように思える。

 先進国のユーザーにとって、Libraが提供する機能はPayPalやRevolut等の新種の銀行が提供する機能と同等であるように見え、Facebookアプリに統合されているぐらいである。PayPalも新種の銀行も取り扱う通貨は現地通貨であり現地の規制当局から規制をクリアしている「クリーン」な企業である。言い換えれば米ドルでも欧ユーロでも同等のサービスは実現できる。