goo blog サービス終了のお知らせ 

ALH84001

私的コラム&雑記(&メモ)

今週の興味深かった記事(2019年 第28週)

2019-07-14 | 興味深かった話題

Nintento Switchプロセッサー更新

任天堂、「Nintendo Switch」も新SoCとNAND搭載か - PC Watch
Switch's next Tegra X1 looks set to deliver more performance and longer battery life - Eruogamer

 記事中ではNVIDIA Tegra X1からTegra X2への更新の可能性に言及しているが怪しいところである。もしTegra X2に変更になる場合は機能の一部を無効化したものになるだろう。しかし、Eurogamerの推測が正しいとすればTegra X2ではなく恐らく新開発の他のプロセッサーとなる。

 Tegra X1(TX1)は2015年に登場した組込用プロセッサーで、Nintendo Switchの登場した2017年には後継のTegra X2(TX2)が登場している。
 TX2のTX1に対する最大の違いはNVIDIA Denver2 x2コアであるが、詳細はPC Watchの後藤氏の記事を参照頂くとして癖の強いプロセッサーで最適化が難しい可能性があるが、TX2にはTX1と同じArm Cortex-A57 x4コアも搭載されており、A57を使用することで高い互換性を達成できるだろう。GPUは同じNVIDIA製であるがTX1はMaxwellファミリー・TX2はPascalファミリーと1世代異なるものの共に256コアで共通である。
 そのため、もしSwitchのプロセッサーをTX2に置き換えると仮定するとDenver2は無効化することでTX1と高い互換性を実現できる。PlayStation 4に対するPlayStation 4 ProのようにDenver2を有効化してTX2搭載機種をTX1搭載機種の上位機種とすることは不可能ではないがパフォーマンスの違いが小さ過ぎるだろう。

 ではTX1からTX2に更新する場合のメリットは何か?というと消費電力である。
 TX1はTSMC 20nm SoCプロセス・TX2はTSMC 16nm FinFETプロセスで製造されており、NVIDIAの開発キットでもTX1の消費電力最大10Wに対しTX2はCPU・GPU共に動作周波数を引き上げた状態で7.5Wとなっている。もしDenver2の無効化やPascal GPUの動作周波数引き下げをすればTX2でTX1の半分以下の消費電力を達成することは難しくない。

 しかし、EuroGamerの記事が正しいとすれば新プロセッサーはTX2ではない。新プロセッサーがT214だとすればTX1(T210)の系列でTX2(T186)の系列とは考えにくい。

トランプ大統領が「Facebook仮想通貨リブラは信頼できない」と言及

トランプ大統領「Facebook仮想通貨リブラは信頼できない」。公聴会前に初言及 - 仮想通貨Watch
ビットコインとLibraは何が違うのか? - ITMedia

 私個人はトランプ大統領について経済や金融に強いイメージもないが、それでも氏の仮想通貨に対するコメントには賛成できる。私の理解では仮想通貨は専ら投機目的で所有されており、その価値は米ドルのような現実の通貨に換金されることで初めて担保されている。後者についてはFacebookのLibraの通貨バスケットも同様である。仮想通貨は通貨に必須とされる三大機能すら提供しておらず、このことはその分野のプロも言及している(例:「仮想通貨は通貨にもならないし、価値の保存としても機能しない」UBSのエコノミストが酷評)。

 個人的に不可解なのは、政府から警戒視されてまでFacebookが仮想通貨を新設する理由である。
 Facebookは世界中でやり取りされているから、ネットでPayPal・実世界でWesternUnionが提供するような通貨の相互交換サービスが便利であると想像できる。例えば、豪州に住んでいる人が米国に住んでいる知人にFacebook Messengerで連絡を取り代金を送金して米国製品を送ってもらうようなケースを考えると、現状で豪ドルを米ドルに両替する際に発生する手数料が、共通通貨を使えば不要になる――というのはPayPalの登場した1998年から既にあるアイデアである。
 しかし実際はというと、日本生まれで欧州で生きる私に言わせると、そのような隔たった地域での送金は日常的でないし、逆に英ポンド⇔欧ユーロのような近隣国の通貨ペアの交換は現状でも全く不自由が無い(取引量が多いので銀行手数料も低いことが多い)。

 FacebookのMessengerにLibra電子ワレットが統合されメッセージを送受信する感覚で金銭をやりとりできることを考えれば、古典的な銀行(寡聞にして最近の日本の銀行の動向は知らないが)から大きな飛躍と思われるかもしれないが、PayPalや最近でてきたRevolutやMonzoのような新種の銀行と比較すれば違いはアプリが統合されているかだけである。
 なお、RevolutやMonzoなどは現実の通貨を取り扱う銀行なので現地当局の規制を受けている。世の実業家はこのような「当局の規制」に嫌悪感を示すが、これは法定準備預金など当局が定める経営の安全性基準を満たしているという意味でもある。トランプ大統領は「フェイスブックや他の企業が銀行になりたいのであれば、彼らは銀行設立免許を求めなければならず、他の銀行と同様に全ての銀行業務のルールに従う必要がある」と言っているそうだが(記事中より引用)、まったくその通りで、Libraが銀行でないのであれば仮に破綻したとしても政府は無視するだろう。

# 個人的には、恐らく中国あたりの資産家の預金に使われるのではないかと思う。
# 通貨バスケットのおかげで途上国人でも米ドル・欧ユーロ・日本円の安定性にタダ乗りできる可能性がある。


今週の興味深かった記事(2019年 第27週)

2019-07-07 | 興味深かった話題

富士通A64FX

富岳スパコンに搭載されるメニーコアCPU「A64FX」 - ISC 2019 - マイナビ

 既に既報の内容が多いので特に驚く部分も疑問も無いが、個人的に駄目だと思うのは同プロセッサーが搭載される「富岳」の稼働開始は2021年ということである。
 記事中にあるベンチマークは賛否両論あろうが個人的には良好だと思う。しかしそれは2019年中旬でのことであり、富岳が稼働する2021年の話ではない。例えばベンチマークではNVIDIA V100より優れた結果が出ているが、V100は2017/18年のGPUで、例えば2020年に稼働予定の米エネルギー省LBNL NERSC-9 Perlmutterで採用される次世代"Volta-Next"に勝てるか怪しいのではないかと思う。ちなみに2021年にはIntel Xe GPUを搭載したAurora・AMD Radeon Instinctを搭載したFrontierという二台のExa Flopsシステムが稼働予定で、それらに勝てるか甚だ疑問である。

 あと蛇足だが、やはりTofu-DがPCI Express接続でなく、PCI Expressレーン数が16しか無いのは不満である。実現可能かどうかはともかくInfiniBandでの接続やCrayと組んでSlingshotで接続ということもできない。言い換えれば理研専用ということである。

Raspberry Pi 4の謎

 海外を中心にレビューや分析記事が出てきたため、1点の説明をしつつ・1点の疑問の提示をしておこうと思う(個人blogを含む複数のレビューを参照しているため特定の記事は挙げない。御容赦いただきたい)。

 とある海外の個人ブログでRPi4に搭載されているUSB3.0コントローラーVIA Labs VL805がPCIe Gen 2 x1で接続されていることについて「二台以上のUSB機器を接続するとフルスピード(5 Gbps)が出ない」としていたので説明しておきたい。

 この疑問は接続機器の数を考慮するかによって変わる。USB3.0 Gen 1の理論上の転送速度の合計5 Gbps・2台なら計10 Gbpsに対しPCIe Gen 2 x1の理論上の転送速度が500 MB/sec(つまり4 Gbps)であることに起因しているが、PHY層の速度とMAC層の速度を混同しないよう注意が必要である。USB3.0 Gen1およびPCIe Gen 2のPHY層でのエンコーディングは8b/10bで10-bitあたり2-bitのstart bit・end bitを除いた8-bitのみがデータとなる。USB3.0の5 GbpsというのはPHY層の転送速度で、アプリケーションから見た理論上の最大転送速度は4 Gbpsとなる。他方、PCIe Gen 2 x1の4 Gbpsというのはアプリケーションから見た最大転送速度である(PHY層の転送速度については5 GT/sと表記される)。従って、USB3.0機器を1台接続する分にはスピードが釣り合う計算になる。

 この計算では、複数の機器を接続すると速度が劣化するだろうが、もっとも、上述の通り理論上はそういう速度(規格)であるが実際にそんな速度がでるわけではないので実用上問題になるかは疑問である。これはUSBが分厚いドライバースタック=ソフトウェアのオーバーヘッドが大きいからである。例えばUSB3.0が登場した頃2011年の記事で恐縮だがDOS/Vの記事を見てみると、いずれも150~180 MB/secという具合で理論上の転送速度からはほど遠い。また、外付HDDの場合3 Gbps接続のeSATAの方が5 Gbps接続のUSB3.0よりも10~20%程度高速だったりする。

 ところで、このUSBインターフェースについては個人的に疑問もある。このVL805であるがUSB3.0 4ポートコントローラーなのである。実はVIA LabsにはVL806という2ポートコントローラーもあるのだが、なぜ4ポートなのか。Raspberry Pi財団の公式blogから引用する

USB is provided via an external VLI controller, connected over a single PCI Express Gen 2 lane, and providing a total of 4Gbps of bandwidth, shared between the four ports.

どうやらRPi4のUSB2.0 x2ポートもVL805から出ているようだ。なぜせっかくUSB3.0 x4ポートコントローラーを搭載しているのにUSB3.0 4ポート構成ではなくUSB3.0 2ポート + USB2.0 2ポート構成なのか謎だが、恐らくは電源供給が問題となるためだろう。USB2.0では1ポートあたり最大5V / 0.5A(つまり2ポートで5W・4ポートで10W)が規格化されていたが、USB3.0では最大5V / 0.9A(つまり2ポートで9W・4ポートで18W)が規格化されている。Raspberry Pi財団はRPi4のパワーサプライに5V / 1.2~3.0A(計6~15W)を要求しており、CPUやメモリー等への給電も合わせるとUSB3.0機器1~2台でも怪しく3~4台は無理だと判断したのだろう。


今週の興味深かった記事(2019年 第26週)

2019-06-30 | 興味深かった話題

Raspberry Pi 4

別途記事を書いたので、そちらを参照されたい。

GPD P2 Max

GPDが考える真のUltrabook「P2 Max」正式発表

 2002年頃に富士通のTransmeta Crusoe搭載機を使っていた身としては、iPadのサイズでCore m3・Celeron YシリーズとCoreマイクロアーキテクチャー系プロセッサーが載って$700というのは感慨深いものがあり非常に無力的に見える。

 もっとも、私の使い方では使い道を見出せないので個人的には見送ることにした。
 私事で恐縮だが、私はメインに12インチ・1kgクラスのモバイルラップトップThinkPad X220(Sandy Bridgeベースの7年物。近々買い替え予定)、それより軽量のモバイルとしては8.9インチと8インチのAndroidタブレットを使用している。両社の棲み分けは明確で、前者は自宅のテーブルに据え置かれ何かを作る場合に使用し・後者は自宅内/旅先で持ち歩く閲覧専用端末となっている。
 ここに9インチクラスのWindows機を導入する場合、OSとアプリのUIが9インチクラスに最適化されたiPadならともかくWindowsで何かを生産するのは難しく、閲覧だけならAndroid機の方が狭い画面での使い勝手がよく軽量で適している。また、Celeron搭載版/Core m3搭載版がそれぞれ$525/$700と決して手軽に買って失敗できる価格ではないから、私の場合はメインのラップトップの買い替え方に予算を回した方が建設的に思える。

 個人的に懐疑的なのはWindowsのOSやアプリケーションのUIが9インチクラスでの使い勝手である。これはユーザー個人の視力や手の大きさなどに依存するから私が判断することではないが、どうしても中途半端になってしまうと思う。

PC Watch後藤氏によるZEN2解説記事

AMD Zen 2の高い性能効率を支えるフロントエンドアーキテクチャ
AMDがZen 2で採用した現在最強の分岐予測「TAGE」
AMD Zen 2は実行パイプライン拡張で浮動小数点性能が2倍に
処理能力が2倍に拡張されたAMD Zen 2のAVXユニット

 全4回に渡る詳細な解説記事で読み応えがある。ZEN2の強化部分はZENで既に実装されていた機能の強化なので順当な内容と言えるが、個人的にはAVXの強化の記事が面白かった。

 ZEN2でのAVX帯域の強化自体は驚くべきことではない。ZENで論理256-bitのAVXの物理実装が128-bitだったことは2017年末から知られていたが、Intelが512-bit SIMDのAVX-512を物理で実装していることを考慮すれば、将来バージョンでAVXが強化されることは想像できていた。その上で今年2月にZEN2版EPYCが発表された際にAVXの帯域が倍になったことは説明されていたから、順当な進化だったと言える。

 実のところ、この論理SIMD長の1/2で物理実装するというテクニックはIntelが論理128-bitのSSEをPentium IIIで物理64-bitで実装したりと昔からポピュラーである。なにせ (1) 論理256-bit SIMDとは32-bit 8-wayといった並列演算で各値同士に依存関係は無いから2サイクルに分割して実行することが可能だし(※AVX-512は例外)、(2) SIMD演算ユニットは他の演算ユニットとリソースを共用する場合が多いが、SSE/SSE2=128-bit・FP64=64-bitと共用することでリソースを無駄なく利用することができる。
 もし、SIMDの物理実装の長さを2倍に拡張する場合、実装コストが増えるだけでなく、1サイクルあたりの処理可能なデータの増加に合わせロード/ストア帯域も2倍にする必要があるから実装コスト・消費電力などで問題が出る。帯域の向上をとるか、実装コスト・消費電力をとるかというバランスの問題である。

 このような背景を踏まえると、ZEN2でのAVXの帯域強化は順当だったわけだが、6月27日の記事で説明されているのは物理実装を256-bit幅にする合理性で、論理長と物理長を合わせることでスケジューリングやOut-of-Order実行で必要となるトラッキングがシンプルになってリソースを食わなくなったのだというのは目から鱗であった。

 ところで、後藤氏は記事の中で、以前のAMDが「SIMD演算はどちらかというと、APUに内蔵したGPUコアにまかせるという傾向が強かった」というが、私の理解では当時のAMD(Phil Hester氏がCTOだった時代)は具体的な数字を明確にしていなかったと記憶している。
 私の想像では、AMDが想定していたGPUにオフロードするSIMD長は512-bitで、これはAMD GPUが32-bit x 16 lane x 4 cycle(つまり物理512-bitのSIMD x 4 cycle)のWavefrontで処理しており辻褄が合うためであるが、その一方で当のAMD自身が128-bitのSSE5でGPUへのオフロードに言及したりしているので判然としない。もっとも、当時のAMDはBulldozerなどのゴタゴタで遠い未来の壮大な構想ばかりで、翌年リリースする製品との乖離が問題となっていたから、どのようにCPU・GPU間の溝を埋めるつもりだったのか今となっては分からない。

 印象深いのが、後藤氏が繰り返しZEN2をSkylakeと同じと表現していることだ。Nehalem以降のIntelプロセッサーの系譜を眺めると、まず第二世代のSandy Bridgeでひとつの完成形を迎えた後、4年間・4世代をかけて各ユニットがバラバラに増強されており、例えば実行ユニットはHaswellで強化されたが命令デコードやロード/ストアは強化されずアンバランスだった。それが再度バランスを取り戻し高い完成度を達成したのが第6世代のSkylakeだった。


今週の興味深かった記事(2019年 第25週)

2019-06-23 | 興味深かった話題

クラウドでHPC

Who needs a supercomputer when you can get a couple of petaflops on AWS? - The Register

 Hisa Ando氏サイト経由だが、Descartes LabsがAWS上に構築したHPCが1.9264PFlopsを達成しTop500で136位にランクインしているそうだ。

 AWSやAzureでそういう需要はあるようで、私が仕事で聞いた話でも、1月に1度だけ1000以上のインスタンスを起動させて月次バッチジョブを行っているなんていう組織もあるらしい(※伝聞の伝聞なので詳しくは知らないし、もし知っていても書けないが)。このような月1回数十時間だけといったような需要では確かに専用のHPCを購入するよりもAWSやAzureで済ませてしまった方が安上がりではある。大量のマシンを購入するにもデーターセンターに設置するにも費用が馬鹿にならないからだ。

 実際、AWSAzureには、そういう用途向けのドキュメントも用意されているので珍しい使い方というわけでもなさそうだ。
 というか、例えばAWSの場合だと単純にユーザーが自分でEC2上にLinuxで構築したノードをクラスター化するような話かと思いきや、実際にはHPC用に様々なサービス・機能が用意されているようで性能については簡単には評価できない。
 AWSで構築する場合、どうやらCfnClusterツール経由でCloudFormationで構築するようだが、管理用ノードは当然EC2としても裏側で構築されるクラスターがどういう構成なのか分からない。Configurationドキュメント見る限りでは計算ノードに使われるのは普通のEC2インスタンスのようだからXen/KVMあたり、あるいはBaremetalインスタンスを使うにしてもネットワーク周りがボトルネックとなる可能性がある。AWS ENAは高速だが40Gb Ethernetなので専用設計のHPCで主流のEDR InfiniBandなどと比較すると分が悪い。また、ストレージについては汎用的なS3ストレージを使うようではあるが、AWS FSx for Lusterでバーストアクセスできるようだから、下手に素人がLusterで構築するよりもパフォーマンスも高いかもしれない。

中古端末は果たして「買い」か?

9,980円でもSurface並みの性能、売れ筋の中古タブレット5選 - マイナビ

 個人的には、特定の機種を除き中古スマートフォンや中古タブレットには魅力を感じない。理由はメーカーのサポートが3年間程度しかないからである。

 TCOという概念を御存知だろうか。Total Cost of Ownershipの三文字略語で購入などの初期導入費用やランニングコストから廃棄までのライフタイムで要する総合的なコストのことである。厳密なTCOの計算は素人には難しいが、高価な製品を購入する際にはアイデアだけでも頭に入れておきたい概念である。

 私事で恐縮だが、例えば4年ほど前に私は自動車を中古で買った。それは私にとって人生で初めて取得したマイカーで自動車保険の都合もあり日本の自動車メーカー製の1Lエンジンの比較的新しいコンパクトである。
 確かに新車に比べれば魅力に欠けるしトラブルや修理が皆無とはいかなかったが、修理すれば十分に実用に耐えるしニーズを満たしている。何より燃費にしろ修理代や部品代にしろランニングコストが安価で済む。新車で購入しても大きくは変わらないであろうガソリン代・税金・自動車保険代を除いた全体のコストは4年間で60万円ほどで、新車を購入するよりも安価である(もちろん、あまりに古い自動車であればガソリン代・税金・自動車保険代も高くなるし、故障する頻度も増えるだろうから、そうなった場合は寿命として新車に乗り換えた方が良いだろう)。
 自動車などで中古が安価なのは、新車と(比較的新しい)中古車とで大きな性能差・機能差が無いことと、製品寿命が固定でないことによる。

 ところが中古スマートフォンや中古タブレットではそうはいかない。
 確かに新品に比べれば中古製品は取得価格自体は安価だろうが、メーカーのサポート期間は3年間程度で固定なので、もしサポート期間≒製品寿命として考えるならよほど取得コストが安価でないと割に合わない。もし仮に1年前の製品だと残り2年間しかメーカーからのアップデートサポートを受けられないから30%程度安価なだけでは安価とはいえない。ましてや記事中にもあるHuawei端末の場合、5月21日から90日間でGoogleサービスを受けられなくなるため、利用形態によっては残りの寿命が60日間を切っていることになる。

 記事中で比較的マシなのはWindowsタブレットで、Windows 10の場合はハードウェアがアップデートに対応可能な限り10年間以上に渡ってサポートを受けられる。


今週の興味深かった記事(2019年 第24週)

2019-06-16 | 興味深かった話題

$500の12コアCPUとDRAM価格の下落

16コアCPUを749ドル、10TFLOPS GPUを499ドルで投入するAMDの価格戦略を解き明かす - PC Watch
DRAM価格は今年後半も下落が継続、回復は来年以降の可能性 - マイナビ

 AMD Ryzen 3000シリーズが登場するが、今年後半はDDR4-3200メモリーが狙い目になる。Ryzenはアーキテクチャーの都合からCPUクラスター=CCX同士やCCXと周辺回路を接続するInfinity Fabricの動作速度がメモリーコントローラーの動作速度に同期する。つまり、メモリーど動作速度が速い方がマルチCPUでの処理性能が高くなる。
 AMDのプレゼンテーションの表(AnandTechから引用)だとDDR4-3733が最速ということになるが、Ryzenのメモリーコントローラーは動作周波数とランク数とチャンネルあたりのモジュール数の組み合わせが決まっているため、DDR4-3200(1 DIMM/ch x 2 ch)かDDR4-2933(2 DIMM/ch x 2 ch)のいずれかが一般的になりそう。

「江戸城天守」再建計画

「江戸城天守」再建計画 500億円とも言われる費用はどうやって調達するのか - デイリー新潮

 費用とか以前に要らないんじゃないか。
 個人的には歴史や文化財の保存に関心があるので、名古屋城天守(第二次大戦時に焼失)の木造での再建などは妥当だと思う。オリジナルが残っていることに越したことはないが、ある程度資料や遺産が残っているのであれば、忠実な復元は研究の助けになるだけでなく、城や寺院・仏閣を専門とするような建築会社に仕事を供給することができる。名古屋城天守の施工は竹中工務店だそうだが、日本には文化財を担当できるような建設会社が幾つかあるし、金剛組などは現存する世界最古の企業である。そういう企業・職人や技術を保存・継承できたのは伊勢神宮の式年遷宮や姫路城の修理などを通じて、定期的に仕事が供給できたからだと思う。

 それでも、私には江戸城天守の再建は理解できない。
 私は城の専門家やマニアでないどころか、完全な門外漢のため専門的なことは有識者に譲るとして(曰く「江戸城は天守があった期間よりも無かった期間の方が長い」、曰く「物見台の天守よりも、将軍の住居である御殿の方を再建すべき」、曰く「現在の天守台は前田家が築いたもので再建しようとしている寛永の天守には合わない」)、皇居敷地内に高層建築の観光名所を建築するというのはセキュリティー的に問題があるのではないか。高層建築が建ち並ぶ東京の中心なので言い出すと切りがないが、例えば2009年に改築したパレスホテル東京なども、皇居側は窓は皇居内の施設が死角になるように設計されているほか、南側のバルコニーもU字状に凹む形で設置されており皇居が死角となるように設計されている。

日本の最西端

地図マニアが“日本の国境が変わった”と大騒ぎ、「与那国島の新地図」に重大異変!! - デイリー新潮

 おどろき。

 


今週の興味深かった記事(2019年 第23週)

2019-06-08 | 興味深かった話題

Mac Pro Late 2019

Apple、最大28コアCPU/Vega II Duo×2搭載の「Mac Pro」 - PC Watch
AMD Radeon Pro Vega II Series Announced For Apple Mac Pro - WCCFTech

 2013年に登場して以来更新されてこなかったMac Proがようやく更新された。
 独Gigaの作成したイメージが有名だが、Mac Pro 2013の問題は登場時から指摘されていた。デスクトップPC筐体のデザインに拘るあまり拡張性があまりに乏しく、また、メインボードからM.2 SSDに至るまで使用されているコンポーネントがほぼ全てカスタム仕様のため部品交換によるアップグレードも困難だった。
 それがMac Pro Late 2019ではMac Pro 2009に近い金属筐体のタワー型に戻った。

 新しいMac Pro Late 2019で興味深いのはAMD Vega II Duoが接続されるMPXポートで、一見するとPCIe x16が2ポート縦に並んでいるが、恐らく電気的にはPCIe x16 1ポートのみでPCIe x16(75W)とMPX(475W)で計550Wの電力を供給できる。PCI Express x16が二基並んでいるように見えるが、そういう接続ならPCI Express Gen 3には x32ポートが規格化されているのでそちらを使うべきだし、基板上のPCIeインターフェース近くに見える銀色のチップは恐らくBroadcom(旧PLX Technology)PEX8747あたりのPCIe Switchであろうと思われる。なお、二基のVega II同士はAMD Infinity Fabricで相互接続される。

Cortex-A77

シングルスレッド処理向上で最上級の性能を得たArm「Cortex-A77」のマイクロアーキテクチャ - PC Watch

 Cortex-A77(以下、A77)は期待したくなるプロセッサーだ。
 Armのマーケティングタームには注意する必要があり、例えば前世代A76の発表時に「ラップトップクラス」だと主張していたが、実際にはPC用のIntel CPUとでは依然として隔絶した性能差がある。もちろん、ロジックの規模が1/4程度だったり消費電力が1/10以下だったりと条件が異なるので当然の結果ではあるのだが、A76の「ラップトップクラス」の場合は「同じフォームファクターなら」という、Chromebookぐらいでしかありえない条件付きだった。

 しかし、それでもA77の性能には疑いの余地がない。
 実際のところ、これまでのArmの高性能CPUコアとしてはAppleやSamsungが自社製品に搭載するために開発してきたものが存在する。最新のものではApple A12 Bionicプロセッサーに搭載されたVortexコアやSamsung Exynos 9820プロセッサーに搭載されたExynos M4(Mongoose 4)コアがそれで、AppleのCPUコアは動作周波数あたりの性能(IPC)がIntel Coreシリーズと同程度であることが複数メディアで確認されている。ただし、これらのCPUコアはApple iPhoneシリーズやSamsyng Galaxy Sシリーズといった特定のスマートフォンにしか搭載されてこなかったし、Appleに至っては独自iOSで環境が違うから、それほど多くの人々が選択的にその性能を享受してきたとは言い難い。

 A77で導入された拡張はより多くのメーカー・端末・ユーザーに恩恵をもたらす。
 後藤氏は「わずか」と表現しているが、17%ものリソース増加で20%のIPC向上という数字は安心できる。これまでのArmのプレゼンテーションでは異なる条件での性能比較が多く眉唾物だったが、今回は同じ条件下でのA77のA76に比しての比較の上、追加リソース分の内容からいっても性能向上の裏付けもある。
 詳細は後藤氏の記事に詳しいが、単に命令デコード幅が拡張されただけでなく、それを実際に実行するためにフロントエンドやバックエンドが拡張されており辻褄が合っている。

 Cortex-A77Cortex-A76Monggose 4
Decode 4 MOps/cycle
+ MOP cache
6 MOps/cycle
4 Ops/cycle 6 Ops/cycle
Issue 6 MOps/cycle 4 MOps/cycle 6 Ops/cycle
Dispatch 10 uOps/cycle 8 uOps/cycle 9+3 Ops/cycle
Exec Ports 12 ports 8 ports 12 ports

今週の興味深かった記事(2019年 第22週)

2019-06-01 | 興味深かった話題

AMD ZEN2 / Ryzen 3000シリーズ

AMDがチップレットアーキテクチャのクライアント版Zen 2を投入へ - PC Watch

 AMD ZEN2の詳細が発表された。
 既に同アーキテクチャーを採用した第二世代Epyc発表時に一部は開示されていたが、より詳細な(かつ我々のような一般人に関係の深い)情報が明らかにされた。

 興味深いのはキャッシュ構成ではないかと思う。
 AMDはZEN/ZEN+で512KB/コアのL2キャッシュと8MBの共有L2キャッシュ(CCXと呼ばれるクラスターあたりの容量。L2+L3合計でCCXあたり10MB・8コアのチップレットあたり20MB)を搭載していたが、今回のZEN2で16MBの共有L2キャッシュ(L2+L3合計でCCXあたり18MB・8コアのチップレットあたり36MB)に仕様を変更した。
 興味深いのはCCXあたりのコア数が4コアから増えなかったことではないか。コア数が増えるとコヒーレンシーのトラフィックが増え、例えばコア数が2倍になると2乗分トラフィックが増える。このため、より多くのコアで共有キャッシュを持つ方がトラフィック低減には寄与する。この考え方でいえばEpycでコア数が倍になる/Ryzenでもコア数が50%増えるZEN2では、単にキャッシュ容量を増やすよりも同一チップレット内の2個のCCXを統合した方がいいのでは?とも考えられるがそのようにはならなかった。

Scientifc LinuxとAntergosが開発終了

Yet another Linux distribution shuts down, and the Open Source community should be worried - BetaNews

 歴史が長いScienrific Linuxには驚きを覚えるものの、個人的な感想を率直に述べるなら、Linuxディストリビューションは増えすぎである。

 Scientific LinuxはCentOSと同様にRed Hatの公開するRed Hat Enterprise LinuxのSRPM(ソースコード)を基にビルドされるRHELクローンであるが、CentOSがコミュニティーから発祥したのとは違いフェルミ国立研究所(Fermi National Accelerator Laboratory)とCERN(欧州原子核研究機構)が個別に開発していたLinuxに由来する。2004年からなので、かれこれ15年間も続いたことになり、感慨深いものがある。

 もっとも、それ以外のディストリビューションについては、あまりにも乱立し過ぎているので開発中止に驚きは感じない。

 一般にはRed Hat Enterprise LinuxはじめCentOS・Fedora・Debian・Ubuntu・Linux Mint・SUSE Linux Enterprise/OpenSUSE・Arch Linux・Gentooぐらいしか知られていないだろうから、乱立していると言われてもピンとこないかもしれない。
 しかし、私が個人的によく訪問している私が定期的に読んでいる某個人ブログでは管理人氏が新しいディストリビューションを試されおり、「OpenSUSE(SUSEの開発版・フリー版)」「Pinguy OS(Ubuntu派生)」「Gecko Linux(OpenSUSE派生)」「elementary OS(Ubuntu派生)」「Endless OS(Ubuntu派生)」「KDE Neon」「Bohdi Linux(Ubuntu派生)」「ArchLabs Linux(Arch Linux派生。BunsenLabsにインスパイヤ)」「Linux Lite(Ubuntu派生)」「BunsenLabs(Debianベース。終了したCrunchBang Linux派生)」などが掲載されている(※注:「乱立している」の例を挙げているだけで、これらのプロジェクトは開発中止の話題とは関係ない)。

 Linuxに馴染みの深い人でも、これらの名前を知っていたり使ったことがある人は少ないのではないか。
 多くは、既存のメジャーディストリビューションをベースに、やや趣が異なったデスクトップ環境を提供している程度で、なぜパッケージの提供程度に留まらずディストリビューションまで作ってしまったのか理解に苦しむ。

 私は様々なディストリビューションを試してきたが、「ディストリビューション」として分けるほどの明確なアイデンティティが理解できたプロジェクトは非常に少ない。ここ10年に限れば、明確な目的とアイデンティティを示せたのは、コンテナホストに特化したCoreOS Container LinuxやRancher社Rancher OS、より歴史は長いがミニマルさが受けて一気に普及したAlpine Linux、IntelによるIntel CPUのためのClear Linuxあたりではないか。

 まずContainer Linuxは一応Gentooの派生だが、コンテナーホスト・セキュリティー重視の観点から/var以外をユーザーが変更できない仕様となっている。OSのコアな部分はアップデート時に丸ごと置き換わる。このような仕様では他のディストリビューションに乗せる形では提供不可能で、インストール方法から独自に作り込む必要がある。なお、CoreOSはRed Hatに買収され、Red HatのAtomic Hostと統合されることが発表されている。

 Rancher OSはDockerコンテナーホストとして設計されているが、PID 0がSysV initやSystemdではなくシステムコンテナーという時点で他とは一線を画している。コンテナーはchrootの派生と考えればホストシステムとゲストシステムの環境の隔離のために利用されることはおかしなアイデアではないが、ホストシステム自体をコンテナーにしてしまうというのは非常にユニークである。

 Alpine Linuxは元は組込用だったと理解しているが、Docker社に標準コンテナーゲストOSとして採用されて爆発的に利用が増えた。様々な独自の仕組みが利用されているが、特筆すべきは最小インストール時でメモリー使用量64MB以下・ストレージ使用量8GB以下というフットプリントの小ささだろう。

 Clear LinuxはIntelのIntelによるIntel Coreプロセッサーのためのディストリビューションで、Sandy Bridge以降のプロセッサーに最適化されている代わりに極めて軽量・高速である。パッケージ類はほぼ最新のものが採用され、Linuxカーネルも最新の5.1か、あるいはLTSとして4.19が利用できる。

 上述のLinuxディストリビューションは単にユニークというだけでなく、アーキテクチャーが独自であるだけでなく非常にテクニカルに優れており、新しいディストリビューションを作る意義・思想が強く感じられる。

 それに比べ、多くのLinuxディストリビューションは既存のメジャーディストリビューションにパッケージを追加し(特にデスクトップ周りの)設定を少し弄った程度のものが多い。

中華スマートフォンとの付き合い方

The Good and The Bad about the OnePlus 7 Pro - XDA Developers

 中国OnePlusがOnePlus 7 ProおよびOnePlus 7を発表した。OnePlus 7については6月より限定地域で販売が始まるようだが、OnePlus 7 Proについては5月14日より米国・欧州をはじめワールドワイドで販売が開始されており、今週から各誌でレビューが掲載され始めている。

 中国メーカー製スマートフォンはコストパフォーマンスに優れたスマートフォンを投入している一方でセキュリティーに不安があることから、筆者は中国メーカー製OSをカスタムAndroid OSに入れ替えた上で使用している。
 Lineage OSに代表されるカスタムAndroid OSの導入にはBootloaderのUnlockが欠かせないが、Google Nexus/Pixelや中国製スマートフォンは一般に比較的容易にUnlockできる(Fastbootから "fastboot oem unlock" などでUnlockできるものが多い。それ以外でも公式に申請してunlock用イメージを入手するなどの方法で、多くがunlockできる)。そのため、XDA Developersなどを探せば多くのカスタムAndroid OSを見つけることができることが多い。もっともカスタムAndroid OSの多くはコミュニティー/個人による開発が主流で信頼性には不安があるため、メインのスマートフォンなど信頼性が求められる端末にはLineage OSのようなメジャーなディストリビューションを使うことを御勧めする。

 問題は、それらはコミュニティーによる開発が主流なので、いつサポートが途絶えるか分からない点にある。実際、私が使用しているXiaomi Redmi Note 3 Pro Special Edition(Qualcomm Snapdragon 650ベース)の場合は2018年末にLineage OSのサポートが打ち切られてしまった。2016年に発売されたので実質2年強で信頼できるOSが無くなったことになる。逆に、Google Nexus 4のように2012年の発売から7年を経て未だにLineage OS公式ROMの配布が続いているような端末も存在する。
 このサポート期間の問題には根本的な回避方法は存在しないが、対策として挙げられるのは「ユーザー数の多い」「技術者のユーザーが多い」といった開発コミュニティーが形成されやすい端末を選ぶ必要がある。上述のRedmi Note 3 Proの場合、ユーザー層はマニアックな人々が多そうに思われたが、いかんせん販売地域が限定的(中国・インド・台湾・東欧の一部)だったことから絶対的なユーザー数は少なかったのだろう。Nexus 4の場合はその性格上、開発者などにユーザーが多かったはずだが、安価で広く販売されたので絶対的なユーザー数も多かったのだろうと考えられる。

 前置きが長くなったが、筆者がOnePlus製スマートフォンに期待するのはまさにその部分である。
 単に性能や価格という面でみれば、OnePlus製スマートフォンが特に優れているとは言い難いだろう。中国にはOnePlusの親会社でもあるOppoやXiaomiをはじめとするスマートフォンメーカーが乱立しているからである。しかし、OnePlus製品は欧米で人気のためユーザー数が多く、カスタムAndroid OSの開発も活発である。Androidの公式なリファレンス端末はGoogle Nexus/Pixelなのだろうが、Nexus 5/6以降はXDA Developerでのスレッドを比較してもOnePlus製品の方がコミュニティーが活発である(例:2018年10月のフラッグシップOnePlus 6TGoogle Pixel 3)。
 気になるのはOnePlus 7 ProはともかくOnePlus 7は米国・カナダなどでは販売されないことで、英国では6月より販売されるようだがどの程度普及するのか興味深いところである。


先週の興味深かった記事(2019年 第21週)

2019-06-01 | 興味深かった話題

ポスト「京」コンピューターの名称が「富岳」に

ポスト「京」スパコンの名称、「富岳」に決定 - マイナビ

 日本最高性能のコンピューター(予定)の名称に日本の最高峰である山の名称を与えることはおかしいことではないものの、(1) 外国などでも散々「ポスト京」で報道された後で遅過ぎやしないか? (2) 富岳の次はどうなるのか?とも思います。

 例えば「Post K computer」でGoogle検索すると1,380万ページがヒットするが「fugaku computer」で検索しても僅か71,000ページしかヒットしない。名称が新しいからということもあろうが既に「ポスト京」で定着してしまっている印象が強い。ちなみに日本語および英語の公式サイトも「Post K」を使っている(https://www.r-ccs.riken.jp/jp/post-k、https://postk-web.r-ccs.riken.jp/)。正式名称を後で決定予定なら「フラッグシップ2020」のような計画名で呼称した方がよかったのではないか。

 Hisa Ando氏が「富士山は日本国内では高さは一番ですが,世界的に見ればより高い山はたくさんあり,それが「富岳」という命名にも反映しているのではないかという見方もできます」と述べられていて苦笑してしまった。
 コンピューターは日進月歩の技術なので、仮に2021年にTop500などで富岳が1位になったとしても、すぐに米エネルギー省のAuroraかFrontierや、国内でも東大・筑波大などのコンピューターに追い越されるはずで、さらに理研自身も2030年までには次世代コンピューターを導入しているはずである。そういう存在に「富岳」と名付けるのはあまり感心しない(もし、フラッグシップ=富岳とするなら、今後は富岳-1・富岳-2とかにするならアリかもしれない)。

Huawei問題

Huawei: ARM memo tells staff to stop working with China’s tech giant - BBC News

 BBCがArmのHuaweiに対するライセンス供与を停止するとBBCが報じている。GoogleがAndroidのライセンス供給停止やAmazonのHuawei製品取扱停止などホットな話題が続いているが、このニュース記事の信憑性にはいささか疑問が残る。
 米国企業であるGoogleやAmazonのアクションは5月15日の米商務省産業安全保障局(BIS)の発表および米合衆国の大統領令に応じたものだが、Armは登記上は英国の企業である(※注:同社の主力製品の半分以上を米国西海岸を含む英国外で設計されているが、本社は英国である)し、英国は米国ほど姿勢を鮮明にしていないため、米国法に従った場合に英国法に抵触する可能性は否定できない。これはGoogleやAmazonが即座に行動を起こしたのに対し、Armの行動がBBCの報じたような「メモ」「関係者の話」のような曖昧な形となっている現況ではないかと邪推する。

 ここでの疑問はHuawei/HiSiliconは将来のアプリケーションプロセッサー(将来のArm製IP)を利用できないとして、既に台湾TSMCで製造されているKirin 980(Arm設計のCortex-A76・Cortex-A55・Mali-G76を採用)やKunpeng 920(ArmよりArmv8.2-Aアーキテクチャライセンスを供与)にまで影響するのか?という点である。ちなみに、いくら中国がコピー天国だといっても製造は台湾TSMCなのでArmがライセンス供与を停止した時点で製造は継続することはできなくなる。

 米当局は3カ月間の猶予を設定したようだが、いずれにせよHuaweiの西側諸国における死に体化は必然のように思われる。
 思うに、ZTEの一件やSupermicro製ボードに埋め込まれたと報じられたスパイチップの騒動の一件といい、中国はいささか米国の警告を軽視していた感じがする。これらは米国が中国を軍事的・政治的脅威として識別したというシグナルである。ちなみに日本のメディアでも、例えば昨年9月にダイヤモンドは「米国が最も潰したい企業」という記事を掲載しているが、それが実行段階に移ったように見える。

 特に昨年10月のSupermicro製ボードの騒動は、これが何の問題なのか明確に示したように思われる。
 実際には、PCサーバーのメインボードに人目につかない小さなチップを追加したぐらいでは情報漏洩を起こすことは困難に思える。Intel AMTのように主要プロセッサーに統合させる場合を除き、OSに認識されずドライバーを必要としないようなハードウェアで効果的な情報漏えいを行えるとは考え難い(逆の言い方をすれば、PnPと標準ドライバーで動いてしまうスパイチップであればその限りではない、ということではあるが)。例えばAmazonの通信の多くはアプリケーション層でTLSなどで暗号化されているであろうし、ストレージに保存される機密情報はIntel CPUと直結したIntelチップセット・TPMで制御されるから、仕様外のハードウェアが暗号化されていない機密データにアクセスすることは困難である。そして、仮に暗号化されたデータが漏洩したとしても、Amazonの大規模トラフィックを解読するには天文学的な労力を要する。つまり、仮にスパイチップが存在したとして現実的に脅威だったかといえば疑問が残る。さらに本件ではSupermicroもAmazonも否定しており、スパイチップの存在を示す写真などの証拠も出てきていない。
 それでも本件が大きな騒動となったのは、これは技術的な問題だったからではなく、中国製造製品への依存による軍事的・政治的に深刻な問題が露見したからである。

 Huaweiが販売するようなAndroidの場合は問題はより深刻である。なにせマイクロプロセッサー・OS・アプリケーションにアクセスできる(=暗号化されていない機密データにアクセスできる)から、実際はどうであれ、いったいどんな情報が漏洩しているか計り知れない。
 誰もが「あの国ならやりかねない」「これは軍事的・政治的な脅威である」と認識し、米国政府に行動を起こす動機と機会と正義を与えたからである。


先々週の興味深かった記事(2019年 第20週)

2019-05-28 | 興味深かった話題

HPEがCrayを買収

HPE to Acquire Cray for $1.3B - HPCwire(日本語版

 HPCwire含め、その他のニュース記事を読むと概ね好意的に見えるが、個人的には懐疑的だ。
 懐疑的な理由は簡単で、同社が2016年にSGIを買収した際も今回と同様にHP EnterpriseのHPC市場への注力が話題となったが(HPCwire 日本語版)、現在に至るまでさしたる成果を挙げているようには見えない。

 HPEが2016年に買収したSGIの前身はPCクラスターで知られたRackable Systemsで、RackableはSilicon Graphics Inc(SGI)を2009年に買収した上でSGIに改名している。そのSilicon Graphicsは元はコンピューターグラフィックスに特化したUNIXワークステーションベンダーだったが1996~2000年の間はCray Researchを保有しており、この間にHPC技術を取得・2009年に倒産・Rackableによる買収を通じてHPCベンダーに転向した。
 Silicon Graphicsは、例えば同社は2004年にはNASAに「Columbia」・2008年にその後継「Pleadies」を納入しているが、ColumbiaはTop500で2位・Pleadies2008年11月のTop500で3位にランクインした。Silicon GraphicsはRackableにより買収された期間を含めて純粋なHPCベンダーとは言い難いが、そういう技術は部分的には持っていたはずである。

 加えて、SGI買収以前のHPE自身も旧Compaqや旧Apollo Computerなどの資産を保有しHPC市場では一定のシェアを持っていた。つまり、2019年現在の業績だけを見れば、なるほど確かにHPCwireで書かれているようなHPE/SGI・Crayの補完関係を見ることができるが、そもそもHPEはCrayを買収せずともHPC市場でシェアを奪えるだけの資産を持っていたはずである。
 では、HPEは2016~19年の間に旧SGIの資産を活かしてきたか?という点において疑問を抱かざるを得ない。

 以下はTop500を基に作成した2016年6月のSGI買収前と2018年11月のCray買収前のシェアの変化を示している。数字はTop500でのシステムにおける台数・()内はTop500での上位50システムにおける台数である。この3年半の間に中国勢・Lenovoの攻勢が目立っていることもありHPE・Cray共にシェアが減少していることは目を瞑るとしても、筆者にはこの間にHPEがHPCに注力してきたようには見えないのである。

Top500Jun 2016Nov 2018
HPE 105 (3) 46 (8)
SGI 22 (5)
Cray 60 (13) 49 (18)

 Crayは設立時よりハイエンドHPCを専門的に手掛けてきたため上位に多くランクインしているのに対し、SGI買収以前のHPEはPCサーバーProLiantをクラスター化したHPCがメインのため上位よりも下位に多くランクインする傾向があったが、2016年のランキングを見てもシステム数はHPEの方が多いのに上位50位にランクインしているシステムではCray・SGIの方が多いことからも読み取ることが可能だろう。2018年のランキングではHPEの上位のシステムはほぼ全てSGI由来のICEシステムとなっているが、ランクインしている台数やシステム構成を見てもHPE傘下の旧SGIがHPCに注力していたようには見えないのである。

 個人的には、2002年のCompaq買収以後のHP/HPEは両社で重複する膨大な資産の整理およびレガシーCPUベースのシステムからIntelベースのシステムへの移行に追われていたように見える。例えばハイエンドサーバーは旧DEC/CompaqのAlphaServer(DEC Alphaプロセッサーベース・Tru64 UNIX OS)・旧Tandem/CompaqのNonStopシステム(MIPSプロセッサーベース・NonStop OS)・旧HPのHP 9000(HP PA-RISCプロセッサーベース・HP-UX OS)をIntel Itaniumベースのシステム・Intel XeonベースのIntegrity・Superdomeシステムに移行したりといった具合である。一方、HPCはというと2014年のHP Apolloブランドの登場・2016年のSGI買収以外は目立った動きが無く、旧SGIの製品ラインナップSGI UV(シェアードメモリー型)やSGI Rackable(PCサーバークラスター)はHPE製品と統廃合され、現在はSGI ICE/SGI 8600の1ラインナップが残るのみである。


先々々週の興味深かった記事(2019年 第19週)

2019-05-28 | 興味深かった話題

FrontierはCray+AMD

Cray and AMD Win Big Contracts for 1.5 Exaflop Frontier Supercomputer - ServerTheHome
米エネルギー省、世界最速の新スパコンにAMD製CPU/GPUを採用 - PC Watch

 米国フラッグシップスーパーコンピューター(HPC)にAMD Epyc CPUおよびAMD Radeon Instinctアクセラレーターを搭載したCray Shastaシステムが採用されることが発表された。これは恐らくASCIIで大原氏が指摘するようにIntelシステムを採用するのを避けたものと考えられるが、理由はどうであれAMDにとっては大きな勝利といえるのではないか。

 AMDベースのシステム(非Intelまたは非IBM CPU・非NVIDIAアクセラレーター)はHPCで使い難いと考えられる。
 ~1990年代までならいざしらず、今日のHPCの大半は汎用ハードウェアと汎用ソフトウェアを組み合わせた上で一部の専用サブシステムやチューニングを施したコンピューターシステムに過ぎず、1ノードだけを見ればPCサーバーやUNIXサーバーと大差無い。それでもPCをクラスタリングしたものと明らかに異なるのは、各サブシステム間のインターコネクト・カスタマイズされたOS・専用にコンパイルされたアプリケーションなど、特別な設定が施されているからである。
 例えばIBMやCrayのようなHPCベンダー以外のPCサーバーベンダー(例:HP Enterprise、Lenovoなど)がHPCを構築する場合、同社製のPCサーバーに例えばノード間インターコネクトはMellanoxのInfiniBand・OSはLinux(Red Hat Enterprise LinuxやSUSE Linux Enterprise)といったように汎用的なハードウェア・ソフトウェアを組み合わせることになる。このとき、プロセッサー上でアプリケーションを動かすための仕組み(開発環境やランタイムなど)でIntelやNVIDIAとAMDでは差がある。Intel Xeonを使えばIntel Parallel Studioという並列演算に対応したコンパイラーが用意されているし、NVIDIA Teslaを使うとCUDAが使える。これに対しAMDではHPCに適した環境が十分に整備されていない。

 ORNLのFrontierではCray Shastaが採用されるが、CrayのHPCシステムでは、インターコネクトにCray Slingshot、OSはCrayがSUSE Linux EnterpriseをカスタマイズしたCray Linux Environment(CLE)にCray Compiling Environment(CCE)を使ってビルドしたアプリケーションが使われるためAMDがそれらを用意する必要が無い。


今週の興味深かった記事(2019年 第18週)

2019-05-05 | 興味深かった話題

Intelロードマップ

 先週の「興味深かった記事」にて、リークしたというIntelのロードマップについて投稿したが、冒頭で「リーク資料が正しいと仮定したとして」と述べた通り、資料が正しいと仮定したうえで書いているので、よく分からないというのが率直な意見である。

 このロードマップについてネットで意見を調べてみるとデマじゃないか?という意見をそれなりに見かける。有名どころではASCIIで連載されている大原氏も「このロードマップはフェイクだと考えている」と述べられている。そして、間違いと捉えた方が筋が通っている部分もある。いずれにせよ、出てみなければ分からないというのが実際のところだと思う。

QualcommがAppleとの和解で47億ドルのもうけ

Qualcomm、Appleとの和解で47億ドルのもうけ - ITMedia

 このQualcomm・Apple間の和解はQualcommにとっては大勝利だったと言えるのではないか。
 そもそも、Qualcommという会社は世間一般にはスマートフォン向けの高いパフォーマンスを誇るSnapdragonプロセッサーのベンダーとして認識されているが、私に言わせればモデムの会社である。
 Snapdragonの型番など2年ほど前のSnapdragon 835以来SDMであるが、それ以前はMDM=Mobile Data Modemのことであったほどだ。結局のところ「高いパフォーマンス」は消費者にモデムを売るための付加価値に過ぎないのである。GSMArenaに各社アプリケーションプロセッサーのダイを比較した写真があるが、自社設計の高速CPU・GPU・NPUなどが50%以上を占めるApple・Samsungに対し、Arm製IPを多用したHuaweiは30%ほど、QualcommはDSPやモデムも合わせるとようやく50%ほどとなっている。半導体ダイの専有面積は製造コストとある程度比例するし高性能プロセッサーはコスト/リソースを食うので、Qualcommが特別にプロセッサー性能にリソースをかけているわけでないことが分かる(その点、Appleだけはコストのかけ方が違う。なにせこのダイフォトでも4社で唯一モデムを含んでいない)。

 ところで、Intelが5Gモデムから撤退した以上はAppleはQualcomm製モデムを採用すると思われるが、このQualcommの勝利はなかなか衝撃的である。
 非GAAPで売り上げ47億~55億ドルの会社が特許紛争の和解としてキャッシュで45億~47億ドルもの大金を受け取るというのも衝撃的であるが、それ以上に衝撃的なのはAppleが問題視していた端末価格に課せられる5%のライセンス料が事実上認められたことであろう。Appleはモデムを保有していないのでQualcommやIntelからコントローラーを購入してきたわけであるが(恐らく$10前後)、それとは別にAppleがiPhoneを1台販売する毎にQualcommは$20のライセンス料を受け取ることになる。


今週の興味深かった記事(2019年 第17週)

2019-04-27 | 興味深かった話題

Tesla独自設計 自動運転プロセッサー

Tesla、独自設計の完全自動運転プロセッサを発表 2020年には“ロボタクシー”事業開始へ - ITmedia NEWS
Tesla's Kitchen-Sink Approach to AVs - EETimes
Tesla onthult eigen Full Self-Driving computer - Hardware.info (蘭語。Google翻訳)

 Teslaの自動運転プロセッサーはCortex-A72 12コア・Mali GPU(型番不明。600 GFLOPS)・Neural Network Processor(NNP)2基などを統合したSoCになっている。

 Teslaの自動運転コンピューターについて調べてみると、現行ではNVIDIA Drive PX2をベースとしたHW2.0・HW2.5を使用しており、今回発表されたプロセッサーはHW3.0として採用されるものらしい。ちなみにDrive PX2はNVIDIA Tegra X2ベースの自動運転用開発プラットフォームで、HW2.0ではTegra X2にGeforce GTX 1060相当のGPU、さらにHW2.5ではTegra X2が2基にGeforce GTX 1060相当のGPUとなっている。
 HW2.5ではTegra X2にArm 6コア(NVIDIA Denver2 2コア・Cortex-A57 4コア)に665 GFLOPSのGPUを統合・外付で> 4000 GFLOPS以上のGPUを搭載しているから、HW3.0はHW2.5に比べGPU性能に関しては向上しているわけではないが、NNPのおかげでTensor演算能力は向上しており72 TOPSを達成する。この数字はTensor演算に限定すればNVIDIAのXavier(32 TOPS)を上回るが、NVIDIA XavierはFP64・FP32も対応するから単純に比較はできない。

 調べていて気になったのであるが、記事中にあるような「Full Self-driving」や「Autopilot」という表現は自動運転のレベルというよりはTesla製自動運転ソフトウェアのブランド名と理解した方が良さそうだ。
 Wikipediaによるとこれまで「2014 Autopilot」「2016 Enhanced Autopilot」「2016 Full Self-Driving」「2019 Autopilot」「2016 Full Self-Driving」があるようで、バージョン毎に対応ハードウェアと対応している機能が違うらしい。問題は、この「Full Seli-Driving」はTeslaの2016と2019で違うだけでなく、EETimesによると一般的なLevel 4/Level 5に相当というわけではないらしく、非常に紛らわしい。

 記事ではマスク氏の発言として「このコンピュータが故障する可能性は、ドライバーが意識を失う可能性よりもかなり低い」とされているが、冗長化されているプロセッサーの動作はニュース記事を読む限りでは単純な冗長化(一方が故障すると、もう一方で代替する)のように見える。Arm Cortex-A76AEやNVIDIA Xavierで行われているようなLockstepが行われているのかよくわからない(もし行われているとすれば12コアのCortex-A72で行われていると思うが)。

 ところで、AMDでK7/K8/ZENの開発に携わった著名CPUアーキテクト Jim Keller氏が2017年2月~2018年4月の間、Teslaに在籍し自動運転ハードウェア部門副社長を務め、さらに同氏が在籍中の2017年9月にはTesla-AMDの提携のウワサも流れたが、上述の内容を見る限りではJim Keller氏・AMDの影響は皆無に思える。
 NNPは恐らくTesla独自設計だが、CPU・GPUは英Arm社のライセンスで、それ以外のロジックも概ねSynopsys・Mentor・Cadence・Cevaから入手でき、QualcommやSamsungのようなSoCメーカーは1年以内でチップに仕上げるからJim Keller氏の離脱後に開発に着手していたとしても不思議ではない。

2019-22のIntelのロードマップ

Roadmap toont dat Intel in 2021 nog desktop-cpu's op 14nm maakt - Twakers.net (蘭語、英語Google翻訳)
Intel CPU 2018-2021 Roadmap Leaks Out - WwcfTech

 外国で報じられたもの。リークしたIntelのロードマップ資料が話題となっている。

 まず、そもそもの話としてリーク資料が正しいと仮定したとしても、二種類あるスライドの関係を考慮する必要がある。
 このTweakersの資料はスライドの一方が「2018-2020」もう一方が「2018-2021」であることを考慮すれば後者は前者の更新版と見做すのが妥当と考えられる。と言うのも、前者は「Client CPU Roadmap」後者は「Client Mobile CPU Planning Roadmap」とあり、一見すると連続していないように見えるが、内容を確認すると前者はSプロセッサー・H/Gプロセッサー・Uプロセッサー・Yプロセッサー・Xeonプロセッサーが掲載されているのに対し、後者はH/Gプロセッサー・Uプロセッサー・Yプロセッサーに加え旧Atom系のモバイルSoCが載っている点のみが異なる。そして問題の部分は両資料で共通のH/Gプロセッサー・Uプロセッサー・Yプロセッサーだからである。

 この資料によると、Intelはようやく10nmプロセスを採用した製品を2019年後半から市場に投入する予定だったが、「2018-2020」の資料で掲載されていたIce Lakeが最新の「2018-2021」の資料では消滅し2021年のTiger Lakeまで登場しない見込みとなった。2019年に入ってからIntelは新しい10nmプロセス(便宜上、Cannonlakeで採用された10nmプロセスと区別して10nm+プロセスと呼ばれる)の開発好調ぶりをアピールしていたが、まったく好調でないことを示唆している。

 もっとも、上記の理解が正しいのかは分からない。AnandTechの4月25日の記事によるとIce Lakeの評価が始まったそうで、Ice Lakeがロードマップ上から消滅した「2018-2021」スライドとは矛盾が生じる。もっとも、Ice Lakeが掲載されている「2018-2020」スライドにおいても「Ice Lake (Limited)」とある通り出荷数量は限定的なようなので無視していい程度にしか展開されないということかもしれない(ちょうど10nmで製造されCore i3 8121Uでしか出荷されなかったCannonlakeのように)。

 この10nmプロセス採用プロセッサーの遅れは単に製造プロセスの遅れに留まらない。
 Intelの現行のプロセッサーはデスクトップ向けCoffee Lake Refresh・ラップトップ向けWhiskey Lake・省電力ラップトップ向けAmber Lakeだが、いずれもCPUコアは2015年に発表されたSkylakeのCPUコアを使いまわしている。これがIce LakeではSunny Coveに更新される予定で、AVX-512対応・BranchユニットとLoadユニットが増強されていた。Skylake以前はNehalen/Westmere→Sundy Bridge/Ivy Bridge→Haswell/Broadwell→Skylake/Kaby Lakeと2年毎にアーキテクチャが更新していたが、10nmの遅れで2015年から4年間も同じアーキテクチャーを引き摺ってしまっている。
 これが、ロードマップによると今後は現行プロセッサーがComet Lake・Rocket Lake/Tiger Lakeに置き換えられる。Rocket Lake/Tiger Lakeは不明だが、Comet Lakeは小改良を加えただけでSkylakeと同じアーキテクチャとされている。
 こうなると、次世代プロセッサー(Ice LakeだかRocket Lake/Tiger Lakeだか)の遅延は単なるプロセス世代の遅延に留まらず、命令セットやパフォーマンスのロードマップにも影響を与える。例えばAVX-512は消費者向けには2021年まで登場しないことになるし、恐らくAMDは2019年中に消費者向け製品に8~16コア搭載プロセッサーを投入するが、これに対抗できないことになる(IntelのH/Sプロセッサーのロードマップでは最大10コアである)。

PlayStation 5に搭載されるAMDプロセッサーはRyzen 3600Gではない

No, the PlayStation 5 Doesn't Use AMD's 'Ryzen 3600G' - ExtremeTech

 一部ではPlayStation 5に搭載されるAMDプロセッサーがRyzen 3600Gと報じられているようだ。
 ExtremeTechではいろいろと述べられているが、実態はそれほど単純ではない。というのも、現行のSony PlayStation 4 Pro・Microsoft Xbox One Xに搭載されているプロセッサーですらAMDのセミカスタムデザインサービスを利用した特注品で、同社のPC向けの既製品を使ってしまうと性能が足りないか、コストがゲーミングPC並に増加してしまう。

 PlayStation 5がRyzen 3600Gを採用しないことはほぼ自明であろう。理由は単純でPC用のAPUを単純には流用できないからである。
 例えばメモリーを例にとると現行のPS4/PS4 ProはGDDR5メモリー・次期PS5はGDDR6メモリーを採用すると言われるが、いずれもメモリーインターフェース幅は256-bitに達する。これはハイエンドGPU並でPCでは到底採用できない構成である。PS4が176 GB/s・PS4 Proが217 GB/sのバンド幅であるのに対し、現行のPC用Ryzen APUはDDR4 2933 x2chで僅か46.9 GB/sでしかなく次世代Ryzen APU 3000シリーズでも約50 GB/sでしかない。PS5の仕様は不明であるがGDDR6 256-bitで512 GB/s前後にはなるはずでPC用Ryzen APUとではゲーミング性能で大幅な違いがある。
 また、昨今のビデオゲームはGPU偏重なのでPS4 Proも低性能なCPU(Puma+ 8 core)に比してGPUが重厚な36CU構成で、これはRadeon RX480相当である。PC向けではAPUはハイエンド(Ryzen 7シリーズ)ではなくローエンドからミッドレンジ(Athlon G、Ryzen 3からRyzen 5シリーズ)で、ゲームコンソールほど巨大で高コストなGPUや、それを活かすメモリーを持って来ることはできず、実際Ryzen 3600Gでウワサされているのも20CUに過ぎない。こちらもPS5の仕様は不明であるが少なくとも40CU以上搭載するだろう(Xbox One Xが40CU搭載のため)。

Ryzen 5 3600Gなるプロセッサーは発表されていないが、現時点で想定可能な範囲で比較すると以下のようになる(Ryzen 5 3600Gの表が不完全のため、参考に現行Ryzen 5 2400Gのデータを合わせて載せている):

 PS4 APUPS4 Pro APUAMD Ryzen 5 3600G(参) AMD Ryzen 5 2400G
GPUGPU Core Sea Islands GCN2 18CU Polaris GCN4 36CU Navi 20CU Vega 11CU
Performance 1.84 TFLOPS 4.15 TFLOPS ?
(around 3 TFLOPS)
1.76 TFLOPS
MemorySpec GDDR5 256-bit 1366 MHz GDDR5 256-bit 1700 MHz DDR4 3200? 128-bit DDR4 2933 128-bit
Performance 176.0 GB/sec 217.6 GB/sec 51.2 GB/sec ? 46.9 GB/sec

 ちなみにExtremeTechはRyzen 3600Gを採用しない理由として$199という価格を挙げているが、これも的外れである。確かにゲームコンソールのCPUは$100前後のようでPlayStation 4では$100だったそうだが、まず (1) $199というのはMSRP(メーカー希望小売価格)で流通コストや化粧箱・付属品が含まれないB2B取引の価格ではない一方で (2) 上述の通りセミカスタム設計品かつ (3) 既製品に存在しないハイスペックなので、CPUメーカーの出しているMSRPはまったく参考にならない。


今週の興味深かった記事(2019年 第16週)

2019-04-21 | 興味深かった話題

富士通Post-京コンピューターの製造を開始

富士通、日本の次世代スパコン ポスト「京」の製造を開始 - マイナビ

 ポスト「京」コンピューターの設計が完了し、理研と富士通が正式契約を締結したらしい。
 ポスト「京」コンピューターで使用される富士通A64FXは昨年6月に完成が発表され8月のHotChips 30などでも詳細が説明されてきたので、既におおよその姿は見えている状態だが、2021年に運用開始を目指しているスーパーコンピューターのプロセッサーが2018年製というのはどうなのか…(参考:2018年にTop500で1位となったORNL SummitのIBM POWER9は2017年の発表)。

 現在出回っている図は発表時から変更はなく設計も同一と推測するが、どうも「ポスト京専用」という感じに見える。一応、同社のPRIMEHPC FX100後継スーパーコンピューターも販売されるようだが、現在のままでは商業的には成功は困難だろうと想像できる。
 例えばマイナビに掲載されているダイヤグラムではPCIeが16レーンしかなく、これはNVIDIA Teslaなどの接続を想定しているとは思えない(参考:AMD Epyc 128レーン・Intel Xeon Scalable 48レーン・IBM POWER9 48レーン)。その一方で理研しか使わない独自のTofuインターコネクトはCPUと同一ダイに内蔵されており、商用スーパーコンピューターで一般的なInfiniBandやOmniPathのコントローラーを接続したければ僅か16レーンしかないPCIeの4~8レーンを占有することになる。ここはせめてPCIeを32レーンとしてTofuは外付コントローラーをPCIe接続する形にすべきだったのではないか。
 周辺機器を接続する可能性があるUNIXサーバーとは違い多ノードを並列動作させる前提のスーパーコンピューターでは相互接続に必要なPCIe以外は不要というのは解らなくもないが、最初からポスト「京」以外での汎用性を捨ててしまっている設計は好きになれない。

Intelがスマートフォン向け5Gから撤退

AppleとQualcomm和解で、Intelがスマホ向け5Gモデムから撤退 - PCwatch

 携帯電話向けモデムがQualcommの世界なのは確かであるが、選択肢が失われることには不安が残る。
 PC向けや4Gも含めた消費者向けモデムのベンダーを挙げるとQualcomm・Intel・HuaweiのほかExynosと共に同社製Galaxyに搭載しているSamsung、低価格スマートフォン向けにアプリケーションプロセッサーを供給しているMediaTekがある。モジュールとしてはSierraWirelessやFibocomなどが広く知られているが、モデムのチップセットそのものを開発・製造しているのはQualcomm・Intel・Huaweiといった企業である。

 Intelは以前Centrinoブランドを展開したように、CPUにチップセットやWi-Fiアダプターをセットにしてプラットフォームとして販売することに長けているのでPC向けには5Gモデムは続けるのだと想像するが、Huaweiが強い市場なので頑張ってもらいたいところである。

今でもXLSを使い続ける人々

え、まだ"xls"のファイル使っているんですか?仕事する気あるんですか? - @IT

 100%同意とはいかないが、なるほどと思う。なお、XLSXはExcel 2007以降のMicrosoft Excelの標準ファイル形式であり、XLSはそれ以前のExcelの標準ファイル形式のことである。

 記事では「ファイルの形式にすら目が回らない程度のレベルだということ」と記事では述べられているが、そもそも新しいXLSXが旧式のXLSに対して勝る点が述べられていないため、整理する必要があるのではと思う。
 私が思うにポイントは二点ある。まずXLSでは文字コードが日本語はShift JIS・英語はASCIIとなっており異なる言語の環境では文字化けする可能性が高いが、XLSXではUnicodeでその可能性は低い。もちろん、外国とやりとりしない会社であれば必ずしも必要ないのかもしれないが、もし私があなたから受託を受けるとして、私はあなたのビジネスの事情は知らないのだから受託する側が柔軟な方式を選ぶのは当然であろう。

 もうひとつの理由は、ファイル形式の実体である。XLSはバイナリーであるのに対しXLSXの実体はZip圧縮したXMLである。WebベースであるOffice 365/Excel OnlineはもとよりGoogle Driveなどの親和性は段違いである。XLSXであればファイル形式を変換することなくWebブラウザー上で開くことができるだろう。

 まぁ、記事の著者は「未だにXLSなんて使っているということは、それ以前に知識に問題がある」と言っている気もするが、新形式と旧型式の利点・欠点が解っていない≒知識に問題があるというのは、確かにそうかもしれない。


今週の興味深かった記事(2019年 第15週)

2019-04-14 | 興味深かった話題

Qualcomm AI100

Qualcomm、データセンター向けのAI推論処理アクセラレータ「Cloud AI 100」 - PCwatch

 Qualcommはマシンラーニング分野では出遅れていた印象がある。例えば、同社の得意とするスマートフォン用アプリケーションプロセッサーでいえば、同社はSnapdragon 855(2018年12月)で初めてHexagon Tensor Accelerator(HTA)というマシンラーニング専用アクセラレーターを初めてを導入しているが、これはAppleやHuaweiの1年超の遅れだった。
 そんな中で登場したQualcomm製マシンラーニング専用アクセラレーターがデータセンター用で出てくることは意外である。データセンター用マシンラーニングアクセラレーターといえばGoogleが自社開発TPU・AWSが子会社AnnapurnaLabs製AWS Inferentiaを採用しているためMicrosoft Azureも何か必要だったということまでは理解できるのだが、そこでNVIDIAでもBroadcomでもMarvellでもなくQualcommの名がでてくるというのは非常に珍しい。そういえば同社がサーバー用CPU Centriq 2400を発表した際も最初の顧客はMicrosoft Azureだったか。

 このAI100であるが、秘密主義の同社らしく詳細は判然としない。
 当初、私はSnapdragon用マシンラーニング専用アクセラレーターをディスクリートとして分離したものを想像したのだが、そのHTAも詳細は不明なほか、「Hexagon」ブランドを冠する通りQualcommのDSP=Hexagonに統合されているから、ディスクリートプロセッサーとして分離するのも相当に難しそうである。

 AI100が対応するデータ精度が不明であるが、性能だけ見れば後発に相応しい高性能である。2018年発表のGoogle TPUv3がbFP16対応・学習/推論両対応で90 TFLOPS・AWS InferentiaがINT8・FP16・bFP16対応で100 TOPS超というスペックに対し推論専用ながら350 TOPSとされている。

NVIDIA RC18

マルチダイ化へ向かうNVIDIAのリサーチチップ「RC 18」 - PCwatch

 リサーチチップということで製品化されるモノではないが、将来のNVIDIA製品を推測(妄想?)する上では興味深い。MCM製品という事ではEpyc/Ryzen ThreadripperでAMDが先行した感があるが、研究という事では数年前まではNVIDIAの方が有名だった。

 36チップレットというのは研究開発や理論実証という点では実用的なのだろうが、本文中に「実際のダイでは、GRSリンク群がかなりの面積を占めており」とある通り実用的とは言い難い(ファブリックにロジックを割かれて実行ユニットのロジックが削られてしまっては本末転倒である)。恐らくは2~4チップによるMCM構成から始めることになるのだろう。もっとも2~4チップではメッシュよりもバスやPoint-to-Pointやクロスバーの方が簡単な気がするし、実際、記事中の冒頭の図ではPoint-to-Pointのように見える。

 ここで気になるのはメモリーインターフェースではないかと思う。
 例えばAMDはRadeonのマルチGPU化する際にGDDRメモリーインターフェースを意図的に256-bitに制限した(※HBM実用化以前の話である)。当時も現在もハイエンドGPUのGDDRメモリーインターフェースは384~512-bitの間だが、マルチGPU化するとインターフェースはGPUの個数倍に増えてしまう。そこで256-bitに制限すると2GPU構成で512-bitとなる。恐らく同じことが起こり、記事中の図にあるように1GPUあたりHBM x2スタック程度となり、マルチGPUダイの合計で現在のハイエンドGPUに相当するメモリーインターフェースを持つことになるのだろう。

 ところで、記事中には発表者としてDally氏の名が挙がっているのが、非常に懐かし(?)かった。かつてNVIDIAにはメディアに頻繁に登場するChief Scientist = David Kirk氏がいたが一説によると健康上の理由で退任した。同氏の後任としてNVIDIAが2009年にStanford Universityから引っ張ってきたのがDally氏だったのだが、記事で見た記憶が無い。

PlayStation 5に関するウワサ

Extraordinary PlayStation 5 details leaked: 7nm Ryzen CPU, 7nm Navi GPU - NotebookCheck.net News

 もし2020年にPlayStation5(以降PS5)がリリースされると仮定するなら、という想定であれば妥当なCPU/GPU周りはスペックといえる(というか、大幅なアーキテクチャ変更が無い限りは、他に選択肢が無い)。
 この予想スペックで怪しいのはGDDR6とDDR4の組み合わせである。GDDR6を充分に搭載できるのであればDDR4は無駄に思える。

 2020年のハイエンドゲームコンソールであればRyzen 8コア+Navi GPUという組み合わせは順当で、TSMC 7FFで製造されるRyzen 3000シリーズとNaviにGlobal Foundries 12LPまたは14LPPで製造されるI/OダイをMulti-chip Moduleの形で組み合わせたものとなると思う。恐らくCPU chipletはPC=Ryzen/Server=Epycと共通で、I/OダイはGDDR6に対応したカスタム仕様となるのだろう。
 PS4/PS4 ProではAMDの猫系アーキテクチャー(Jaguar/Puma)を搭載したが、PS5がAMD APUを搭載するのであればRyzenで間違いない。AMDは既に猫系アーキテクチャーの開発チームを失っており(Samsungに移籍)、メンテナンスする程度の人員しか残留していないといわれている。

 不明なのはGPU=Naviで、アッパーミドルクラスのディスクリート用GPUを統合するのかAPU用のカスタム設計したものを統合するのかは分からない。AMDはCrossFire後継/NVIDIAのNVLink相当の技術としてInfinity FabricをGPUに統合しているはずで、理屈の上ではGPU-I/Oダイ間通信にInfinity Fabricを使える(つまり、理屈上はディスクリート仕様のGPUをAPUに転用できる)し、最近のAMDプロセッサーは共通のSerDesで複数の内蔵コントローラーからインターフェースを選択できる組込SoC的な仕様になっているから、PCIe接続のディスクリートGPUをインターフェースの設定だけ変更してAPUに持って来るということは十分に考えられる。
 Naviは2020年に登場予定の第二世代(Navi 20)でレイトレーシングに対応すると言われているが、PS5が2020年の登場だとすれば間に合わないだろう。

 メモリーであるが、PS4の純粋な後継であればGDDR6メモリーが16~24GBもあればDDR4は不要で、フラットでないメモリー空間はゲーム開発の妨げになるだけである。異種メモリーが必要となるのはXBox OneがeSRAM + DDR3メモリーであったように、安価で大容量だが帯域の狭いメモリーを帯域の広いメモリーで補う場合のみである。
 もし、それでもDDR4が必要なケースがあるとすれば、それはシステム内にメインのゲームシステムとは別に動作するサブシステム(例:PS4に搭載されたCXD90025GセカンダリープロセッサーはARMベースのCPUに256MBのDDR3を搭載した)が存在する場合で、DDR4 4GBとなるとマシンラーニング/ビジョンプロセッシング関連の可能性が考えられる。


今週の興味深かった記事(2019年 第14週)

2019-04-07 | 興味深かった話題

筑波大Cygnusスパコン

筑波大がFPGAを本格使用するCygnusスパコンの運用を開始 - マイナビ

 筑波大がFPGAを搭載するスーパーコンピューターの運用を開始したらしい。Top500で日本国内2位に入るOakforest-PACSも筑波大と東大であるが、Oakforest 8208ノードに対しCygnusは78ノードしかないから性能的な優位性はなさそうだが、CygnusにはIntel/Altera Stratix10 GX2800 FPGAを搭載したAlbireoノード32ノードを含んでいる点が特徴と言える。

 ここ数年、FPGAをデータセンターに持ち込むというアイデアが盛んであるが、個人的には一般化する気がしない。
 例えばスーパーコンピューターというかクラスターにFPGAを組み込んだ例はMicrosoft Project CatapultでFPGAをBingの検索に取り込んだ例が比較的記憶に新しいところであるが、これはGoogleなどの例を見ても検索アルゴリズムは変化するので、ASICでの実装よりもCPU/GPUでソフトウェア実装するかFPGAでハードウェア化する方が柔軟に対応できることは理解できる。また、日本国内でDwango/Niconicoが実際に行っているようにNiconicoやNetflixのような大手ビデオストリーム配信事業者が動画処理をFPGAで行うことも理解できる。
 しかし、FPGAで実装となるとハードとソフトの両方の開発が必要になるケースが多いだろうし、以前はハードウェアが乏しかった機械学習も揃ってきているため、NVIDIA GPU + CUDAとかGoogle CloudTPU + TensorFlowといったメジャーな方式の方が低コストで性能も十分なケースは多そうに思う。実際はというと、Stratix10 GX2800を検索してみるとFPGA単体で$6000・ボードに搭載されたもので$8000~となっているが浮動小数点演算性能は9.2 TFLOPSに過ぎないのに対し、NVIDIA Tesla T4だと最大65 TFLOPSで$2000~といった具合である。この価格差・性能差を許容して強いてFPGAを使うことにメリットを見出せるのがMicrosoftのような大企業しか存在しないと思う。
 もっとも、筑波大はスーパーコンピューター運用者である以前に教育機関・研究機関であるし、さらに、GPUを搭載したDenebノード46ノードを含んでいることからも上述のような「GPUの方が一般的には使いやすい」ということは承知しているということなのだろう。

 ところで、筑波大のGPUが苦手とする局面というスライド「独自の通信機能を持たない」とあるが、これを補うのがNVIDIAによるMellanox買収であろう。個人的にはGPU間でノードを跨いで通信するケースはスーパーコンピューターなどの極めて限られたマーケットでしか想像できないのであるが、NVIDIAは科学演算向けのTeslaとグラフィックス向けのGeForce/Quadroを分化し始めており、例えばVoltaは科学演算用でしか登場しなかった。もしNVIDIAがTeslaの専用設計化を推し進めるようであればMellanoxのノード間通信技術の取り込みなど、さらにFPGAの優位性が覆されていくことになるのではないだろうか。

Arm IPのMachine Learning性能

Armが見据える半導体の未来 - マイナビ

 個人的に興味を持ったのは顔認識(Face Detection)による端末アンロック(Face Unlock)の箇所で、Cortex-A75などのCPU IP群やArm NPUに加えMali-G52などのGPU IP群が示されている点である。これらのIP製品が機械学習に対応していることは以前から示されていたが、性能をグラフ化したものは初めてではないかと思う。

 $1000クラスのスマートフォン、例えばiPhoneやGalaxy Sシリーズに搭載されるA12やSnapdragon 855などのプロセッサーは半導体にコストをかけられるため専用NPUを搭載できるが、$100~200クラスのスマートフォンではコスト増加は許容できないだろう。しかし既に搭載されているGPUを流用できるのであれば話は簡単である。
 Arm GPU製品ではMali-G31/G51/G71以降ではArm NNに対応していて機械学習のフレームワークを利用できることは以前から知られていたが、Mali-G52がCortex-A75より高速というのは興味深い。例えばサブ$200クラスのスマートフォンに搭載されるMediaTek P30の場合Cortex-A53 8コア・Mali-G71 MP2という構成で、既存のMali GPUを使って顔認証を行うことも原理的には可能ということになる(スマートフォンメーカーが実装するかはともかく)。

日本のEUV周辺技術開発企業「EIDEC」が解散

日本のEUV周辺技術開発企業「EIDEC」が解散 - マイナビ

 どの程度の資金(とりわけ税金)が投入されたのか不明だが、個人的には無駄金だったとしか思えない。かつて日本の電機メーカーーーソニー・パナソニック・三菱・日立・東芝・サンヨーなどーーはいずれも自社で先端半導体部門と自社工場を抱えていた。これらが1990年代以降の不況期を通して統廃合された結果、現在でも残っているのは、既に日本企業とは言い難い東芝メモリーとパナソニックのみであり、いずれも28nmより微細な先端プロセスは保有していない。

 この辺りの世界的な流れはこの辺りを見れば一目瞭然で、2000年頃の180nm世代プロセスで世界で28社あったのが2011年頃の32nm/28nm世代プロセスでは僅か8社となっている。これ自体は世界全体で共通の流れなので日本企業の問題というわけではないのだが、180nm世代で28社中10社と1/3を占めた日本企業が32nm/28nm世代ではパナソニック1社になっているという全滅ぶりである。
 もちろん、日本企業が半導体を製造しなくなった現在でも、シリコンウェハーや半導体製造装置などのかたちで先端半導体に携わる日本企業は多数存在するが、例えば露光装置に関して言えば7nm世代で導入の始まったEUV露光は蘭ASML(露光装置メーカー)と独Carl Zeiss(光学レンズなどを提供)の独占状態でニコン・キヤノンは既に蚊帳の外となりつつある。

 そして本件EIDECが設立されたのが2011年1月に対し、32nm/28nmが登場したのが2010年のことである。つまり、EIDECは日本企業がそれを必要としなくなった時点で設立されたことになる。本当に必要だったのだろうか?