ALH84001

私的コラム&雑記(&メモ)

今週の興味深かった記事(2019年 第39週)

2019-09-29 | 興味深かった話題

Hot Chipsで発表されたNPU(続)

Hot Chips 31はマシンラーニングが花盛り - マイナビ

 二週間前から継続して、Hot Chips 31で発表されたNPU(Neural Processing Unit)に関するHisa Ando氏による解説がマイナビに掲載されている。今週はTesla MotorsのFSDとNVIDIAのRC18に関してのものだった。

 記事の内容の前提であるが、Tesla Motorsの運転補助にはHW1.0~HW3.0までの三世代が存在しており、第一世代HW1.0ではIntel傘下MobilEye EyeQ3ベース、第二世代HW2.0/2.5ではNVIDIA Drive PX2(NVIDIA Tegra TX2 + NVIDIA Pascal GPU)ベース、そして第三世代ではTesla内製によるFSDベースとなっている。

 2019年現在でのNVIDIAのハードウェアを使ったDeep Learningとは、つまりNVIDIA GPUによる汎用的なコンピューティング機能=General Purpose GPU=CUDAを使っているので、よりASICに近いニューラルネットワーク専用ロジックを使えば電力効率や性能が向上できる。また、チップやチップを利用可能にするソフトウェア(いわゆるBSPやSDK)に要する開発コストを除外すれば、チップの単価が下がるのも理解できる。
 ただし、大手自動車会社・関連会社を何社も相手に何百万個ものプロセッサーを出荷するNVIDIAに対し、自社でしか使用しないプロセッサーを内製するというのは採算がとれるか難しい(例えばプロセッサーのリソグラフィーに必要なマスクを作るだけで数百万ドルのコストがかかる)。記事中ではテープアウトまで14カ月で開発したとあるが、逆に言えばEDA会社(Synopsys・MentorGraphics・Cadence・Arm・CEVAなど)がライセンスする既存のIPを組み合わせ、独自開発を極小化にしないと採算が取れないということではないかと思う。

 個人的に気になるのは開発時期である。TeslaはFSDを今年4月に発表しているが、出荷までにはテープアウト後6~12カ月程度かけて検証することになる(実際には、検証で不具合が出るとさらに遅延が発生する)。4月の発表時点でどの程度まで検証が進んでいたか不明であるが、仮に発表時点で開発に14カ月・検証に12カ月を費やしていたと仮定すると2017年2月頃に開発を開始したという計算になる。
 Teslaの自動運転ハードウェアエンジニアリングといえば、AMDでRyzenの開発を主導したJim Keller氏が担当副社長として在籍したことで知られ、Keller氏がFSDの開発に関与したという報道は無いが、時期的には奇妙に一致する(2017年2月~2018年4月)。

 一方のNVIDIAであるが、以前はGPGPUのリーダーとしてマシンラーニング環境の代名詞的な存在であったものの、近頃はGoogleはGoogle TPU・AWSは傘下Annapurna Infarentia・FacebookはIntel Nervana NPP-I/NPP-Tを利用しており、専用ハードウェアの登場で劣勢になりつつある印象が強い。
 そのNVIDIAはHot Chipsなどで2018年度の研究チップ(Research Chip 2018=RC18)を発表しているが、あくまで研究開発用なので製品化されるものではない。おそらくNVIDIAはGPU機能を持たない専用NPUを開発中と見られるが、その登場が待たれる。

Ryzen 4000シリーズはSMT4に対応か?

Rumor : AMD Zen 3 Architecture to Support up to 4 Threads Per Core With SMT4 Feature - WCCF Tech

 WCCF Techが報じた「ウワサ」であるが、ZEN 3ベースのAMD Ryzen 4000シリーズはSMT4に対応する可能性があるのだという。

 そもそものSMTであるが、一般向けとしてはIntelがPentium 4(Northwood)で採用したHyperThreadingが最初であるが、2セットのレジスタファイルやプログラムカウンターを用いることで2つのスレッドが1コアのCPU内で完全に並列で実行される技術で、当時はOut-of-Order実行と並んでパイプラインを埋める技術という認識が強かった。ところが、近年はCPUとメモリーの速度のギャップが年々開いており、CPUがメモリーを読み書きする遅延を隠ぺいする技術として認識されてきている。
 ちなみに、Pentium 4と同時期にマルチスレッド技術をCPUに持ち込んだSun Microsystems "Niagara"ファミリーは、専ら後者に注目しており、同時に実行できるスレッドはCPU1コアあたり1スレッドのみで、メモリーアクセスのイベントが発生する毎にスレッドが切り替わる仕様であった(参考)。このような方式はSMTに対してVMTと呼ばれている。

 SMTは上手く動作させれば10~20%程度の半導体リソース追加で20~最大40%程度のパフォーマンス向上を狙えるということで効率は良いが、シングルスレッド性能が向上するわけでもなく、むしろ並走するスレッド数が増えるとポート競合が発生しやすくなるため(この場合はシングルスレッド性能が低下する)、演算ユニットなどSMTを実装する1コアにリソースが潤沢にあることが前提となる。逆に、仮にSMT4やSMT8でポート競合が完全に無くなるほどのリソースを追加すると、1スレッド用小型CPU4コアや8コア分のリソースが必要になってしまいSMTである意味が無くなってしまう。バランスが重要となる。
 ちなみに、4並列以上のSMTは初めてではなく、IBM POWERファミリーでは前世代POWER 8・最新POWER 9でSMT8を実現しているが、POWER 9の場合は "64b slice" を8 sliceを束ねたような格好をしているが、"64b slice"はまるで小型CPUのような格好をしており1スレッドで専有される。共有されているのはキャッシュ・デコーダーなどのフロントエンドと除算ユニット・暗号エンジン・10進数アクセラレーターなど使用頻度が低い演算ユニットだけである。

 以下に、IBM POWER 9・AMD Zen 2・Intel Sunny Coveの各コアのスペックとスレッドあたりのリソースの量を示す。

 キャッシュの容量や各実行ユニットの数だけを見れば、Zen 2コアやSunny Coveコアの方が1スレッドあたりのリソースが潤沢そうに見えるかもしれないが、これはZen2やSunny Coveでは実行ポート1ポートに複数の演算機能をもたせているからである(ALU・FPU・SIMD・Load/Storeの数を足すと実行ポート数よりも多くなるのはこのため)。実際にはスレッドあたりの実行ポートの数についてはPOWER 9・Zen 2・Sunny Cove共に5~5.5とほぼ互角である。恐らく、1スレッドをOut-of-Orderで競合を避けつつ効率よく動作させるためにはこの程度のポート数が必要なのだろう。

 IBM POWER 9 (SMT8)AMD Zen 2Intel Sunny Cove
SMT SMT8 (per thread) SMT2 (per thread) SMT2 (per thread)
L1$I (KB) 64 KB 8 KB 32 KB 16 KB 32 KB 16 KB
Exec Ports 42 5.25 11 5.5 10 5
ALU 8 1 4 2 4 2
FPU 8 1 4 2 3 1.5
SIMD 8 1 4 2 3 1.5
Load 8 1 3 1.5 2 1
Store 8 1 2 1 2 1
L1$D (KB) 64 KB 8 KB 32 KB 16 KB 32 KB 16 KB

1ポートに複数の機能をもたせることはSMT2程度であればポート競合の回避には役立つだろうが、SMT4まで増やしてしまうとポート競合は回避できないだろう。

 AMDがZen 3でSMT4を実装するかどうか公式発表は無く不明だが、Zen 3は既に開発が完了しており来年に製品が投入されることから、Zen 2を拡張したものであることは確実と思われる。この場合Zen 3がPOWER 9のような構成に化けるとは考え難く、もしSMT4を実装するならばポート競合の多発とシングルスレッド性能の低下は避けられないだろう。
 HPCや軽量な処理が多スレッド発生するWebサーバーなどのワークロードではメモリーの遅延がボトルネックになることが多いため、SMT4にすることで多少はシングルスレッド性能を犠牲にしても全体的な性能を向上できる可能性がある(Sun Microsystemsが提唱したThroughput Computingのアイデアと同じである)が、ユーザー1人がリソースを占有するデスクトップ用途ではSMT4はパフォーマンス向上に繋がらない可能性が高い。

 もしAMDがZen 3でSMT4を実装する場合、IntelがHyperThreadingの有効/無効をXeon / Core i7/i5/i3 / Pentiumの製品毎に使い分けているように、製品毎でSMTなし/SMT2/SMT4を使い分けるのではと予想する。

# ただ、AMDはRyzenでもEpycでも半導体ダイを使いまわしているので、
# 果たしてRyzenで有効に使えないSMT4を実装してくるのかという点には疑問が残る。

CentOS 8がリリース

CentOS 8.0がリリース,ローリングリリース「CentOS Stream」もアナウンス - Gihyo.jp

 Red Hat Enterprise Linux 8(RHEL)のGAから4カ月を経てCentOS 8およびCentOS Streamがリリースされた。

 御存知の通りRHELはオープンソースで、ソースコードはほぼSRPM形式で公開されている。そのため原理的にはSRPMからRHELクローンをビルド可能であり、実際にCentOSはそうして作られているし、Oracle LinuxやAmazon Linuxも同様である。

 前置きが長くなってしまったが、ここで疑問なのがローリングリリースモデルを採用するというCentOS Streamである。
 ローリングリリースモデルのような高速なリリースサイクルの採用自体は理解できる。なにせ5月にRHEL 8が出るまで最新だったRHEL 7など2013年6月にリリースされたLinux Kernel 3.10を使い続けている。これはRed Hatが5年に1回程度の頻度でしか新バージョンを出さないためで、2年に1回の頻度でLTSが出るUbuntuとは対象的である。
 とはいえ、Ubuntuのようなポイントリリースならともかくローリングリリースというのは理解できない。Red Hatのローリングリリースには既にFedoraがあって差別化が難しく、その一方で従来のRHELとの互換性も低くなることが予想されるが、さらにそれをCentOSブランドで出すとなると、もはや位置づけがよく解らない。

 そもそも、Red Hatのリリースサイクル高速化は近年のDocker/Containerサポートに起因しているはずである。Dockerの機能拡張にLinux 3.10のまま対応することが難しく、同社はそれを解決するためにCoreOSを買収した。
 Fedoraと統合後のCoreOSがどのように運用されるのかまだ分からないが、Fedoraや旧CoreOSのようなローリングリリース版とRedHatブランドの企業向け有償版とが出ることだろう。この場合、恐らくRed Hat版は1年に複数回の高速なリリースサイクルを採用するだろうと予想する。これはDockerの更新頻度に追従は必要だが、Red Hatの顧客の大企業はローリングリリースに適応できないためである(ちなみにDocker Enterprise Editionのリリース頻度は3カ月に1度である)。
 それならば、CentOS Streamはそれに準じたものであるのがユーザーとしては理解しやすい。例えばRed HatブランドとCentOSブランドでそれぞれStream版とCoreOS版が3カ月に1回の頻度でリリースされる、といったような。

 以上は筆者の予想・希望なので、Red Hatが実際にどうするのか不明だが、解りやすい≒予測しやすく計画を立てやすいリリースモデルの採用を期待したいところである。

Wave ComputingのCEOが交代していた

CEO Leaves Wave, Putting MIPS' Future in Doubt - EE Times

 Hisa Ando氏の個人ページの記事で知ったのだが、Wave ComputingのCEOが9月2日に交代していたらしい。

 個人的な疑問はWaveの製品・顧客で、WaveはNPUのIP(TritonAI 64)を開発している企業だが、同社のニュースサイトを見てもTritonAI 64の発表以外はMIPS TechnologiesのCPUコアライセンスの話題しか掲載されていない。また、EE TimesにもMIPSの主要顧客としてMediaTek(同社が買収した旧Ralink系の家庭用ルーター製品用SoCにMIPS24KcやMIPS1004Kcなどが採用されている。MediaTek SoCは日本ではBuffalo WSRシリーズルーターに採用されている)やIntel傘下のMobilEye(EyeQ2から最新EyeQ5まででMIPS34KfやMIPS I6500-Fなどが採用されている)の名が挙げられているが、Waveの顧客の名は挙げられていない。

 背後にベンチャーキャピタルTallwood Venturesがついており、自身が儲けていなくても企業運営や企業買収などが可能とはいえ、あまり明るい未来は感じられない。

Comment

今週の興味深かった記事(2019年 第38週)

2019-09-21 | 興味深かった話題

Hot Chipsで発表されたNPU

Hot Chips 31はマシンラーニングが花盛り - マイナビ

 Hot Chips 31で多数発表されたNeural Processing UnitについてHisa Ando氏による解説が先日よりマイナビに掲載されている。

 個人的に印象深かったのは、各社が発表したNPUは学習 traning 用と推論 inference 用のプロセッサーが別々になっているケースが多かった点である。学習に使われるのが主にFP32・推論に使われるのが主にINT8であることを考えれば演算ユニットを分ける選択肢があるのは理解できるが、素人考えでは同じ装置を使い学習させ推論させる方が最適化などで有利だったり、運用も簡単なのではと想像していたので意外であった。

 しかしよくよく考えてみると、確かにHabana Labsが主張する通り長時間を費やす学習に対し推論にはリアルタイム性が求められるなど要求性能は大きく異なるし、また、Amazon・Microsoft・Google・Facebookといった大規模ユーザーの顔ぶれを考えてみても、同じ装置で学習と推論を実行する必要性は低く、また推論専用の装置にFP32演算機能を持たせるのは無駄であるから、確かに学習用NPUと推論用NPUに分けることは合理的と言えそうだ。

 もっとも、学習用と推論用を分けるといっても、Habana Labsが推論用Goyaと学習用Gaudiでほぼ同一のアーキテクチャーを踏襲しているのに対し、Intelは推論用Spring Hillと学習用Spring Crestで全く異なるアーキテクチャーを採用するなど、各社でアプローチ方法はまちまちに見える。

 ところで、私のような個人ユーザーからすると、NVIDIA GPUのような$100~500でAmazonで買えて学習にも推論にも使えるような装置の登場に期待したいところである。現状はNPUとしては汎用的なNVIDIA GPUを使うか推論専用のIntel MyriadやGoogle EdgeTPUに限定されてしまうのが残念である。

Oracleが同社クラウドサービスに無償メニューを追加

打倒AWSの切り札になるか Oracleがクラウドとデータベースを全世界で無料提供 - ITmedia

 AWSの無料利用枠の場合、EC2 t2.microインスタンスのほかS3 5GB分やRDSがサインアップから1年間だけ月間750時間(31日間)無償という制限になっている。そのため、無償のインスタンスは「お試し」用で個人サーバーなどの用途で常用することは現実的ではない。これがOracle Cloudでは仮想マシン2インスタンス・計100GBのブロックストレージ・計10GBのオブジェクトストレージ・データベース20GBまで無期限なので無償インスタンスのままでも何かに使えそうだ。

 もっとも、Oracle Cloudの無償の仮想マシンインスタンスは1/8 OCPU + RAM 1 GBだったりと、性能面での実用性は低そうなので用途はかなり限定されるのではと思われる(ちなみにAWS t2.microの場合は1 vCPU + RAM 1 GBである)。1 OCPUがIntel XeonまたはOracle SPARCの物理1コアということのようなので、仮に3.0 GHzのXeon 1/8コア分と仮定すると、性能の目安としては概ねRaspberry PiのCortex-A53 1.5 GHz x 4コアと同等と考えてよさそうだ。自宅でRaspberry Piサーバーを運用しているような人であれば、それをクラウドに移行してみても良いかもしれない。

# そもそも低コストなんだからケチケチせず有償で使えという声もありそうだが…
# 個人的には、無償枠縛りのRaspberry Piスペックでどこまで実用性を追求できるか試すのも面白そうだと思う

BackBlazeが値上げ

Backblaze、ここ10年で初の1ドルの値上げ - マイナビ
Raising Prices is Hard - BackBlaze

 値上げ自体は今年3月に実施されたようだが、意思決定の舞台裏についてのブログポストが9月17日付で投稿されたらしい。
 値上げというと印象は悪いが、よくよく調べてみると、これまでの利用額から$1/月の値上げされ容量無制限で$6/月となったらしい。これは個人利用限定の価格設定とはいえ容量無制限で$6/月という低価格には驚かされる。

 2年間で$110というプランもあり、USB接続HDD 8TBが$130であることを考えると6~8TBほどバックアップするような人であれば実用性が高そうだ。

# 個人的には大容量データはすべてNASに保存しているため、NASがバックアップサービスに対応しないと実用に耐えない

Comment

今週の興味深かった記事(2019年 第37週)

2019-09-15 | 興味深かった話題

NetCAT

The NetCAT is out of the bag: Intel chipset exploited to sniff SSH passwords - The Register
NETCAT - VU Sec

 2018年初のMeltdown/Spectre以降、Intel CPUに関連する脆弱性の報告が相次いでいるが、今回はData Direct IO(DDIO)に関するものである。

 詳細はThe RegisterおよびVU Secの記事を御覧頂くとして、難しいのは脆弱性の対象となる構成がやや不明瞭な点にある。The Registerには以下のようにある。

... requires the eavesdropper to have compromised a server that has a direct RDMA-based Infiniband network connection to the DDIO-enabled machine ...

RDMAはRemote DMAのことで、NFSやiSCSIなどのネットワークストレージでリモートからDMAアクセスする機能である。NFSやiSCSIでよく利用されるとはいえ、NIC(ネットワークアダプター)が対応している必要があり、データセンターはともかく消費者には一般的とは言えない。もっともRDMAだけであればAWS EC2 Enhanced Networkingでも使用している。問題はInfiniBandの方である。
 InfiniBandとなると対象となる環境は限られてくる。例えば、私の理解する限りではAWS EC2 Enhanced Networkingは40Gbit以上のEhternetでInfiniBandではない。ところが、IntelサイトによるとDDIOはInfiniBandに限らない。

... Intel DDIO has no hardware dependencies and is invisible to software, requiring no changes to drivers, operating systems, hypervisors, or applications. All I/O devices benefit from Intel DDIO, including Ethernet, InfiniBand*, Fibre Channel, and RAID.

脆弱性がDDIO全般に及ぶのであればInfiniBandに限らずEthernet・Fibre Channelなども対象となりそうだが、脆弱性を発見したVUSECサイトにもInfiniBandとは明記されていない。また、EthernetアダプターでInfiniBandプロトコルを使うRoCEの場合は脆弱性の対象になるのか?という疑問もある。

Huawei Ascend SoC/DaVinci NPU

エッジからデータセンターまで幅広く活用可能なHuaweiのDaVinci - マイナビ
Tesla V100の2倍以上のピーク演算性能を達成したデータセンター用DaVinci - マイナビ

 HuaweiがHotChipsにてAscend SoC/DaVinci NPUファミリーについて発表したらしい。
 私の理解する限り、Neural ProcessingはHuaweiに限らず中国および中国企業にとって極めて重要なパラダイムの変遷である。例えばCPUには長い歴史があり(例えばIntel i4004が登場したのは1971年のことである)、メジャーなCPUベンダーは膨大な数のパテントを抑えエコシステムを構築済で、新参の中国企業がCPUでIntelやIBMといった企業に勝つことは難しい。
 その点で、パラダイム変遷は新興企業に大きなチャンスをもたらすことになる。例えばスマートフォンの登場はNokia・Ericssonといった古参の端末ベンダーやTexas Instruments・ST Microelectronicsといった組込プロセッサーベンダーを市場から蹴り出し、代わってApple・Huaweiなどに繁栄をもたらした。同様に、Neural ProcessingはCPU・GPUといった従来のハードウェアでは絶対に米国企業に勝てない中国企業にもチャンスをもたらす可能性がある。

 しかしAscendを見ると、また違った側面に気付かされる。Ascendで特徴的だと思うのが高度な動画デコード/エンコード能力である。記事から引用すると、以下のようにある。

(前略)...Ascend 310は電力効率の高いエッジ用のSoCである。FP16で8TFlops、INT8では16Topsのピーク性能を持つ。それに16チャネルのH.264/265のデコード、1チャネルのH.264/265のエンコードができる。
(中略)…Ascend 910はFP16で256TFlops、INT8では512Topsのピーク性能を持つ。そして、128チャネルのH.264/265のデコードができる。

「Deep Learning」などと検索すればわかる通り、マシンラーニングと画像認識との結びつきは強い。例えば自動車の自動運転においてもカメラが捉えた映像/画像を認識して追跡したり回避したりといった判断を行うことになる。そこで、Intel MyriadやIntel Nervana NPP-I1000などの一部のプロセッサーはニューラルネットワーク処理用とは別に画像処理用や音声処理用のロジックをもっている。とはいえ、自動車用であればカメラがあっても7基(前方x3・左右各x1・後方x2)といった具合で、その中で16チャンネル・128チャンネルの動画デコーダーというのは文字通り桁違いである。

 しかし、Huaweiという会社の背景を考えてみれば納得がいく。つまり監視カメラ用である。
 中国では政府による監視が取り沙汰されている(参考1参考2)。これらの政府御用達の監視技術に用いられているのがHuaweiなのか別のベンダー製なのかは不明だが、Huaweiの成り立ちが元人民解放軍所属の軍事技術関係者であることからも、その可能性は高いのではと推測する。

 ところで、Tesla FSDやHuawei Ascendの登場がNVIDIAにもたらした影響はいかがほどだったかと愚考せずにはいられない。過去3年ほどの間、NVIDIAはTensorCoreやDLAといったNeural ProcessingのAcceleratorをGPUに統合する道を選んだ。言い換えればNVIDIA Teslaは汎用的なGraphic Processing Unit(主)にNPU(従)を統合したものであって生粋のNPUではない。それはそれで間違いではなかったのだろうが、これほどNeural Processingに特化したプロセッサーが登場すると、NVIDIAのGPUは性能的にもコストパフォーマンス的にも見劣りしてしまう。Xavierなどはその最たる例で、自動運転用にあれほどのGPUが必要なのか?と思わずにはいられない。GPUに統合されていないNPUの登場が待たれるところである。

Comment

今週の興味深かった記事(2019年 第36週)

2019-09-08 | 興味深かった話題

Samsung Exynos 980, Huawei/HiSilicon Kirin 990

Huawei Kirin 990 & Samsung Exynos 980 are the First Mobile SoCs with Integrated 5G Modem - CNX Software

 最先端プロセスである7nm/8nmが非常に高価であるせいもあるのだろうが、なんとも難しい構成である。

 Samsungが発表したExynos 980・Huawei/HiSiliconが発表したKirin 990に、現行のプロセッサーを比較してみた。
 まずはSamsungであるが、前世代Exynos 9820/9825とExynos 980との比較で気になるのはCPUの変更である。Armの新開発Cortex-A77は非常に高いパフォーマンスが予想されているとはいえ、Samsungは独自実装のExynos MシリーズCPUコアを持っており、Exynos M4 2.73 GHzとCortex-A77 2.2 GHzとでは前者の方が高速ではないかと想像する。ミッドレンジコアの省略やGPUが同じMali-G76ながらMP12からMP5への大幅削減も併せて考えると、5Gモデムの消費するリソースが相当に大きく、半導体バジェットの制限からCPUやGPUを削減したのではと推測する。
 Huaweiはスペック表だけで見れば、Kirin 980をシュリンクして5Gモデムを統合しただけという感じだ。CPUはやや動作周波数が向上しているが高性能なCortex-A77の搭載は見送っており、一方でGPUは同じMali-G76ながらMP10からMP16に拡張している。

 先入観なしにExynos 980とKirin 990を比較すると、多くのワークロードで後者の方が優れているのではないかと思われるが、そもそもSamsung・Huaweiとも自社製プロセッサーを外販していないため搭載端末がSamsung製端末・Huawei製端末に限られる。言い換えればAndroid OSの動作も微妙に異なってくるし、Huaweiに至ってはEMUI Androidから独自のHarmony OSへの移行が決まっており単純比較はできない。さらに言えば、Huaweiについては米中貿易摩擦によりArmもHuaweiへのプロセッサーライセンスの停止を検討中と報道されており、いつプロセッサーの製造が停止されるか分からない。
# 勝手な想像だが、Kirin 990にCortex-A77が搭載されなかったのはライセンスを取得できなかったせいかもしれない。

 New GenerationCurrent Generation
Samsung
Exynos 980
Huawei
Kirin 990 5G
Samsung
Exynos 9825
Huawei
Kirin 980
Qualcomm
Snapdragon 855+
High
Perormance
Arm Cortex-A77
2.2 GHz x2
Arm Cortex-A76
2.86 GHz x2
Samsung Exynos M4
2.73 GHz x2
Arm Cortex-A76
2.60 GHz x2
Arm Cortex-A76
2.96 GHz x1
Moderate N/A Arm Cortex-A76
2.09 GHz x2
Arm Cortex-A75
2.4 GHz x2
Arm Cortex-A76
1.92 GHz x2
Arm Cortex-A76
2.42 GHz x3
Low Power Arm Cortex-A55
1.8 GHz x6
Arm Cortex-A55
1.95 GHz x4
Arm Cortex-A55
1.95 GHz x4
Arm Cortex-A55
1.80 GHz x4
Arm Cortex-A55
1.80 GHz x4
GPU Arm Mali-G76 MP5 Arm Mali-G76 MP16 Arm Mali-G76 MP12 Arm Mali-G76 MP10 Qualcomm Adreno 640
Integrated
Modem
3G/4G/5G 3G/4G/5G 3G/4G 3G/4G 3G/4G
Comment

今週の興味深かった記事(2019年 第35週)

2019-09-01 | 興味深かった話題

Intel Lakefield発表

Intelが3D積層のヘテロジニアスマルチコアCPU「Lakefield」の技術を発表 - PC Watch

 目玉は3Dスタッキング技術Foverosの初採用だが、ユーザー視点で見るとどういうマーケットを想定しているのか分からない。
 Foveros技術とFoverosを採用したLakefieldプロセッサーの概要は1月に発表済である(ちなみに、このときのプレゼンテーションビデオはYouTubeで観ることができる)が、高性能Core系コアは1コアのみでAtom系コアが4コア、パフォーマンス/消費電力でいうとCore Yクラスでマーケットは大きくない。消費電力だけで言えばAndroidタブレットもありえるのだろうが、Intelアーキテクチャー採用となるとChromebookぐらいしかない。薄型のWindows 2-in-1を作れなくもないのだろうが性能的に厳しいかもしれない。その一方で、3Dスタッキングでコストが増加しているはずだがパフォーマンスが低いのであまり高価では売れないのではないか。

 勝手な想像だが、Foverosは今後は様々な製品で採用されることになるのだろうが、現時点では新技術で歩留まりや発熱に不安がある。言い換えると広く出回るCore i3/i5/i7では採用し辛く、相対的に小さい≒失敗してもダメージが小さいマーケット向けにしたのかもしれない。

 Foverosは3DスタッキングでAMDのMCMとは異なるが、いずれもCPUを高価な最先端プロセス(10nm/7nm)・I/Oを大電流に適した大きめのプロセス(14nm/12nm)で作り、組み合わせているという点では似ている。

IBMがPOWER ISAをOpen Source化

Get your royalty-free soft-core OpenPOWER processor core blueprints here - TheRegister
IBM's Power-ful open source gift - ZDNet

 IBMが、RISC-VやArmに対抗するためだろうが、POWER ISAとリファレンスデザインのOpen Source化に踏み切った。
 IBMがOpenPOWERを始めた2013年時点では、Armの脅威度は上がっていたしApple MacOSがPowerPCからIntelに移行済で勢いは衰えていたものの、まだサポーターがいた。旧Freescaleは蘭NXPによる買収前でPowerPC版QorIQを展開していたし、旧LSI(現在はBroadcomの一部)はRAID HBAでPowerPC 476を採用していた。また、AppliedMicro(現在はMacomの一部)はIBMよりPowerPC 400シリーズを買収して組込製品の展開を始めていた。
 しかし、Avagoに買収されBroadcomの一部になったLSIはCPUの自社開発はやめArmを採用しているし、MacomはAppliedMicroが自社開発していたCPUを売却した。NXPはFreescaleの事業を引き継いでいるが、マイクロプロセッサーの主力はArmベースのi.MXとQorIQ LayerScapeシリーズでPowerPCベースの新しい製品は古い製品が残っているのみである。まさに四面楚歌といった状態である。

 ちなみに、POWER/PowerPCプロセッサーは米軍・NASA関連で広く採用されており、戦闘機に搭載されるようなコンピューターのプロセッサーは概ね旧FreescaleかIBMのPOWER/PowerPCである。そのためNXPやIBMがPOWER/PowerPCを簡単に止めることは考えられないが、サポーターが減るとビジネスが難しくなる。

 とはいえ、公開されたのはPOWER ISA(命令セット)でマイクロプロセッサー自体は自前で開発する必要があるし、公開されたソフトコアプロセッサーMicrowattはFPGAなどに実装して使う分にはいいが、単体で製品化できるようなものではない。

 一方、ZDNetでは今回のIBMのアクションに関して、winnerとloserを記事にしているが、的外れだろう。
 まず、上述の通りOpen Sourceになったのは命令セットとMicrowattという小規模なソフトコアのみで、POWER9のような最高性能・最先端プロセッサーが公開になったわけではないから、中国やロシアのような米国と敵対する国々にとっても「x86やArmに依存しなくていい」以上の意味はないし、命令セットに関わらず数億トランジスターレベルのCPUを設計する技術がなければ最先端CPUを設計することはできない(そして、その点では中国は既にMIPSを取得済である)。
 また、上述の通りPOWER/PowerPCのサポーターの減少が問題となっているから、採用するベンダー(記事中ではAppleやMicrosoftなど)が劇的に増加するとは想像し難い。クラウドベンダーについても既にGoogleはRackspace/IBMと共同で"Zaius"を採用しているし、AWSやAzureがGoogleに続いてPOWERを採用する可能性はあるが、ZaiusでもプロセッサーはIBM POWER9そのものでGoogleがCPUを設計したりはしていない。投資やリスクが馬鹿にならないので既製品を使うというのは妥当に思える。仮にAWSやAzureがGoogleに続くとしても今回のPOWER ISA公開とは無関係だろう。
 逆に、記事中のLoser側も妥当性に欠ける。

フッ化水素輸出管理/DRAM問題はどうなった?

日本、サムスン電子向けフッ化水素輸出を許可 - Bloomberg
フッ化水素の韓国向け輸出許可 管理強化後初めて - 日本経済新聞

 一部メディアで、8月30日にステラケミファからサムスン向けの輸出申請が許可されたという内容が報じられたが、逆にほかの一部のメディアではフェイクニュースだという話もでてきている。実際、日経の記事にも以下のようにある。

ステラケミファの広報担当者は「30日朝の時点で経済産業省から通達は来ていない」と述べた

 対韓国のフッ化水素の輸出問題は、ホワイト国(グループA)からの除外に関する輸出管理の強化であって輸出規制ではないので、きちんと書類を揃えて申請すれば許可されないと逆に日本がWTO違反になってしまう。もちろん、その書類も用途の内容が製造する工程表や配管図なども求められるそうで簡単に揃えられるものでもなかろうが、とはいえ1カ月超も輸出されていないというのは驚かざるをえない。

 ところで、私は半導体製造に詳しくはないが、製造する工程表や配管図というのは企業秘密には違いなかろうが輸出許可申請のために門外不出とか、それが漏れたら他社にシェアを奪われる、という「秘伝のタレ」的なものとも思えない。

 その理由は、まず、そもそも半導体の製造方法のおおまかな材料やメーカー・露光パターンなどは決まっているからである(参考1参考2参考3)。最先端プロセスならどこも蘭ASMLの光源と独Carl Zeiss SMTのレンズを使った装置を使って露光させているし、材料もシリコンウェハーなら日本のSumcoやSEH(信越半導体)や独Sitronicあたりで決まっている。話題のフッ化水素だって森田化学とステラケミファがシェアの大部分を抑えている。露光時間などのより細かい工程や薬品のレシピは門外不出の企業秘密だろうが、役人に提出するレベルの工場の配管図や工程表で大きな打撃を受けるほどとは思えない。

 また、NANDやDRAMの市場の特殊性が挙げられる。NANDやDRAMは技術的にはIntelやIBMが開発・生産するようなマイクロプロセッサーに比べ難易度は低いものの、その一方で大量生産・ダンピングに近い価格で販売・シェアを奪ってライバルを蹴落とすということが横行しており、企業体力がある巨大企業でなければ市場で生き残れないなど、技術以外による部分が大きい。そのため、日本製ではDRAMは米Micron(旧Elpidaを買収)、NANDは米Western Digital/東芝(Kioxia)ぐらいしか競合が存在しない。かといって機密情報が漏洩していい理由にはならないが、技術が漏洩すると一朝一夕でライバルが出現するというような市場ではない。

 ちなみに、DRAM eXchangeのインデックスDXIは連日で値下がりを続けており、7月初旬の底値にこそ達していないが2カ月かかってようやく6月上旬の水準まで下がった。これは需要が停滞しているとみられる中で、生産量は微量ながらも増加を続けているからだろう。その一方で、私が個人的に購入を考えていたSamsung製DDR4 2666 32 GB ECC Unbuffered DIMMは取扱店が消えた(※モジュール単体で32GBはほかに見つからなかった)。

Sony MDR-M1ST

伝説のモニターヘッドフォン再び、ソニー「MDR-M1ST」を「CD900ST」と聴き比べる - AV Watch
ソニーが新モニターヘッドフォン「M1ST」で求めた音。定番機CD900STとの違いは? - AV Watch

 SonyのMDR-CD900STというと30年ほども前からモニターヘッドフォンの定番で、スタジオモニターとしては珍しく一般消費者のオーディオマニアにも受けが良い(※調べてみてもらえると分かるが、スタジオで使用されている機器とオーディオマニア御用達の機器とではブランドも製品も全く異なる)。
 音質もさることながら15000~18000円程度で購入できるという手軽さも要因だろう。私も宅内使用用の高音質ヘッドフォンについて訊かれれば迷わずMDR-CD900STを勧めていた。一般人でも手の出しやすい価格だと思う。

 新モデルMDR-M1STにも俄然興味がそそられる。個人的に大きいと感じるのは入力インピーダンスで、MDR-CD900STでは63 ohm (1kHz) とポータブル機器との組み合わせには適さなかったが、MDR-M1STでは24 ohm (1kHz)なのでヘッドフォンとしては大きくなく、恐らくポータブル機器との組み合わせでも使えるだろう。
 気になるのは値段で31500円というのは安くない。MDR-CD900STから30年間のインフレ・高性能化を考えれば妥当なのだろうが、予算3万円とすればAKG K240 MKIIなど他も選択肢に入ってくる。

Comment