ALH84001

私的コラム&雑記(&メモ)

今週の興味深かった記事(2019年 第17週)

2019-04-27 | 興味深かった話題

Tesla独自設計 自動運転プロセッサー

Tesla、独自設計の完全自動運転プロセッサを発表 2020年には“ロボタクシー”事業開始へ - ITmedia NEWS
Tesla's Kitchen-Sink Approach to AVs - EETimes
Tesla onthult eigen Full Self-Driving computer - Hardware.info (蘭語。Google翻訳)

 Teslaの自動運転プロセッサーはCortex-A72 12コア・Mali GPU(型番不明。600 GFLOPS)・Neural Network Processor(NNP)2基などを統合したSoCになっている。

 Teslaの自動運転コンピューターについて調べてみると、現行ではNVIDIA Drive PX2をベースとしたHW2.0・HW2.5を使用しており、今回発表されたプロセッサーはHW3.0として採用されるものらしい。ちなみにDrive PX2はNVIDIA Tegra X2ベースの自動運転用開発プラットフォームで、HW2.0ではTegra X2にGeforce GTX 1060相当のGPU、さらにHW2.5ではTegra X2が2基にGeforce GTX 1060相当のGPUとなっている。
 HW2.5ではTegra X2にArm 6コア(NVIDIA Denver2 2コア・Cortex-A57 4コア)に665 GFLOPSのGPUを統合・外付で> 4000 GFLOPS以上のGPUを搭載しているから、HW3.0はHW2.5に比べGPU性能に関しては向上しているわけではないが、NNPのおかげでTensor演算能力は向上しており72 TOPSを達成する。この数字はTensor演算に限定すればNVIDIAのXavier(32 TOPS)を上回るが、NVIDIA XavierはFP64・FP32も対応するから単純に比較はできない。

 調べていて気になったのであるが、記事中にあるような「Full Self-driving」や「Autopilot」という表現は自動運転のレベルというよりはTesla製自動運転ソフトウェアのブランド名と理解した方が良さそうだ。
 Wikipediaによるとこれまで「2014 Autopilot」「2016 Enhanced Autopilot」「2016 Full Self-Driving」「2019 Autopilot」「2016 Full Self-Driving」があるようで、バージョン毎に対応ハードウェアと対応している機能が違うらしい。問題は、この「Full Seli-Driving」はTeslaの2016と2019で違うだけでなく、EETimesによると一般的なLevel 4/Level 5に相当というわけではないらしく、非常に紛らわしい。

 記事ではマスク氏の発言として「このコンピュータが故障する可能性は、ドライバーが意識を失う可能性よりもかなり低い」とされているが、冗長化されているプロセッサーの動作はニュース記事を読む限りでは単純な冗長化(一方が故障すると、もう一方で代替する)のように見える。Arm Cortex-A76AEやNVIDIA Xavierで行われているようなLockstepが行われているのかよくわからない(もし行われているとすれば12コアのCortex-A72で行われていると思うが)。

 ところで、AMDでK7/K8/ZENの開発に携わった著名CPUアーキテクト Jim Keller氏が2017年2月~2018年4月の間、Teslaに在籍し自動運転ハードウェア部門副社長を務め、さらに同氏が在籍中の2017年9月にはTesla-AMDの提携のウワサも流れたが、上述の内容を見る限りではJim Keller氏・AMDの影響は皆無に思える。
 NNPは恐らくTesla独自設計だが、CPU・GPUは英Arm社のライセンスで、それ以外のロジックも概ねSynopsys・Mentor・Cadence・Cevaから入手でき、QualcommやSamsungのようなSoCメーカーは1年以内でチップに仕上げるからJim Keller氏の離脱後に開発に着手していたとしても不思議ではない。

2019-22のIntelのロードマップ

Roadmap toont dat Intel in 2021 nog desktop-cpu's op 14nm maakt - Twakers.net (蘭語、英語Google翻訳)
Intel CPU 2018-2021 Roadmap Leaks Out - WwcfTech

 外国で報じられたもの。リークしたIntelのロードマップ資料が話題となっている。

 まず、そもそもの話としてリーク資料が正しいと仮定したとしても、二種類あるスライドの関係を考慮する必要がある。
 このTweakersの資料はスライドの一方が「2018-2020」もう一方が「2018-2021」であることを考慮すれば後者は前者の更新版と見做すのが妥当と考えられる。と言うのも、前者は「Client CPU Roadmap」後者は「Client Mobile CPU Planning Roadmap」とあり、一見すると連続していないように見えるが、内容を確認すると前者はSプロセッサー・H/Gプロセッサー・Uプロセッサー・Yプロセッサー・Xeonプロセッサーが掲載されているのに対し、後者はH/Gプロセッサー・Uプロセッサー・Yプロセッサーに加え旧Atom系のモバイルSoCが載っている点のみが異なる。そして問題の部分は両資料で共通のH/Gプロセッサー・Uプロセッサー・Yプロセッサーだからである。

 この資料によると、Intelはようやく10nmプロセスを採用した製品を2019年後半から市場に投入する予定だったが、「2018-2020」の資料で掲載されていたIce Lakeが最新の「2018-2021」の資料では消滅し2021年のTiger Lakeまで登場しない見込みとなった。2019年に入ってからIntelは新しい10nmプロセス(便宜上、Cannonlakeで採用された10nmプロセスと区別して10nm+プロセスと呼ばれる)の開発好調ぶりをアピールしていたが、まったく好調でないことを示唆している。

 もっとも、上記の理解が正しいのかは分からない。AnandTechの4月25日の記事によるとIce Lakeの評価が始まったそうで、Ice Lakeがロードマップ上から消滅した「2018-2021」スライドとは矛盾が生じる。もっとも、Ice Lakeが掲載されている「2018-2020」スライドにおいても「Ice Lake (Limited)」とある通り出荷数量は限定的なようなので無視していい程度にしか展開されないということかもしれない(ちょうど10nmで製造されCore i3 8121Uでしか出荷されなかったCannonlakeのように)。

 この10nmプロセス採用プロセッサーの遅れは単に製造プロセスの遅れに留まらない。
 Intelの現行のプロセッサーはデスクトップ向けCoffee Lake Refresh・ラップトップ向けWhiskey Lake・省電力ラップトップ向けAmber Lakeだが、いずれもCPUコアは2015年に発表されたSkylakeのCPUコアを使いまわしている。これがIce LakeではSunny Coveに更新される予定で、AVX-512対応・BranchユニットとLoadユニットが増強されていた。Skylake以前はNehalen/Westmere→Sundy Bridge/Ivy Bridge→Haswell/Broadwell→Skylake/Kaby Lakeと2年毎にアーキテクチャが更新していたが、10nmの遅れで2015年から4年間も同じアーキテクチャーを引き摺ってしまっている。
 これが、ロードマップによると今後は現行プロセッサーがComet Lake・Rocket Lake/Tiger Lakeに置き換えられる。Rocket Lake/Tiger Lakeは不明だが、Comet Lakeは小改良を加えただけでSkylakeと同じアーキテクチャとされている。
 こうなると、次世代プロセッサー(Ice LakeだかRocket Lake/Tiger Lakeだか)の遅延は単なるプロセス世代の遅延に留まらず、命令セットやパフォーマンスのロードマップにも影響を与える。例えばAVX-512は消費者向けには2021年まで登場しないことになるし、恐らくAMDは2019年中に消費者向け製品に8~16コア搭載プロセッサーを投入するが、これに対抗できないことになる(IntelのH/Sプロセッサーのロードマップでは最大10コアである)。

PlayStation 5に搭載されるAMDプロセッサーはRyzen 3600Gではない

No, the PlayStation 5 Doesn't Use AMD's 'Ryzen 3600G' - ExtremeTech

 一部ではPlayStation 5に搭載されるAMDプロセッサーがRyzen 3600Gと報じられているようだ。
 ExtremeTechではいろいろと述べられているが、実態はそれほど単純ではない。というのも、現行のSony PlayStation 4 Pro・Microsoft Xbox One Xに搭載されているプロセッサーですらAMDのセミカスタムデザインサービスを利用した特注品で、同社のPC向けの既製品を使ってしまうと性能が足りないか、コストがゲーミングPC並に増加してしまう。

 PlayStation 5がRyzen 3600Gを採用しないことはほぼ自明であろう。理由は単純でPC用のAPUを単純には流用できないからである。
 例えばメモリーを例にとると現行のPS4/PS4 ProはGDDR5メモリー・次期PS5はGDDR6メモリーを採用すると言われるが、いずれもメモリーインターフェース幅は256-bitに達する。これはハイエンドGPU並でPCでは到底採用できない構成である。PS4が176 GB/s・PS4 Proが217 GB/sのバンド幅であるのに対し、現行のPC用Ryzen APUはDDR4 2933 x2chで僅か46.9 GB/sでしかなく次世代Ryzen APU 3000シリーズでも約50 GB/sでしかない。PS5の仕様は不明であるがGDDR6 256-bitで512 GB/s前後にはなるはずでPC用Ryzen APUとではゲーミング性能で大幅な違いがある。
 また、昨今のビデオゲームはGPU偏重なのでPS4 Proも低性能なCPU(Puma+ 8 core)に比してGPUが重厚な36CU構成で、これはRadeon RX480相当である。PC向けではAPUはハイエンド(Ryzen 7シリーズ)ではなくローエンドからミッドレンジ(Athlon G、Ryzen 3からRyzen 5シリーズ)で、ゲームコンソールほど巨大で高コストなGPUや、それを活かすメモリーを持って来ることはできず、実際Ryzen 3600Gでウワサされているのも20CUに過ぎない。こちらもPS5の仕様は不明であるが少なくとも40CU以上搭載するだろう(Xbox One Xが40CU搭載のため)。

Ryzen 5 3600Gなるプロセッサーは発表されていないが、現時点で想定可能な範囲で比較すると以下のようになる(Ryzen 5 3600Gの表が不完全のため、参考に現行Ryzen 5 2400Gのデータを合わせて載せている):

 PS4 APUPS4 Pro APUAMD Ryzen 5 3600G(参) AMD Ryzen 5 2400G
GPUGPU Core Sea Islands GCN2 18CU Polaris GCN4 36CU Navi 20CU Vega 11CU
Performance 1.84 TFLOPS 4.15 TFLOPS ?
(around 3 TFLOPS)
1.76 TFLOPS
MemorySpec GDDR5 256-bit 1366 MHz GDDR5 256-bit 1700 MHz DDR4 3200? 128-bit DDR4 2933 128-bit
Performance 176.0 GB/sec 217.6 GB/sec 51.2 GB/sec ? 46.9 GB/sec

 ちなみにExtremeTechはRyzen 3600Gを採用しない理由として$199という価格を挙げているが、これも的外れである。確かにゲームコンソールのCPUは$100前後のようでPlayStation 4では$100だったそうだが、まず (1) $199というのはMSRP(メーカー希望小売価格)で流通コストや化粧箱・付属品が含まれないB2B取引の価格ではない一方で (2) 上述の通りセミカスタム設計品かつ (3) 既製品に存在しないハイスペックなので、CPUメーカーの出しているMSRPはまったく参考にならない。

Comment

今週の興味深かった記事(2019年 第16週)

2019-04-21 | 興味深かった話題

富士通Post-京コンピューターの製造を開始

富士通、日本の次世代スパコン ポスト「京」の製造を開始 - マイナビ

 ポスト「京」コンピューターの設計が完了し、理研と富士通が正式契約を締結したらしい。
 ポスト「京」コンピューターで使用される富士通A64FXは昨年6月に完成が発表され8月のHotChips 30などでも詳細が説明されてきたので、既におおよその姿は見えている状態だが、2021年に運用開始を目指しているスーパーコンピューターのプロセッサーが2018年製というのはどうなのか…(参考:2018年にTop500で1位となったORNL SummitのIBM POWER9は2017年の発表)。

 現在出回っている図は発表時から変更はなく設計も同一と推測するが、どうも「ポスト京専用」という感じに見える。一応、同社のPRIMEHPC FX100後継スーパーコンピューターも販売されるようだが、現在のままでは商業的には成功は困難だろうと想像できる。
 例えばマイナビに掲載されているダイヤグラムではPCIeが16レーンしかなく、これはNVIDIA Teslaなどの接続を想定しているとは思えない(参考:AMD Epyc 128レーン・Intel Xeon Scalable 48レーン・IBM POWER9 48レーン)。その一方で理研しか使わない独自のTofuインターコネクトはCPUと同一ダイに内蔵されており、商用スーパーコンピューターで一般的なInfiniBandやOmniPathのコントローラーを接続したければ僅か16レーンしかないPCIeの4~8レーンを占有することになる。ここはせめてPCIeを32レーンとしてTofuは外付コントローラーをPCIe接続する形にすべきだったのではないか。
 周辺機器を接続する可能性があるUNIXサーバーとは違い多ノードを並列動作させる前提のスーパーコンピューターでは相互接続に必要なPCIe以外は不要というのは解らなくもないが、最初からポスト「京」以外での汎用性を捨ててしまっている設計は好きになれない。

Intelがスマートフォン向け5Gから撤退

AppleとQualcomm和解で、Intelがスマホ向け5Gモデムから撤退 - PCwatch

 携帯電話向けモデムがQualcommの世界なのは確かであるが、選択肢が失われることには不安が残る。
 PC向けや4Gも含めた消費者向けモデムのベンダーを挙げるとQualcomm・Intel・HuaweiのほかExynosと共に同社製Galaxyに搭載しているSamsung、低価格スマートフォン向けにアプリケーションプロセッサーを供給しているMediaTekがある。モジュールとしてはSierraWirelessやFibocomなどが広く知られているが、モデムのチップセットそのものを開発・製造しているのはQualcomm・Intel・Huaweiといった企業である。

 Intelは以前Centrinoブランドを展開したように、CPUにチップセットやWi-Fiアダプターをセットにしてプラットフォームとして販売することに長けているのでPC向けには5Gモデムは続けるのだと想像するが、Huaweiが強い市場なので頑張ってもらいたいところである。

今でもXLSを使い続ける人々

え、まだ"xls"のファイル使っているんですか?仕事する気あるんですか? - @IT

 100%同意とはいかないが、なるほどと思う。なお、XLSXはExcel 2007以降のMicrosoft Excelの標準ファイル形式であり、XLSはそれ以前のExcelの標準ファイル形式のことである。

 記事では「ファイルの形式にすら目が回らない程度のレベルだということ」と記事では述べられているが、そもそも新しいXLSXが旧式のXLSに対して勝る点が述べられていないため、整理する必要があるのではと思う。
 私が思うにポイントは二点ある。まずXLSでは文字コードが日本語はShift JIS・英語はASCIIとなっており異なる言語の環境では文字化けする可能性が高いが、XLSXではUnicodeでその可能性は低い。もちろん、外国とやりとりしない会社であれば必ずしも必要ないのかもしれないが、もし私があなたから受託を受けるとして、私はあなたのビジネスの事情は知らないのだから受託する側が柔軟な方式を選ぶのは当然であろう。

 もうひとつの理由は、ファイル形式の実体である。XLSはバイナリーであるのに対しXLSXの実体はZip圧縮したXMLである。WebベースであるOffice 365/Excel OnlineはもとよりGoogle Driveなどの親和性は段違いである。XLSXであればファイル形式を変換することなくWebブラウザー上で開くことができるだろう。

 まぁ、記事の著者は「未だにXLSなんて使っているということは、それ以前に知識に問題がある」と言っている気もするが、新形式と旧型式の利点・欠点が解っていない≒知識に問題があるというのは、確かにそうかもしれない。

Comment

今週の興味深かった記事(2019年 第15週)

2019-04-14 | 興味深かった話題

Qualcomm AI100

Qualcomm、データセンター向けのAI推論処理アクセラレータ「Cloud AI 100」 - PCwatch

 Qualcommはマシンラーニング分野では出遅れていた印象がある。例えば、同社の得意とするスマートフォン用アプリケーションプロセッサーでいえば、同社はSnapdragon 855(2018年12月)で初めてHexagon Tensor Accelerator(HTA)というマシンラーニング専用アクセラレーターを初めてを導入しているが、これはAppleやHuaweiの1年超の遅れだった。
 そんな中で登場したQualcomm製マシンラーニング専用アクセラレーターがデータセンター用で出てくることは意外である。データセンター用マシンラーニングアクセラレーターといえばGoogleが自社開発TPU・AWSが子会社AnnapurnaLabs製AWS Inferentiaを採用しているためMicrosoft Azureも何か必要だったということまでは理解できるのだが、そこでNVIDIAでもBroadcomでもMarvellでもなくQualcommの名がでてくるというのは非常に珍しい。そういえば同社がサーバー用CPU Centriq 2400を発表した際も最初の顧客はMicrosoft Azureだったか。

 このAI100であるが、秘密主義の同社らしく詳細は判然としない。
 当初、私はSnapdragon用マシンラーニング専用アクセラレーターをディスクリートとして分離したものを想像したのだが、そのHTAも詳細は不明なほか、「Hexagon」ブランドを冠する通りQualcommのDSP=Hexagonに統合されているから、ディスクリートプロセッサーとして分離するのも相当に難しそうである。

 AI100が対応するデータ精度が不明であるが、性能だけ見れば後発に相応しい高性能である。2018年発表のGoogle TPUv3がbFP16対応・学習/推論両対応で90 TFLOPS・AWS InferentiaがINT8・FP16・bFP16対応で100 TOPS超というスペックに対し推論専用ながら350 TOPSとされている。

NVIDIA RC18

マルチダイ化へ向かうNVIDIAのリサーチチップ「RC 18」 - PCwatch

 リサーチチップということで製品化されるモノではないが、将来のNVIDIA製品を推測(妄想?)する上では興味深い。MCM製品という事ではEpyc/Ryzen ThreadripperでAMDが先行した感があるが、研究という事では数年前まではNVIDIAの方が有名だった。

 36チップレットというのは研究開発や理論実証という点では実用的なのだろうが、本文中に「実際のダイでは、GRSリンク群がかなりの面積を占めており」とある通り実用的とは言い難い(ファブリックにロジックを割かれて実行ユニットのロジックが削られてしまっては本末転倒である)。恐らくは2~4チップによるMCM構成から始めることになるのだろう。もっとも2~4チップではメッシュよりもバスやPoint-to-Pointやクロスバーの方が簡単な気がするし、実際、記事中の冒頭の図ではPoint-to-Pointのように見える。

 ここで気になるのはメモリーインターフェースではないかと思う。
 例えばAMDはRadeonのマルチGPU化する際にGDDRメモリーインターフェースを意図的に256-bitに制限した(※HBM実用化以前の話である)。当時も現在もハイエンドGPUのGDDRメモリーインターフェースは384~512-bitの間だが、マルチGPU化するとインターフェースはGPUの個数倍に増えてしまう。そこで256-bitに制限すると2GPU構成で512-bitとなる。恐らく同じことが起こり、記事中の図にあるように1GPUあたりHBM x2スタック程度となり、マルチGPUダイの合計で現在のハイエンドGPUに相当するメモリーインターフェースを持つことになるのだろう。

 ところで、記事中には発表者としてDally氏の名が挙がっているのが、非常に懐かし(?)かった。かつてNVIDIAにはメディアに頻繁に登場するChief Scientist = David Kirk氏がいたが一説によると健康上の理由で退任した。同氏の後任としてNVIDIAが2009年にStanford Universityから引っ張ってきたのがDally氏だったのだが、記事で見た記憶が無い。

PlayStation 5に関するウワサ

Extraordinary PlayStation 5 details leaked: 7nm Ryzen CPU, 7nm Navi GPU - NotebookCheck.net News

 もし2020年にPlayStation5(以降PS5)がリリースされると仮定するなら、という想定であれば妥当なCPU/GPU周りはスペックといえる(というか、大幅なアーキテクチャ変更が無い限りは、他に選択肢が無い)。
 この予想スペックで怪しいのはGDDR6とDDR4の組み合わせである。GDDR6を充分に搭載できるのであればDDR4は無駄に思える。

 2020年のハイエンドゲームコンソールであればRyzen 8コア+Navi GPUという組み合わせは順当で、TSMC 7FFで製造されるRyzen 3000シリーズとNaviにGlobal Foundries 12LPまたは14LPPで製造されるI/OダイをMulti-chip Moduleの形で組み合わせたものとなると思う。恐らくCPU chipletはPC=Ryzen/Server=Epycと共通で、I/OダイはGDDR6に対応したカスタム仕様となるのだろう。
 PS4/PS4 ProではAMDの猫系アーキテクチャー(Jaguar/Puma)を搭載したが、PS5がAMD APUを搭載するのであればRyzenで間違いない。AMDは既に猫系アーキテクチャーの開発チームを失っており(Samsungに移籍)、メンテナンスする程度の人員しか残留していないといわれている。

 不明なのはGPU=Naviで、アッパーミドルクラスのディスクリート用GPUを統合するのかAPU用のカスタム設計したものを統合するのかは分からない。AMDはCrossFire後継/NVIDIAのNVLink相当の技術としてInfinity FabricをGPUに統合しているはずで、理屈の上ではGPU-I/Oダイ間通信にInfinity Fabricを使える(つまり、理屈上はディスクリート仕様のGPUをAPUに転用できる)し、最近のAMDプロセッサーは共通のSerDesで複数の内蔵コントローラーからインターフェースを選択できる組込SoC的な仕様になっているから、PCIe接続のディスクリートGPUをインターフェースの設定だけ変更してAPUに持って来るということは十分に考えられる。
 Naviは2020年に登場予定の第二世代(Navi 20)でレイトレーシングに対応すると言われているが、PS5が2020年の登場だとすれば間に合わないだろう。

 メモリーであるが、PS4の純粋な後継であればGDDR6メモリーが16~24GBもあればDDR4は不要で、フラットでないメモリー空間はゲーム開発の妨げになるだけである。異種メモリーが必要となるのはXBox OneがeSRAM + DDR3メモリーであったように、安価で大容量だが帯域の狭いメモリーを帯域の広いメモリーで補う場合のみである。
 もし、それでもDDR4が必要なケースがあるとすれば、それはシステム内にメインのゲームシステムとは別に動作するサブシステム(例:PS4に搭載されたCXD90025GセカンダリープロセッサーはARMベースのCPUに256MBのDDR3を搭載した)が存在する場合で、DDR4 4GBとなるとマシンラーニング/ビジョンプロセッシング関連の可能性が考えられる。

Comment

今週の興味深かった記事(2019年 第14週)

2019-04-07 | 興味深かった話題

筑波大Cygnusスパコン

筑波大がFPGAを本格使用するCygnusスパコンの運用を開始 - マイナビ

 筑波大がFPGAを搭載するスーパーコンピューターの運用を開始したらしい。Top500で日本国内2位に入るOakforest-PACSも筑波大と東大であるが、Oakforest 8208ノードに対しCygnusは78ノードしかないから性能的な優位性はなさそうだが、CygnusにはIntel/Altera Stratix10 GX2800 FPGAを搭載したAlbireoノード32ノードを含んでいる点が特徴と言える。

 ここ数年、FPGAをデータセンターに持ち込むというアイデアが盛んであるが、個人的には一般化する気がしない。
 例えばスーパーコンピューターというかクラスターにFPGAを組み込んだ例はMicrosoft Project CatapultでFPGAをBingの検索に取り込んだ例が比較的記憶に新しいところであるが、これはGoogleなどの例を見ても検索アルゴリズムは変化するので、ASICでの実装よりもCPU/GPUでソフトウェア実装するかFPGAでハードウェア化する方が柔軟に対応できることは理解できる。また、日本国内でDwango/Niconicoが実際に行っているようにNiconicoやNetflixのような大手ビデオストリーム配信事業者が動画処理をFPGAで行うことも理解できる。
 しかし、FPGAで実装となるとハードとソフトの両方の開発が必要になるケースが多いだろうし、以前はハードウェアが乏しかった機械学習も揃ってきているため、NVIDIA GPU + CUDAとかGoogle CloudTPU + TensorFlowといったメジャーな方式の方が低コストで性能も十分なケースは多そうに思う。実際はというと、Stratix10 GX2800を検索してみるとFPGA単体で$6000・ボードに搭載されたもので$8000~となっているが浮動小数点演算性能は9.2 TFLOPSに過ぎないのに対し、NVIDIA Tesla T4だと最大65 TFLOPSで$2000~といった具合である。この価格差・性能差を許容して強いてFPGAを使うことにメリットを見出せるのがMicrosoftのような大企業しか存在しないと思う。
 もっとも、筑波大はスーパーコンピューター運用者である以前に教育機関・研究機関であるし、さらに、GPUを搭載したDenebノード46ノードを含んでいることからも上述のような「GPUの方が一般的には使いやすい」ということは承知しているということなのだろう。

 ところで、筑波大のGPUが苦手とする局面というスライド「独自の通信機能を持たない」とあるが、これを補うのがNVIDIAによるMellanox買収であろう。個人的にはGPU間でノードを跨いで通信するケースはスーパーコンピューターなどの極めて限られたマーケットでしか想像できないのであるが、NVIDIAは科学演算向けのTeslaとグラフィックス向けのGeForce/Quadroを分化し始めており、例えばVoltaは科学演算用でしか登場しなかった。もしNVIDIAがTeslaの専用設計化を推し進めるようであればMellanoxのノード間通信技術の取り込みなど、さらにFPGAの優位性が覆されていくことになるのではないだろうか。

Arm IPのMachine Learning性能

Armが見据える半導体の未来 - マイナビ

 個人的に興味を持ったのは顔認識(Face Detection)による端末アンロック(Face Unlock)の箇所で、Cortex-A75などのCPU IP群やArm NPUに加えMali-G52などのGPU IP群が示されている点である。これらのIP製品が機械学習に対応していることは以前から示されていたが、性能をグラフ化したものは初めてではないかと思う。

 $1000クラスのスマートフォン、例えばiPhoneやGalaxy Sシリーズに搭載されるA12やSnapdragon 855などのプロセッサーは半導体にコストをかけられるため専用NPUを搭載できるが、$100~200クラスのスマートフォンではコスト増加は許容できないだろう。しかし既に搭載されているGPUを流用できるのであれば話は簡単である。
 Arm GPU製品ではMali-G31/G51/G71以降ではArm NNに対応していて機械学習のフレームワークを利用できることは以前から知られていたが、Mali-G52がCortex-A75より高速というのは興味深い。例えばサブ$200クラスのスマートフォンに搭載されるMediaTek P30の場合Cortex-A53 8コア・Mali-G71 MP2という構成で、既存のMali GPUを使って顔認証を行うことも原理的には可能ということになる(スマートフォンメーカーが実装するかはともかく)。

日本のEUV周辺技術開発企業「EIDEC」が解散

日本のEUV周辺技術開発企業「EIDEC」が解散 - マイナビ

 どの程度の資金(とりわけ税金)が投入されたのか不明だが、個人的には無駄金だったとしか思えない。かつて日本の電機メーカーーーソニー・パナソニック・三菱・日立・東芝・サンヨーなどーーはいずれも自社で先端半導体部門と自社工場を抱えていた。これらが1990年代以降の不況期を通して統廃合された結果、現在でも残っているのは、既に日本企業とは言い難い東芝メモリーとパナソニックのみであり、いずれも28nmより微細な先端プロセスは保有していない。

 この辺りの世界的な流れはこの辺りを見れば一目瞭然で、2000年頃の180nm世代プロセスで世界で28社あったのが2011年頃の32nm/28nm世代プロセスでは僅か8社となっている。これ自体は世界全体で共通の流れなので日本企業の問題というわけではないのだが、180nm世代で28社中10社と1/3を占めた日本企業が32nm/28nm世代ではパナソニック1社になっているという全滅ぶりである。
 もちろん、日本企業が半導体を製造しなくなった現在でも、シリコンウェハーや半導体製造装置などのかたちで先端半導体に携わる日本企業は多数存在するが、例えば露光装置に関して言えば7nm世代で導入の始まったEUV露光は蘭ASML(露光装置メーカー)と独Carl Zeiss(光学レンズなどを提供)の独占状態でニコン・キヤノンは既に蚊帳の外となりつつある。

 そして本件EIDECが設立されたのが2011年1月に対し、32nm/28nmが登場したのが2010年のことである。つまり、EIDECは日本企業がそれを必要としなくなった時点で設立されたことになる。本当に必要だったのだろうか?

Comment