オススメ機能: お気に入り; 記事履歴; ランキング

記事検索
ゲームタイトル/メーカー名検索
詳細な検索へ

ハードウェア: レビュー; テストレポート; インタビュー; ムービー; ドライバ; ベンチマークレギュレーション

AC

アナログ

▼その他 Wii PSV 3DS

Tegra

NVIDIA
発表日：2008/06/02

Tegra

ニュース（95）
特集（3）
レビュー（2）
テストレポート（2）
ムービー（13）

お気に入りタイトル/ワード

タイトル/ワード名

最近記事を読んだタイトル/ワード

タイトル/ワード名

週刊連載

Features

発売スケジュール

LINEで4Gamerアカウントを登録

「ムーアの法則の終焉」をどう切り抜けるか？ NVIDIAのチーフサイエンティストがディープラーニングのイベントで語った

特集記事一覧

注目のレビュー

注目のインタビュー

問い合わせ

メディアパートナー

トップ>HARDWARE>GPU>Tegra

2017/01/18 00:00

ニュース

「ムーアの法則の終焉」をどう切り抜けるか？ NVIDIAのチーフサイエンティストがディープラーニングのイベントで語った

ライター：米田聡

Bill Dally氏（Chief Scientist and SVP of Research，NVIDIA）

　2016年1月17日，NVIDIAは，東京都内でディープラーニング分野の開発者向けイベント「NVIDIA Deep Learning Institute 2017」を開催した。2016年からNVIDIAが行っているディープラーニングに焦点を当てたイベント（関連記事）の2017年版である。

　タイトルからも分かるとおり，ゲームとはほぼ何も関係のないイベントだ。だが，本イベントに合わせて来日し，基調講演を行ったNVIDIAのChief ScientistであるBill Dally（ビル・ダリー）氏は，将来のGPUにもつながりそうな興味深い話題を盛り込んでいた。そこで本稿では，基調講演の概要をごく簡単にまとめてみた。

実用段階に入ったディープラーニング

　基調講演を担当したDally氏は，NVIDIAの研究開発部門で上級副社長を務めるという，同社を代表する人物だ。かつては，スタンフォード大学で並列コンピューティングに関する先駆的な研究を行い，並列計算の基礎や実装に大きな貢献をしたことでも知られている。
　そんな氏による講演は，ディープラーニング分野に留まらず，今後，いかにして演算性能を上げていくかという，NVIDIAにとっての重要課題が取り上げられた。

　まず，Dally氏が強調したのは，科学の領域においては，すでにディープラーニングが実用に供されていることだ。Dally氏はいくつかの実例を上げて，科学の領域におけるディープラーニングの活用例を紹介していった。
　たとえば，NASAのAmes Research Center（エイムズ研究センター）では，衛星からの映像をもとにした大気中における二酸化炭素の監視に，ディープラーニングを応用しているという。

ディープラーニングが科学の領域で活用されている例を示したスライド。左がエイムズ研究センターの例で，新薬の開発（中央）やガン研究（右）への応用も始まっているという

　また，欧州のLarge Hadron Collider（大型ハドロン衝突型加速器，LHC）は，1回の実験で解析に何年もかかるほど膨大なデータを得られるそうだが，「ディープラーニングによって，解析すべきデータを高速にフィルタリングすることが可能になっている」と，Dally氏は説明した。

LHCでは，膨大なデータのフィルタリングにディープラーニングを活用しているそうで，1秒あたり6億イベントの処理を行えるという

　4Gamer読者には知られたとおり，NVIDIAは，ディープラーニングに対して積極的な投資を行い，この用途に向けた新しいGPUを開発している。Pascalアーキテクチャに基づく数値演算アクセラレータ「Tesla P100」と，そのGPUコアである「GP100」がその代表だ（関連記事）。
　Dally氏はGP100のイラストを示しながら，「電源部が多くの面積を占めている。また，「HBM2」技術に基づくメモリスタックは，シリコンのサブ基板を介してGPUと接続されている」という具合に，その特徴を説明した。

GP100の分解イラストとスペックを記したスライド。4基のメモリスタックが，サブ基板を介して広帯域バスでGPUと接続されている

　ディープラーニングが製品やサービスに応用されているのは，研究開発分野だけではない。「人工知能を応用した一般消費者向けの製品が，数多く登場してきている」とDally氏は述べる。
　その代表例としてDally氏は，Amazonの音声認識アシスタント「Amazon Echo」を挙げた。日本語対応のサービスが少ないこともあり，日本ではまだ，音声認識技術を応用したサービスが一般的とはいえない状況だ。しかし米国では，Amazon Echoが品薄になるほど好評であると，筆者も耳にしている。「向こう数年で，こうした人工知能搭載デバイスは，数億台というスケールで普及するだろう」とDally氏は語った。

スライド中央にある音声認識アシスタントAmazon Echoを始めとして，人工知能を応用した一般消費者向けの製品も登場し，好評を博している。Amazon Echoの音声認識を実現している技術「Alexa」は，CES 2017でもさまざまなデバイスで利用されていたという

Project Xavierはターゲットによって性能が変わる？

　Amazon Echoのような製品に組み込めるデバイスとして，NVIDIAは，組み込み機器向けSoC（System-on-a-Chip）「Tegra X1」と，それを搭載する小型コンピュータ「Jetson TX1」を提供している。
　Dally氏は，次世代のTegraを担う製品として開発中の新型SoC「Project Xavier」（プロジェクト・エグゼイビア，開発コードネーム）を取り上げて，「VoltaアーキテクチャのGPUを統合したXavierでは，より高い性能を実現している」とした。

Volta世代のGPUを統合するXavierのスペックを記したスライド

　ちなみに，1月4日に行われたNVIDIAのCEOであるJen-Hsun Huang氏によるCES 2017基調講演でも，Xavierの話題が取り上げられている。ただ，CES 2017の講演では，Xavierの性能について，「30TOPS DL^※の性能で消費電力30W」と説明していた。ところが，Dally氏が示したスライドでは，これが「20TOPS DLの性能で20W」となっているのだ。

※1秒間に30兆回のディープラーニング処理を実行する性能を意味する。

CES 2017の基調講演でHuang氏が示したXavierのスペック。左下に「30 TOPS DL ｜ 30W」と書かれている

　どちらかが間違い，あるいは古い情報なのかと思う人もいるかもしれないが，筆者は別の推測をしている。Xavierはターゲットとする用途や市場に応じて，異なるスペックを用意しているのではないだろうか。Huang氏が語ったのは，車載情報システム向けのXavierだった。一方，今回のDally氏が語ったのは，Tegra X1の後継としてのXavierではないかという推測だ。
　自動運転の制御を最終目標にする車載情報システム向けSoCでは，高い演算性能が必要になるので，30TOPS DL版のXavierを利用する。それに対して，消費電力や熱に対する要求が厳しくなる組み込み用途向けには，20TOPS DL版のXavierを提供するという考えは，それほどおかしなものではないはずだ。
　つまりXavierは，ターゲットによって性能を変えられるSoC――単純に動作クロックを変えているだけかもしれないが――というのが，今回のDally氏の公演で分かったことではないだろうか。

ポスト・ムーアの法則時代に，いかにして性能を向上させるのか

　ディープラーニングに取り組むNVIDIAは，GPUの高性能化を今後も続けていく必要がある。とくにDally氏が強調したのは，HPCの分野において「2020年までに，2万Wで1 EFLOPSを達成するHPCを構築しなければならない」という点だった。いわゆる「エクサスケール」（※エクサはテラの100万倍）コンピュータの実現を，NVIDIAも目指しているわけだ。

エクサスケールを実現するスーパーコンピュータのスケッチ。詳しい説明は一切なかったものの，1キャビネットあたり383ノードで，合計176キャビネットという規模が読み取れ，ノードの構成もおおまかに推測できる

　しかし，これまでプロセッサの高性能化を牽引してきた，いわゆる「ムーアの法則」が，すでに成立しなくなっているのが難題である。「ムーアの法則が終焉した状況で，今後，どうやって性能を上げていくのか」と，Dally氏はNVIDIAだけでなく，半導体業界が直面している課題を挙げた。

プロセッサの性能向上が頭打ちになっていることを示したスライド。2010年を境に，CPUのシングルスレッド性能（Single-thread Performance）やコア数（Number of Cores），動作クロックといったスペックは頭打ちになったことを示している

　そんな状況にあって，Dally氏がエクサスケール実現の鍵として取り上げたのが消費電力当たりの性能向上だ。NVIDIAがかねてから強調していることだが，CPUに比べて，GPUは演算あたりに必要とするエネルギー（≒消費電力）が2桁ほど少ないのである。

1回の演算に要するエネルギーを，CPUとGPU，そして固定ハードウェアで比較したスライド。CPUは1演算あたり1.7nJ（ナノジュール，ナノ＝10の−9乗）に対して，GPUは30pJ（ピコジュール，ピコ＝10の−12乗）と，2桁ほど必要なエネルギーが少ない

　「CPUは，分岐予測や再スケジューリングといった演算以外の部分でエネルギーを消費しており，それが大きなオーバーヘッドになっている」というのが，Dally氏の主張だ。GPUは，そうしたオーバーヘッドが少ないので，1演算あたりの消費エネルギーを小さくできるという理屈である。

典型的なCPUのブロック図。レジスタファイルや分岐予測用のスコアボードといった，演算ユニット周辺のオーバーヘッドが大きく，1演算あたりの消費エネルギーが大きくなってしまう

　エクサスケールを実現するためには，演算あたりの消費エネルギーをさらに削減しなければならないわけだが，その鍵になるのが「データの移動」であるとDally氏は言う。データを移動させるために，現状では多くの電力が消費されているため，それを削減する方法が課題だというのである。

データの移動に関わる消費電力を示したスライド。たとえば，「64bitの浮動小数点数を読み込むだけで，20pJのエネルギーを消費する」（Dally氏）そうだ。キャッシュメモリや外部インタフェースとのアクセスに要する消費電力も馬鹿にならない

エクサスケール時代の高効率なコンピュータは，高度に並列化され，深いストレージ階層を持つ非対称なプロセッサであるとDally氏

　これを解決するには，適切にデータを配置する必要があり，エクサスケールのコンピュータは「高度に並列化され，深いストレージ階層を持つヘテロジニアスなプロセッサになる」というのがDally氏の主張だ。なお，ここでいうストレージ階層とは，メモリ階層――1次〜3次キャッシュやメインメモリなど――を意味する。

　またDally氏は，データの移動を少なくできるように最適化するツールと，プログラミング技法の必要性も訴えた。Dally氏が紹介したのは，スタンフォード大学で研究されている「Legion Programming Model」（関連リンク）というものだ。
　Legion Programming Modelは「まだ研究段階のもの」（Dally氏）だそうなので，本稿では説明を割愛するが，要は，データ構造と配置，並列化を最適化することで，高性能化を実現しようというプロジェクトである。すでに，3次元有限要素法の演算を6倍も高速化するなど，相応の実績を挙げているという。

3次元有限要素法（S3D）をLegionで最適化することで，6倍の性能向上を実現したというグラフ

　簡単にまとめると，ムーアの法則が終わりを迎えつつある状況でエクサスケールのコンピュータを実現するためには，ハードウェアのみならず，ソフトウェアやツールの助けも必要というところだろうか。いずれにしても，ありとあらゆる技術を総動員しないとエクサスケールの実現は難しいのだろう。

HPCとディープラーニングは，陰と陽の関係にある……というイメージ

　Dally氏は最後に，「ディープラーニングとHPCは陰と陽の関係にある」と強調して講演を締めくくった。ディープラーニングが陰で，HPCが陽なのだそうだ。ディープラーニングを使ってデータから何かを見出し，HPCを使ってシミュレーションなどの計算を行うといったところだろうか。

　NVIDIAによるエクサスケールの実現に向けた取り組みは，将来的にはGPUの高性能化にもつながるだろう。ゲーマーにとっても，決して無関係な話ではないのかもしれない。

Deep Learning Institute 2017の基調講演スライド

NVIDIAのDeep Learning Institute 2017 情報ページ