錦です。
NVIDIAは開催中のGTC内の基調講演「GeForce Beyond」にて「Ada Lovelace」アーキテクチャと、それを採用した新しいGPU「GeForce RTX 4090」「GeForce RTX 4080」を正式発表しました。
Ada Lovelace
Ada Lovelaceは、Ampereの後継となるGPUアーキテクチャでTSMC N4プロセスで製造されるGPUとなっています。数学者 Ada Lovelace の名前に由来しています。
微細化によって、密度が向上したのもあってか、トランジスタ数が760億に達し、CUDAコアは驚異の18000以上搭載できるようになりました。また、新しいStreaming Multiprocessor(SMs)は、前世代から2倍以上の性能を発揮する90 TFLOPSになりました。ちなみに、前世代最上位である「GeForce RTX 3090 Ti」は40 TFLOPSでした。
新しいSMには瞬時に実行する順番を判断し、レイトレーシングを2~3倍高速化する「シェーダー実行リオーダリング(SER)」という技術が搭載されています。Jensen CEOはこのSERをCPUのアウト・オブ・オーダー実行(OOO)と並ぶ重要なイノベーションであるとしています。
第3世代RTコアでは、レイ・トライアングルの交差を判定するハードウェアアクセラレータを2基新設したほか、新しい「Opcity Micromap Engine」によってレイトレのスループットを向上させています。性能は200 RT-TFLOPS。この単位が毎度ほんとによくわからないんですが、前世代最上位RTX 3090 Tiが78 RT-FLOPSなので2倍超の性能向上となりますね。
アップデートされた第4世代「Tensor Core」はHPC向けのアーキテクチャ「Hopper」にも採用されている「Tranceformer Engine」を新たに採用しました。「Tranceformer Engine」では、自然言語学習に特化したエンジンです。このモデルを用いたサービスは世界にあふれており、例えばチャットボットや翻訳、自動応答装置などに用いられています。Tranceformer Engineの採用などのパワーアップによって、Ada LovelaceのTensor Coreの性能は1400 Tensor-TFLOPSになったとのこと。毎度この単位が分かりづらいので、前世代と比較すると、最上位「GeForce RTX 3090 Ti」が320 Tensor-TFLOPSですので、ざっと3倍弱程度の性能向上になります。
Ada Lovelaceの導入によって、NVIDIAの機械学習を利用した超解像度技術「Deep Learning Super Resolution(DLSS)」がDLSS 3となり、大幅にゲーム性能が向上しました。なお、今世代でもレイトレーシングをDLSSが補助するというのは変わっていません(おそらく当面変わることはないでしょう)。
DLSS 3はAda Lovelaceのハードウェアに依存する機能がるようなので、AmpereやTuringで利用できるかどうかについては現時点で追求されていません。DLSS3では、新フレームと前フレームを使用してどのようにシーンが変化したかを判断してその中間となるシーンを生成します。具体的にはオプティカルフローアクセラレータでは、フレーム間のピクセルの方向と速度、そしてゲームから得たフレームのペアやジオメトリとピクセルのモーションベクターをニューラルネットワークに送り、これを基に中間フレームを生成します。
DLSS 3はグラフィックスのパイプライン処理を介さずに新しいフレームを生成するため、力ずくのレンダリングに比べて、ゲーム性能を最大4倍に向上するとのことです。
NVIDIAは「SM」「RT Core」「Tensor Core」を3つのレイトレプロセッサとしており、ここ数世代同様レイトレーシングに力を入れていることが伺えます。
また、これに合わせて人気ゲーム「Portal」をレイトレに対応させるMOD「Portal RTX」を発表しました。そして、このPortal RTXの作成にも利用したレイトレ対応MODの開発を簡単にする事ができるツール「RTX Remix」も発表しました。RTX RemixもNVIDIA Omniverseに対応したツールとなっています。
Ada Lovelaceでは、各プロセッサの性能向上によって、総スループットがAmpereから大きく飛躍し、ラスタライズゲームでは最大2倍、レイトレゲームでは最大4倍高速になるとしています。
効率性では、同じ電力でAmpereの2倍の性能を発揮するとしています。このグラフ、縦に高くなるのはいいんですが、横方向の先端がさらに右に行っているということは、最大消費電力がましているということなんですね。では、その製品たちを見ていくことにしましょう。
GeForce RTX 4090
GeForce RTX 4090は、現時点でAda Lovelaceの最上位に当たる製品となるゲーミングGPUです。性能は、83 TFLOPS、1321 Tensor-FLOPS、191 RT-TFLOPSとなっています。全体的にRTX 3090 Tiの2倍〜4倍となっていて、レイトレ・シェーダー・機械学習のすべてのスループットをあわせて4倍になります。
ゲーム性能では、自他共に世界最強のGPU「GeForce RTX 3090 Ti」と比較して
- 「Microsoft Flight Simulator」で2倍
- 「Portal RTX」で3倍
- 「RacerX*1」で4倍
- 「Warhammer 40,000 Darktide」で2倍
- 「Cyberpunk 2077」で4倍以上
の性能向上を謳っています。
クリエイター向けのパフォーマンスでは、Chaos V-Rayによる3DレンダリングやDaVinci Resolveによるエンコードで、半分の時間であるとしています。
詳細なスペックを見てみます。
RTX 4090 | |
---|---|
コア | |
トランジスタ数 | |
CUDAコア数 | 16384 |
SM数 | |
RTコア数 | |
Tensorコア数 | |
TMU | |
ROP | |
ベースクロック | 2,230MHz |
ブーストクロック | 2,520MHz |
メモリ | 24GB GDDR6X |
メモリバス | 384bit |
帯域幅 | |
メモリ速度 | |
消費電力 | 450W |
リリース状況 | 10月12日発売 |
価格 | ¥298,000 |
発表直後であなぬけが多いですが、分かり次第追記していきます。やっぱ消費電力は450Wとなりました。PSUは850Wで電源にお金を書けないといけない構成になりましたね・・・。
価格は1,599ドル〜。日本では29万8,000円からの提供となり、10月12日から発売されます。
GeForce RTX 3080
そして、発表されたもう一つのGPUは「GeForce RTX 4080」です。メモリが12GBのバリアントと、16GBのバリアントがあります。性能は16GBモデルで、49 TFLOPS、780 Tensor-FLOPS、113 RT-TFLOPSとなっています。全体的にRTX 3080 Tiの2倍〜4倍となっていて、レイトレ・シェーダー・機械学習のすべてのスループットをあわせて4倍になります。RTX 3090 Tiよりも上回っていますので、Ampere全モデルよりも高い性能を持っていることになります。
ゲーム性能では、RTX 3080 Tiと比較して、
となっています。
RTX 4080 16GB |
RTX 4080 12GB |
|
---|---|---|
コア | ||
トランジスタ数 | ||
CUDAコア数 | 9728 | 7680 |
SM数 | ||
RTコア数 | ||
Tensorコア数 | ||
TMU | ||
ROP | ||
ベースクロック | 2,210MHz | 1,310MHz |
ブーストクロック | 2,510MHz | 2,610MHz |
メモリ | 16GB GDDR6X |
12GB GDDR6X |
メモリバス | 256bit | 192bit |
帯域幅 | ||
メモリ速度 | ||
消費電力 | 320W | 285W |
リリース状況 | 11月発売 | 11月発売 |
価格 | ¥219,800 | ¥164,800 |
こちらが詳細な仕様です。消費電力は、RTX 4090が非常に高かったものの、RTX 3080の12GBでは300Wを下回るなど小さくなっています。これは電力を食ってでも性能を上げたい人はRTX 4090を、そうでなくてただハイエンドがほしい人ならRTX 3080をということでいいんでしょうか。
価格は、12GB版が164,800円〜、16GB版が219,800円〜となっています。