NVIDIAは先日「GeForce RTX 50」シリーズを発表した。今回はそれを考察し、どのような進化点があるのかを解説する。
大雑把なまとめ
先に大雑把なまとめを。一言で言えば「GPUの性能向上は、結局GPUじゃなかった」ということになる。詳しく見よう。
今回のGPUは例年と比較して「GPU単体での性能」という側面で見れば、大きく進化したとは言えない。
後で詳細な数字をお話するが、NVIDIAの公称でシェーダ性能が1.5倍になったと謳っているが、これはRTX 4090とGB202フルダイ(GB202-400)(仮称)を比較した数値であっって、実際に比較するのであればAD102のほぼフルダイであるRTX 6000 Adaの91 TFLOPSとGB202の125 TFLOPSを比較するべきだ。結果は1.34倍程度。無論、このレベルになって性能が3割増で上がっていくことはすごいことだ。
約1.35倍という数字は順当な性能進化ではあるものの、やはり近年の製造プロセスの進化が鈍化していることもあり、密度がそれほど向上しなかった事もある。実際、Blackwellのトランジスタ数を見ていただきたい。
トランジスタ数 | ダイサイズ | 製造プロセス | |
---|---|---|---|
GV100 (Volta) |
210億 | 815mm² | TSMC 12nm |
GA100 (Ampere) |
542億 | 826mm² | TSMC N7 |
GH100 (Hopper) |
800億 | 814mm² | TSMC 4N |
B200 (Blackwell) |
1040億 | 不明 | TSMC 4NP |
Blackwellの最上位であるB200を示しているので、GeForceの進化点を示したものではないが、明らかに密度の向上が鈍化している。そもそも、製造プロセスがTSMC 5nm世代を引き継ぐなど、密度向上のジャンプアップにつながるようなことはなかった。
それでもB200では、このダイをマルチチップレットで2基搭載したことによってH100比倍以上の性能を実現しているが、GeForceでそれはあまりにも無理がある(実現してたとしたらTGPが1000Wを超える)。
なので、GPU自体は30%程度の性能向上に収まったわけだ。
他方でAIによる進化は凄まじい。今回、CUDAコア自体にニューラルネットワークを扱える機能が追加され、結果としてGPU全体として処理にAIによる補正を利用するようになった。これがRTX 50のすごいところだ。
GeForce RTX 50
では、RTX 50シリーズについて詳しく、見ていくことにする。
シェーダー
RTX 50シリーズに採用されるGPUの最大理論性能は125 TFLOPSで1.5倍であると案内されている。この数値は、RTX 5090ではなく「RTX 5090が採用するGPU」の数値であり、おそらくGB102あるいはGB202の最大性能であると見られる(つまり、今後RTX 4090 Tiや旧Quadro系統のGPUがこの程度の性能で登場する可能性がある)。以下、正式な公表はないがRTX 5090に採用されたGPUダイをGB202とする。
NVIDIAが案内するこの1.5倍という数値について考えると、GeForce RTX 4090の82.6 TFLOPSに対しての数値になるのだが、AD102としては上位のRTX 6000 Adaが91 TFLOPSとなっており、実際の性能向上率は30%前後に収まるはずだ。
GB202のフルダイの規模は正式には明らかになっていないが、逆算すると25,856基のCUDAコアであると考えられる。
RTX 5090に話を戻そう。RTX 5090のCUDAコア数は21,760基で、RTX 4090の16,384から33%のコア数の増加となっている。最大クロック自体は100MHz低下している事も考えると、実効性能差は30%程度だと考えられる。実際、NVIDIAが公表したゲームタイトルでの差を見ると、DLSSが有効になっていない「Far Cry」が3割程度の性能差があると見られ、実際には後述するvRAMやレイトレの進化もあるのだが、これがGPU性能の上昇幅に近い数字と捉えることができる(正確な数値は不明)。
理論性能を見てみるとRTX 3090は、105 TFLOPS。RTX 4090と比較して1.26倍程度の向上となっている。以下、計算上の理論性能である。
理論性能 | |
---|---|
RTX 5090 | 104.88 TFLOPS |
RTX 5080 | 56.34 TFLOPS |
RTX 5070 Ti | 43.90 TFLOPS |
RTX 5070 | 30.84 TFLOPS |
実際には後述するメモリ帯域などもあり、実効性能はより向上しているものと考えられるが、GPU単体の性能を比較したときの向上率は例年に比べて小ぶりである。
CUDAでは、INT8精度のサポートが削除された。理由に関しては不明。おそらく低精度演算をTensorコアに統一したかったのかもしれない。
別視点で見る。トランジスタ数を見てみるとGB202は920億基。RTX 4090のAD102が763基であることから20%程度規模が拡大している。RTX 3090(280億基)からRTX 4090へのトランジスタ数の差が倍以上であるのと比較すると、これまた小ぶりである(ただし、RTX 30→RTX 40の間には製造プロセスのジャンプアップがあった点には考慮が必要)。
CUDAコアは、浮動小数点用ユニットと整数ユニットが1:1で分かれている。同時に整数演算と浮動小数点数演算を行うことができるようになっている。
DLSS
ゲーム性能について、GPUの素の性能も重要であるが、実際には様々なことが関係する。特に近年であればアップスケーリング技術は欠かせないものだ。
NVIDIAのこのアップスケーリング技術であるが、DLSS 4としてアップデートされた。DLSSはアップスケーリング技術だけでなく、AIを用いたいくつかのポストプロセスをまとめたものになっている。
具体的には「マルチフレーム生成」「フレーム生成」「レイ再構築」「アップスケーリング」「アンチエイリアス」が含まれる。
RTX 50ではこれらすべての機能を利用できるのだが、注目すべきはマルチフレーム生成である。
ゲームのフレームレートを向上させる技術はアップスケーリングが代表例であったが、最近AMDのAFMFをはじめとしたフレーム補間に注目が集まっている。フレーム補間は、フレームの動きを認識して、フレームとフレームの間の動きを保管する技術である。
RTX 40でも利用できるフレーム生成では、1フレームから1フレームのシーンを生成しFPSを2倍に向上させる事ができるが、RTX 50で利用できるマルチフレーム生成では、1フレームから3フレーム生成する事ができる。つまりFPSが4倍に向上するということとなる。
更に恐ろしいことに、マルチフレーム生成は「未来を予測する」としており、現在のシーンから後ろのフレームを生成し、遅延を最小限に抑えるという(というか0にする)。
DLSSの超解像度と合わせると、GPUがレンダリングする必要があるのは計算上、出力解像度の1/9のピクセルと、1/4のフレームだけで事足りることになる。実際には様々な条件があるので理想でしか無いが、4K60fpsを表示するのに720p15fpsだけでいいことになる。
RTX 50のゲーム性能の向上については、DLSSが効いていることが要因である可能性が高く、言葉を選ばずに言うとDLSSで誤魔化している。
Neural Shader
シェーダーについて、AIと関連するアップデートがある。プログラマブルシェーダ(CUDAコア)が小型のニューラルネットワークを扱えるようになった。より具体的に言えば、CUDAコアの整数行列演算が強化されたようだ。
そもそも、近年のゲームにおいて前述するDLSSや後述するレイトレを含め、GPUがすべてのシーン・ピクセルを生成するという方向には走っていない。どちらかといえば、ポストエフェクトによる超解像度やフレーム補完あるいは、補正やピクセル補完によってGPUがレンダリングした品質を向上させるという技術が採用されている。ゲームはやはりリアルタイム性が重要であるため、映画のように超高品質で忠実な映像を作るのは困難であり、そもそもその必要はない。
結果として、近年AIによるレンダリングが台頭した。これは決してAIがすべてのフレームやシーン、ピクセルを生成しているというわけではなく、AIを使ってGPUの処理を効率化させよう、あるいは前述のようにGPUが描けなかった部分をAIが後から補正しようというものになる。似たアプローチをこないだPlayStation 5のPSSRで見た気がする。
より具体的に説明すれば、複雑なアセットをGPUがレンダリングするのは時間がかかる。そこで、AIを使って補完しながらレンダリングすれば、あるいはAIを使ってGPUの負荷を軽減させてあげればリアルタイムで生成できるんじゃね?ってこと。
今回発表された「Neural Shader」は、AIを使ってGPUの処理やメモリ使用を効率化しようという考え方のように見える。
Neural Shaderには「RTX Neural Texture Compression」「RTX Neural Materials」「RTX Neural Radiance Cache」が含まれている。
「RTX Neural Texture Compression」はAIを用いて何千ものテクスチャを1分以内に圧縮するという技術。テクスチャはリアルタイムで圧縮・ロード・アクセスすることができ、圧縮されても同じビジュアル品質で最大7倍のメモリ節約を実現する。もちろんデータサイズ自体も抑えられるはずなので、レンダリング負荷を抑えることが期待できるかもしれない(ただ、これはポストエフェクトな気がするので、実際には不明)。
「RTX Neural Material」は、磁器や絹のような複雑なシェーダーコードをAIを使って圧縮し、シェーダープロセス自体を高速化させる技術。
「RTX Neural Radiance Cache」は、AIを用いた間接(バウンス)照明のレイをシミュレーションし、より自然なライトバウンスを実現するという技術。この技術は特にGPUが描けなかったものをAIが補完するという側面が大きい。
これらは新しい「NVIDIA RTX Kit」として提供される。これらがRTX 50に限定されるかは不明。
Neural ShaderはDirecrXを通じたサポートも提供される。
レイトレーシング
レイトレーシングについては、2つのハードウェア的な進化点があった。
ハードウェアの面において、第4世代となるレイトレーシングユニットRTコアがBlackwellで採用された。このRTコアはGB202で最大380 TFLOPSの性能を発揮し、これはRTX 4090と比較してほぼ倍の性能となる。RTX 5090でも318 TFLOPSとなった。
また、後述するメモリの大幅な拡張を受け、レイトレーシングの性能が大幅に向上している可能性がある。GDDR7の採用が効きやすい分野だからだ。
そして、AIと関係する部分。
Blackwellに至ってもまだすべてのレイをリアルタイムでGPUが追いかけることは困難である。そこでAIによる補助を行っているのだが、それがDLSS 4となる。
DLSS 4のレイ再構築(Ray Reconstruction)では、レイトレーシングされた光線間の補正について、追加のピクセルを生成する事によってより品質を高める。
さらに、レイトレーシングの効率性を高めるために、近年増加するジオメトリをリアルタイムで再構築する「RTX Mega Geometry」も実装された。
TensorコアとAI
今回、RTX 50シリーズで最も大きな性能向上があったのは第5世代となったTensorコアである。
RTX 5090のTensorコアでは、最大3,352 TOPSの演算性能を有している。おそらくこれはFP4精度での演算性能であると見られる。
Blackwellでもコア構成が1 SMあたり128 CUDAコア、4 Tensorコア、1 RTコアという比率である場合、RTX 5090には680基のTensorコアを搭載していることになる。
第2世代Transformer Engineを搭載するBlackwellのTensor Coreは、新たにFP6とFP4精度に対応する。HopperとAda LovelaceのTensorコアがFP8までの対応であったので、より低精度で並列性の高い演算を行うことが可能だ。さらにこれには数値形式を低精度に再スケール・再キャストする機能が備わっている。自立効率化NPUというわけだ。
今回、RTX 50ではRTX 40から3倍のAI性能を謳っている。向上幅の半分は、低精度演算が可能になったことにより理論性能が倍になった点、もう半分はコア数の増加であると考える事ができる(まあそれだけで説明がつかないのだが)。
Tensorコアの性能を比較すると、FP4に対応したこともあってかかなり性能が向上している。とくにRTX 5070 TiはRTX 4090以上の性能を有している。
メモリ
RTX 50シリーズでは、GDDR7メモリが採用された。GDDR7を採用する初めての製品となる。NVIDIAによればMicronのGDDR7メモリを採用しているとのこと。
RTX 5090はメモリを16スタック搭載し、メモリバス幅は512-bitという驚異的な数字。帯域は1,792 GB/sと一時のHBMよりも高速だ。
容量 | 帯域 | バス | クロック | |
---|---|---|---|---|
RTX 5090 | 32GB | 1792 GB/s | 512-bit | 28 Gbps |
RTX 5080 | 16GB | 960 GB/s | 256-bit | 30 Gbps |
RTX 5070 Ti | 16GB | 896 GB/s | 256-bit | 28 Gbps |
RTX 5070 | 12GB | 672 GB/s | 192-bit | 28 Gbps |
メモリクロックを見ると30 GbpsのスタックがRTX 3080に採用されている以外は28 Gbpsとなっているようだ。Micronは32GbpsのGDDR7を有しているため、今後2,048 GB/s(2 TB/s)のGeForceが登場する可能性がある。
接続性
GPUとして初めてPCIe 5.0に対応した。帯域が大きくなったというのは、GPGPUとしても非常に嬉しい事だろう。時間かかったなぁ。
RTX 5070はRTX 4090と同等か。
今回大きく話題を読んでるNVIDIAの発言がある。それは「RTX 5070がRTX 4090と同等のパフォーマンスを有している」という点。これについては事実ではあるもののかなり誇張された表現と言える。
理論性能は30.84 TFLOPSで、RTX 4090の83 TFLOPSに半分も及ばない。一方、RTX 4070からの性能向上率も5.7 %程度に収まる。ではRTX 4090並の性能は何が由来なのか。
間違いなくDLSS 4である。前述の通り、マルチフレーム生成はFPSを4倍にする。つまり、RTX 5070はRTX 4070と比較して単純に4倍のフレームレートを実現するということになる。これはRTX 4090並と説明しても間違いではない。
なので、ゲームを中心に考えているユーザーはRTX 5070を購入すると幸せになれるだろう。
しかし、GeForceをGPGPU的な使い方をする場合についてはこの通りではない。やはり、RTX 4090並の性能がほしいとなるとRTX 5090しかない。例によってRTX 5090とRTX 5080の間には非常に大きな差がある。今後、RTX 5080 TiやRTX 5080 Superの登場も考えられるが、RTX 4090とRTX 5080を比較すると、RTX 5080のほうが理論性能はかなり低くなっている点には注意が必要だ。
ただ、AIやレイトレのそれに、AIトレーニングについては理論性能が明らかに向上しているので、AI GPUとしてはかなりお得。