錦です。
NVIDIAが20日発売した「GeForce RTX 4090/4080」「NVIDIA RTX 6000」に採用される「Ada Lovelace」について、WccftechがNVIDIAによるプレス向けの技術説明会にてその詳細が語られた事がわかりました。
Ada Lovelace
Ada Lovelaceは、Ampereの後継となるコンシューマー向けGPUのアーキテクチャです。第3世代RTコア、Hopperに採用されたTranceformer Engineを搭載した第4世代Tensorコアを搭載している他、TSMC 4Nプロセスで製造され、性能が前世代の倍という進化を遂げています。
その詳細が明らかになった形です。
Ada Lovelaceでは、Graphic Processing Clusters(GPC)が12基搭載されています。Ampereでは7基でしたので5基増加です。GPCがの中には6基のTPC、そしてTPCの中には2基のStreaming Multiprocessor(SM)が搭載されています。SMには128基のCUDAを搭載しています。128基のCUDAの内64基はFP32のみに、64基はFP32とINT32の共用となっており、動的にINT32かFP32に切り替わります。この仕様はAmpereと共通です。
つまり、GPC:TPC:SM:CUDAは、1:6:12:1536になります。そのためAda Lovelaceが執りうる最大の構成は、144 SM、18432 CUDAとなります。
で、RTX 6000を取扱うPNYの製品ページから、18176のCUDAコアに対して、RTコアを142基、Tensorコアを568基搭載することになっているそうです。CUDAコアから採用SMを求めると142基になり、RTコアはSMあたり1基、Tensorコアは4基搭載していることになります。
フルダイの採用ですが、RTX 6000が最上位になる見込みで、144 SM中142 SMが有効になり、前述の通り18176基のCUDA(98.6%のコア)が有効になります。
採用プロセスはTSMC 4N カスタマイズプロセスとされています。これまでのNVIDIAとTSMCの動向を見ると、N4PではなくN4ベースが採用された可能性が高いです。トランジスタ数は最大763基と前世代の2.5倍以上に増えています。増加分は、各コアの性能向上分と、後述するNVENCの増設やGPCの増加分に充てられているものと見られます。
SER
今回、シェーダー部分の新機能として、Shader Execution Reordering(シェーダー実行リオーダリング/SER)が実装されました。こちらは、レイトレーシングの適用によって並列処理が不可能になってしまったシェーディング処理をオンザフライで並べ替えることで並列処理を行うことができるようになったものになっています。
これによりレイトレーシング環境下での性能が向上するとしており、Cyberpunk 2077に搭載される予定の「Overdrive Mode」というレイトレーシングモードではSERに対応することで44%も性能が向上するほか、Portal RTXで29%、Racer RTXでは20%の性能向上が実現されるとのことです。
NVIDIAはSERをCPUのOut of Order(OOO)実行と並ぶイノベーションであると謳っています。
Tensor コア
第4世代Tensorコアは前述の通り、Tranceformer Engineに対応するため、FP8での演算に対応しています。
エンコーダ
また大きな変更点として、ビデオエンコードであるNVENCが第8世代に強化された上で2基搭載します。そして、Intelが先に対応しているAV1のハードウェアエンコードにも対応しました。これにより、ゲーム配信などで高品質な配信が可能になります。