NVIDIAは、年次イベント「GTC」（GPU Technology Conference）を開催し、「Blackwell」GPUアーキテクチャと「NVIDIA B200」GPUを発表しました。

Blackwell

「Blackwell」はアーキテクチャとして「Hopper」の後継にあたるものになります。NVIDIAのアーキテクチャは基本的に数学者の名前にちなんでいますが、今回はDavid Blackwell氏にちなんだ名前となっているようです。

最大の特徴は、Hopperとは異なり1パッケージあたり2つのダイを備えている点です。後述する「NVIDIA B200」もそうですが、一つのボードに2つのチップが搭載されています。GPU間は、10 TB/sという超高速のインターコネクト「NV-HBI」で接続されます。

製造プロセスについては、TSMC 4NPプロセスとなり、Hopper及びAda Lovelaceから大きく変わったわけではないため、密度の向上にはつながっていないものと見られます。おそらく、GPUの物理的な規模を大きくするには微細化だよりで密度を向上するのではなく、インターコネクトを高速化して2ダイを搭載したほうが効率的に規模をスケーリングできるという判断になったのでしょう。

また、GPU内部の設計を見ますと、Transformer Engineが第2世代となり、FP4演算とFP6演算に対応しています。

周りの環境に関してもアップデートされており、第5世代NVLinkは、最大576基のGPUを接続し、双方向1.8 TB/sの帯域で接続されます。これはHopperの2倍高速です。では、実際の製品を見ていきます。

B200とB100

実際に「Blackwell」を採用するのは「NVIDIA B200」と「NVIDIA B100」GPUです。これは「NVIDIA H100」の後継となるGPGPUで、B200がフラグシップモデルとなります。

B100/B200はやはりパッケージあたり2ダイを備えています。これによってパッケージのサイズも大きくなっています。

メモリはパッケージあたり8基、ダイあたり4基となっています。HBM3eチップ当たりの容量は24GBで、総容量は192GBとなっています。メモリ帯域幅は8TB/sとこれまた非常に高速です。

残念ながら、現時点で何基のコアが搭載されているのかなどの情報は明かされていないため、性能だけをお伝えしていきます。

	B200	B100
FP4	18 PFLOPS	14 PFLOPS
FP6/FP8	9 PFLOPS	7 PFLOPS
INT8	9 POPS	7 POPS
BF16/FP16	4.5 PFLOPS	3.5 PFLOPS
TF32	2.25 PFLOPS	1.8 PFLOPS
FP64	40 TFLOPS	30 TFLOPS

FP4演算に対応している関係もあり、18 PFLOPSを実現しています。後述するGB200 Superchipsの場合、もう少し性能が上がり、20 PFLOPSを実現しているのだから恐ろしいものです。

基本的にB200はH100と比較して大規模ですが、B100はH100からの乗り換えに適しています。B200は1000W TDPのところ、B100はH100と同じ700Wに抑えられており、またx86 CPUとB200あるいはB100を8基搭載する新しい「HGX」システムは、「HGX B100」が「HGX H100」をそのまま置き換えられるように設計されています。

AI以外のワークフローでも性能を発揮できるようになっており、信頼性が向上する機能を搭載している他、データ解凍用のアクセラレータ、データベース高速化のためのアクセラレータなどが搭載されており、様々な場面でデータセンターでの生産性が向上するとしています。

ネットワーク

更に、コネクトの部分でも新製品を発表しており、「NVIDIA Quantum-X800」や「Spectrum-X800」などが用意されており、800GbpsでGPU間を接続し、最大10万基のB200を1台のGPUとして扱うことも可能であるとのことです。

GB200

同時に、Superchipとして展開されている「GB200 Superchip」も発表されています。こちらは、Grace CPUにB200 GPUを搭載したモデルで、特筆すべきなのは、Graceが1基に対してB200が2基搭載されている点です。

GB200で動作しているB200は性能が若干向上し、1基あたり最大20 PFLOPS（FP4）、システムあたり40 PFLOPSを実現します。

	GB200
FP4	40 PFLOPS
FP6/FP8	20 PFLOPS
INT8	20 POPS
BF16/FP16	10 PFLOPS
TF32	5 PFLOPS
FP64	90 TFLOPS

GB200を使用した時、H100と比較してAIトレーニング時に4倍、推論時には30倍、電力効率が25倍となっていると説明しています。

システム

また、B200、GB200、B100を搭載するシステムも発表されています。

DGX B200

「DGX B200」は第5世代Xeon SPである「Xeon Plarinum 8570」を2ソケットと、B200 GPUを8基搭載したラックサーバーです。消費電力は最大14.3kW。

性能は、トレーニングに72 PFLOPS、推論で144 PFLOPSとなっています。

	仕様
CPU	2x Xeon Platinum 8570 （計112コア）
RAM	最大4TB
GPU	8x B200
vRAM	1440GB
NVSwitch	2
最大電力	14.3kW
ネットワーク	8x NVIDIA ConnectX-7 VPI（OSFPポート） BlueField-3 DPU（QSFPポート）
ストレージ	2x 1.9 TB NVMe（OS用） 8x 3.84 TB NVMe U.2（データ用）

DGX B200は、1兆パラメータのモデルも想定しており、推論性能は15倍となっているとのことです。

HGX B200 / HGX B100

OEM向けの「HGX B200」と「HGX B100」も登場しています。すでにこちらはGigabyteから搭載製品が予告されています。

性能のみ示します。

	HGX B200	HGX B100
FP4	144 PFLOPS	112 PFLOPS
FP8	72 PFLOPS	56 PFLOPS
FP16	36 PFLOPS	28 PFLOPS
TF32	18 PFLOPS	14 PFLOPS
FP64	40 TFLOPS	30 TFLOPS

NVIDIA GB200 NVL72

「NVL72」は、2基のGB200を搭載できるブレードサーバー18台で構成されたラックです。Grace CPUが36台、B200 GPUが72台搭載できます。

冷却機構には流石に水冷を用いています。

性能は、全体で1.4 EFLOPSになるとのことです。

DGX SuperPOD GB200版

そして、Hopperの際にも登場したDGX SuperPODが、Grace CPUを搭載してBlackwell版が登場しました。

NVL72と同じ構成の「DGX GB200」を8基搭載しており、合計288基のGrace CPU（合計コア数20,736コア）と、576基のB200 GPUを搭載しており、FP4演算で最大11.5 EFLOPSのピーク性能を発揮します。

恐ろしいかな。そろそろTOP 500の割と上位のところにGraceのスパコンが入ってきそうですがどうですかね？（まだIntel/AMDのほうが性能高い？）

製品の投入時期

B200やGB200を搭載したシステムは今年中に投入される計画となっており、クラウドではAWS、Google Cloud、Microsoft Azure、Oracle Cloudで提供されることが明かされている他、Cisco、Dell、HPC、Lenovo、Supermicroなどのサーバーベンダーから搭載製品が提供される見通しです。

現時点で価格は不明ですが、1基あたり5～600万円はくだらないかと。