昨日、AMDが「Ryzen 8040」シリーズを発表していましたが、同時に「Instinct MI300X accelerators」と「Instinct MI300A accelerated processing unit」を発表しました。

Instinct MI300

Instinctシリーズは、AMDのGPGPU製品で、NVIDIA H100の競合となる製品です。

今回発表されたのは「Instinct MI300X」と「Instinct MI300A」の2つ。共に、HPC・データセンター向けの製品になります。

基本的な設計は同じであるものの、両者はその上に乗っかっているものが違います。

では先に共通部分を見てみましょう。

まず、3.5Dパッケージングですが、3Dと2.5Dの合せ技です。MI300シリーズには最大2基のCDNA 3 XCDあるいは、最大3基のZen 4 CCDを3D方向に搭載できるIO Dieが4基搭載されています。つまり、最大8つのXCDを搭載することができます。

それぞれのダイは896GB/sのInfinity Fabricで接続されています。

IO Dieは2スタックのHBM3メモリに接続されており、最大8スタックのHBM3を実現しています。帯域は最大5.3TB/s。実感がわかない。IO Dieの製造プロセスは6nm。

GPUは先述の通りCDNA 3アーキテクチャを搭載しており、IO Dieあたり64MBのInfinity Cacheも搭載しています。製造プロセスは5nm。

ではそれぞれの製品を見てましょう。

MI300X

MI300Xは、王道のGPGPUでCDNAのみで構成されています。4つのIO Dieが全てCDNA 3で構成されており、計8基のCDNA 3 XCDが搭載されています。

XCDあたり38 CUを搭載し、合計304 CUの規模となっています。FP16理論性能は10.4 PFLOPS。

メモリ容量は192GB。Infinity Cacheは256MBとなっています。

MI300Xは750W TDPとなっており、かなり大規模な演算ユニットになっていることがわかります。

GPU単体では、H100と比較してMI300XはFP64とFP32で2.4倍、FP32/FP16/BF16/FP8/INT8などで1.3倍の計算性能を誇っています。

そして、実際にサーバーに搭載する場合、8基のMI300Xを搭載でき、ボードあたり2,432 CU、1.5TB HBM3を実現できます。そして、400GbEにも対応しており、独自インターコネクトのNVIDIAと比較しています。

実際の性能の比較では、NVIDIA H100 HGXプラットフォームよりInstinct MI300Xのほうが2.4倍のメモリ帯域と、1.3倍の演算性能を実現しています。大規模言語モデルで比較した場合、トレーニング・推論共に最大2倍の性能を実現できるともしています。

MI300Aは、APUです。APUはAPUでも「Accelerated Processing Unit」の略になります。

基本的にGPUに似ていますが、Zen 4 CPUを搭載しています。GPGPUにCPUが混載されているという構成なのは興味深いですね。同様の構成は、NVIDIAが「Grace Hopper Superchip」として開発し、今年夏に製品として発表された「GH200」と同様です。

では実際の構成を見てみましょう。4つのIO Dieのうち、3つはCDNA 3 XXD、1つはZen 4 CPUを搭載しています。つまり、GPUは228 CU、CPUは24コアとなっています。

メモリはCDNAにしか繋がらないので、容量は128GBとなっていますが、帯域自体は変わりません。ただし、CPUとGPUが同じメモリ空間を共有するため、CPU・GPU間のメモリオーバーヘッドをなくすことが可能です。同様にメモリ空間を共有しているチップでメジャーなのがAppleですかね？

MI300AのデフォルトTDPは350Wですが、最大760Wまで構成可能です。この電力は、CPU部とGPU部に動的に割り当てられます。

ソケットはGenoaと同じLGA6096ソケットですが、SH5ソケットというGenoaのSP5ソケットと互換性がないものとなっています。

性能についてはFP64/FP32でNVIDIA H100と比較して1.8倍、FP32/FP16/BF16/FP8/INT8は同等、OpenFOAMの結果では、550Wで駆動するMI300AがCPU・GPU・統合メモリの利点を合わせて4倍の性能を発揮したとしています。

GH200と比較すると、2倍の性能があるとしています。