錦です。
Intelは、HPC向け製品の新しいブランド「Max」を発表し、HPC向けCPU「Xeon Max」とHPC向けGPU「Data Center GPU」を正式に発表しました。
Xeon Max
「Xeon Max」は、もともと「Sapphire Rapids with High Bandwidth Memory」という名前でこれまでは説明されていたラインナップで、Sapphire Rapidsの一部です。名前の通り、HBM2eメモリをCPU基盤に同梱しているのが特徴。
Xeon Maxは、Xeon Scalable Processorとは別ラインナップとして扱われます。これまでHPC向けとデータセンター向けのCPUはScalable Processorでまとめられていましたが、そのうちのHPC向けのラインナップがXeon Max、データセンター向けラインナップがXeon-SPという風に棲み分けられているようです。
HBM
詳しく詳細を見て行きます。まず特徴であるメモリから。
Xeon Maxでは、HBM2eメモリをCPU基盤上に実装しています。つまり、ソケット上にメモリが存在していることになり、これはAppleなどが採用しているUMAに近いです。しかもメモリは広帯域メモリであるHBM2eであり、Intelの説明では1TB/2もの帯域を実現しているとのこと。
メモリの容量は16GBのスタックが4つで計64GBとなります。
メモリの使用方法については3種類の動作方法が動作モードという形で実装されており、HBMのみで動作するモード(HBM Only Mode)、HBMとDIMMの両方を同時運用する(同じレベルで使う)モード(HBM Flat Mode)、HBMをDIMMのキャッシュとして利用する「HBM Caching Mode」が実装されています。
この内、HMBとDIMMが同時運用する「HBM Flat Mode」についてはコードの最適化が必要であるとのこと。この場合DIMMはDDR5、HBMはHBM2eと異なる帯域、性能であるメモリを協調させることになるため、その調整が必要といった感じでしょうか。
ちなみに、CPU自体にはキャッシュも搭載されており、LLC(おそらくL3キャシュ)は112.5MBとこれまた大容量になっています。
アーキテクチャ
Xeon Maxは、Sapphire RapidsということでAlder LakeのPコアに当たるGolden Coveを採用しています。また、他社でいうとマルチチップレット構造となる「タイル構造」を採用しているのも特徴です。
CPUは1基あたり15コアのGolden Coveを搭載したタイルを4つ搭載した計60コアで構成されます。と言っても、製品では最大コア数は56コアになります。おそらく、歩留まりの関係でしょう。
その他の部分は通常Sapphire Rapidsと共通している部分も多いです。タイルは2.5Dパッケージング技術であるEMIBで実装されている他、Alder LakeのEコアに相当するものは搭載されていません。EコアがないためPコアのすべての命令セットを利用できるようになっています。
AVX-512用のアクセラレータや、Intel DL Boostといった従来から存在するものに加えて、新命令TMULを使用した「Intel Advanced Matrix Extensions」(AMX)やメモリへのデータ作業を代行する「Intel Data Streaming Accelerator」(DSA)も搭載します。
TDPは350Wとなっており大規模プロセッサであることがわかります。
性能
このようにXeon史上最も大きなアップデートとも呼べる革新によって性能も大幅に向上しています。
Intelの検証では、現行のIce Lake-SP「Xeon Platinum 8380」と比較して最大5.3倍、競合となるZen 3D(Milan-X)の「EPYC 7773X」と比較しても5倍もの性能を達成するとしており、実用面でも、一般的なワークロードで競合他社の4.8倍の性能があると主張しています。
効率面でもIntelは上回っていると主張しており、同じHPCGパフォーマンスに合わせたとき、Milan-Xより68%低い消費電力になっているとのこと。
Data Center GPU Max
同じくMaxブランドから登場したのが、Data Center GPU Max Seriesです。こちらはもともとXe-HPCとして開発されていたGPUで、Intel初のHPC向けGPUです。こちらはもともと「Ponte Vecchio」という開発コードで紹介されていました。
Maxは、408MBのL2キャッシュと64MBのL1キャッシュを搭載しており、これは業界最高水準であるとのことです。
GPUとしての規模はXe-Coreで確認しましょう。Maxには128基のXe-Coreを搭載しており、これはIntel Arcの最上位A770の4倍の規模になります。ただし、Xe-HPCアーキテクチャではXMXやベクターエンジンの仕様が異なっており、ベクターエンジンがコアあたり512bit、XMXがコアあたり4096bitとなっています。そのため、スペックシートで確認したとき、Xe−Core内のコアが厳密に4倍されているわけではありません。
ゲーミング向けと仕様が異なるとは言えど、HPC向けとしては珍しくレイトレーシング用のアクセラレータが無効化されておらず、128基も搭載されています。
理論性能は以下の通り
- FP64およびFP32で52TFLOPS
- XMX Float 32で419 TFLOPS
- XMX BF16およびFP16で839 TFLOPS
となっています。性能的に見るとH100よりやや弱い程度の性能となっています。
移植
やはり初めてのHPC GPUとなると、過去の資産を十分に利用できないということもありえます。これまではNVIDIAあるいはAMDのGPUで構成されていたHPCからの移植については、Intelが提供するクロスかつオープンな開発環境である「oneAPI」を利用することが可能になっています。oneAPIは、NVIDIAやAMDのシステムだけでなく、日本の富岳でも採用されています。
また、oneAAPIとともに命令セットレベルでも移植のしやすさを打ち出していて、GPUっぽい命令(SIMT)と、CPUっぽい命令(SIMD)の両方をサポートしており、CUDAやx86の資産を簡単に移植できるような設計になっています。
製品ラインナップ
Xeon Maxについては製品の発表までは至らなかったものの、GPU Maxについては製品の発表がありました。製品は「Max Series 1550」「Max Series 1350 GPU」「Max Series 1100 GPU」の3モデルです。
1550 | 1350 | 1100 | |
---|---|---|---|
Xe-Core | 128 | 112 | 56 |
XMX | 1024 | 1024 | 1024 |
ベクターエンジン | 1024 | 1024 | 1024 |
メモリ | 128GB HBM2e |
96GB HBM2e |
48GB HBM2e |
TDP | 600W | 450W | 300W |
最大スケール | 8 | 8 | 4 |
パッケージ | OAM | OAM | PCIe |
1550と1350はOCP Accelerator Module(OAM)で提供され、1100のみPCIeで提供されます。
1550はおそらくGPU Maxの最大規模のGPUでこれを超える製品は少なくとも現世代では登場しないでしょう。