Nishiki-Hub

国内外のPC/PCパーツ/スマホ/Appleなどの最新情報を取り上げています

Intel、HBMを搭載したHPC向けCPU「Xeon Max」とGPU「Data Center GPU Max」を正式に発表 〜 HBM付「Sapphire Rapids」と「Ponte Vecchio」がついに登場

出典:Intel

錦です。

Intelは、HPC向け製品の新しいブランド「Max」を発表し、HPC向けCPU「Xeon Max」とHPC向けGPU「Data Center GPU」を正式に発表しました。

Xeon Max

Xeon Max

Xeon Max」は、もともと「Sapphire Rapids with High Bandwidth Memory」という名前でこれまでは説明されていたラインナップで、Sapphire Rapidsの一部です。名前の通り、HBM2eメモリをCPU基盤に同梱しているのが特徴。

Xeon Maxは、Xeon Scalable Processorとは別ラインナップとして扱われます。これまでHPC向けとデータセンター向けのCPUはScalable Processorでまとめられていましたが、そのうちのHPC向けのラインナップがXeon Max、データセンター向けラインナップがXeon-SPという風に棲み分けられているようです。

HBM

詳しく詳細を見て行きます。まず特徴であるメモリから。

Xeon Maxでは、HBM2eメモリをCPU基盤上に実装しています。つまり、ソケット上にメモリが存在していることになり、これはAppleなどが採用しているUMAに近いです。しかもメモリは広帯域メモリであるHBM2eであり、Intelの説明では1TB/2もの帯域を実現しているとのこと。

メモリの容量は16GBのスタックが4つで計64GBとなります。

メモリの使用方法については3種類の動作方法が動作モードという形で実装されており、HBMのみで動作するモード(HBM Only Mode)、HBMとDIMMの両方を同時運用する(同じレベルで使う)モード(HBM Flat Mode)、HBMをDIMMのキャッシュとして利用する「HBM Caching Mode」が実装されています。

この内、HMBとDIMMが同時運用する「HBM Flat Mode」についてはコードの最適化が必要であるとのこと。この場合DIMMはDDR5、HBMはHBM2eと異なる帯域、性能であるメモリを協調させることになるため、その調整が必要といった感じでしょうか。

ちなみに、CPU自体にはキャッシュも搭載されており、LLC(おそらくL3キャシュ)は112.5MBとこれまた大容量になっています。

アーキテクチャ

Xeon Maxは、Sapphire RapidsということでAlder LakeのPコアに当たるGolden Coveを採用しています。また、他社でいうとマルチチップレット構造となる「タイル構造」を採用しているのも特徴です。

CPUは1基あたり15コアのGolden Coveを搭載したタイルを4つ搭載した計60コアで構成されます。と言っても、製品では最大コア数は56コアになります。おそらく、歩留まりの関係でしょう。

その他の部分は通常Sapphire Rapidsと共通している部分も多いです。タイルは2.5Dパッケージング技術であるEMIBで実装されている他、Alder LakeのEコアに相当するものは搭載されていません。EコアがないためPコアのすべての命令セットを利用できるようになっています。

AVX-512用のアクセラレータや、Intel DL Boostといった従来から存在するものに加えて、新命令TMULを使用した「Intel Advanced Matrix Extensions」(AMX)やメモリへのデータ作業を代行する「Intel Data Streaming Accelerator」(DSA)も搭載します。

TDPは350Wとなっており大規模プロセッサであることがわかります。

性能

このようにXeon史上最も大きなアップデートとも呼べる革新によって性能も大幅に向上しています。

Intelの検証では、現行のIce Lake-SP「Xeon Platinum 8380」と比較して最大5.3倍、競合となるZen 3D(Milan-X)の「EPYC 7773X」と比較しても5倍もの性能を達成するとしており、実用面でも、一般的なワークロードで競合他社の4.8倍の性能があると主張しています。

効率面でもIntelは上回っていると主張しており、同じHPCGパフォーマンスに合わせたとき、Milan-Xより68%低い消費電力になっているとのこと。

Data Center GPU Max

出典:Intel

同じくMaxブランドから登場したのが、Data Center GPU Max Seriesです。こちらはもともとXe-HPCとして開発されていたGPUで、Intel初のHPC向けGPUです。こちらはもともと「Ponte Vecchio」という開発コードで紹介されていました。

Maxは、408MBのL2キャッシュと64MBのL1キャッシュを搭載しており、これは業界最高水準であるとのことです。

GPUとしての規模はXe-Coreで確認しましょう。Maxには128基のXe-Coreを搭載しており、これはIntel Arcの最上位A770の4倍の規模になります。ただし、Xe-HPCアーキテクチャではXMXやベクターエンジンの仕様が異なっており、ベクターエンジンがコアあたり512bit、XMXがコアあたり4096bitとなっています。そのため、スペックシートで確認したとき、Xe−Core内のコアが厳密に4倍されているわけではありません。

ゲーミング向けと仕様が異なるとは言えど、HPC向けとしては珍しくレイトレーシング用のアクセラレータが無効化されておらず、128基も搭載されています。

理論性能は以下の通り

  • FP64およびFP32で52TFLOPS
  • XMX Float 32で419 TFLOPS
  • XMX BF16およびFP16で839 TFLOPS

となっています。性能的に見るとH100よりやや弱い程度の性能となっています。

移植

やはり初めてのHPC GPUとなると、過去の資産を十分に利用できないということもありえます。これまではNVIDIAあるいはAMDGPUで構成されていたHPCからの移植については、Intelが提供するクロスかつオープンな開発環境である「oneAPI」を利用することが可能になっています。oneAPIは、NVIDIAAMDのシステムだけでなく、日本の富岳でも採用されています。

また、oneAAPIとともに命令セットレベルでも移植のしやすさを打ち出していて、GPUっぽい命令(SIMT)と、CPUっぽい命令(SIMD)の両方をサポートしており、CUDAやx86の資産を簡単に移植できるような設計になっています。

製品ラインナップ

Xeon Maxについては製品の発表までは至らなかったものの、GPU Maxについては製品の発表がありました。製品は「Max Series 1550」「Max Series 1350 GPU」「Max Series 1100 GPU」の3モデルです。

1550 1350 1100
Xe-Core 128 112 56
XMX 1024 1024 1024
ベクターエンジン 1024 1024 1024
メモリ 128GB
HBM2e
96GB
HBM2e
48GB
HBM2e
TDP 600W 450W 300W
最大スケール 8 8 4
パッケージ OAM OAM PCIe

1550と1350はOCP Accelerator Module(OAM)で提供され、1100のみPCIeで提供されます。

1550はおそらくGPU Maxの最大規模のGPUでこれを超える製品は少なくとも現世代では登場しないでしょう。

関連リンク