Nishiki-Hub

国内外のPC/PCパーツ/スマホ/Appleなどの最新情報を取り上げています

NVIDIA、Ampereアーキテクチャを採用したGPU「A100」を発表! TSMC 7nmを採用しVoltaから20倍の性能向上

f:id:doskokimeil127-dosd:20200514220941p:plain

錦です。

NVIDIAは、Ampereアーキテクチャを搭載する初のGPUである「NVIDIA A100」を発表しました。

NVIDIAは、YouTubeにてGTC 2020の基調講演の動画を8本投稿しています。

NVIDIA GTC 2020 Keynote - YouTube

A100

NVIDIA A100は、Ampereを基にした初のGPUで、AMDに遅れを取っていた7nmを採用したGPUです。データセンター向けのGPUで、Volta「V100」から20倍の性能を持ちます。

TSMC 7nmを採用し、トランジスタ数は驚異の540億。これはVoltaの2倍以上になり、dRAMはHBM2メモリで、インターフェイスは6,144bitになります。6つのHBMスタックをGPうに接続し、メモリ帯域は1.6TB/s、メモリ容量は40GBになっています。

SM数は108コア、FP32CUDAコア数は6,912コア、FP64CUDAコア数が3,456コアとなっており、FP32性能が19.5TFLOPS、FP64性能も9.7TFLOPSになっています。動作クロックはピーク時に1.4GHzに達するとのこと。

機械学習

A100は、機械学習専用のコアTensorコアを搭載しています。GPUはベクタ演算プロセッサですが、こちらはテンサー演算プロセッサであり、これらを組み合わせたハイブリット構成にすることにより、ディープラーニングの性能を飛躍させました。これは、Ampereアーキテクチャの進化にも繋がります。

A100にはTensorコアが1SMあたり4コア、計432コア搭載されています。AmpereとVoltaではTensorコアの数え方が変わり、Voltaでは16×16のテンサー演算ユニットが2コアとカウントされましたが、Ampereでは16×32のユニットとしてカウントされるため、表面上、SMあたりのTensorコア数が減ったように見えますが、実質そのままです。

AmpereのTensorコアでは、新たに「BFloat 16*1」と「Tensor Float32(TF32)」の2つのデータフォーマットが新たにサポートされました。


AmpereのTensorコアの大きな進化点としては、FP64(倍精度浮動小数点数)のサポートが追加されました。これは、ディープラーニングやHPCに向けた進化であり、HPCアプリケーションでは、19.5TFLOPSという性能になっています。これは、Voltaと比較して2.5倍の性能向上になっています。また、前述のTF32の実装によって、FP32(単精度浮動小数点数)演算でもVoltaの20倍 312TFLOPSの性能を実現しています。

8bit整数演算のディープラーニング性能はVoltaに対して20倍 1,248TOPSに達しています。

マルチ

マルチGPU模する個tができますが(後述)、A100を最大7つのGPUに分割し扱える「Multi Instance GPU(MIG)」という技術が実装され、様々な計算をそれぞれに割り当てる事もできます。

GPU間の接続がこれまでの2倍の帯域である600GB/s(ピーク時)に達する第3世代NVLinkをサポートしています。

DGX A100

A100を採用するスパコン向けのシステム、「DGX A100」は、A100 GPUを計8つ採用しており、CPUにAMDのRome CPU*2(64コア)を2ソケット採用し、FP16性能で5PFLOPSになります。また、計320GB HBM2メモリは12.4TB/sという驚異の帯域を持っています。DGX A100は199,000ドル(日本円約2,100万円)で出荷されます。

また、同じくAmpere GPUを採用したエッジ向けの機械学習向けAIプラットフォーム「EGX A100」も提供します。

Source:NVIDIA,PC Watch,PC Watch,VideoCardz

*1:Braon Floating Point 16

*2:第2世代EPYC(7002シリーズ)