Armの新しいモバイル向けIPスイート「Arm Lumex CSS Platform」

3行まとめ

Armは、クライアント向けの新しいIPスイート群である「Arm Lumex CSS Platform」を発表しました。

ブランドが一新

今回、ArmのIP群はブランドが大幅に一新されています。

Armは例年、CPU IP、GPU IP、DSUに加えてプロセスの最適化などをパッケージとして提供しています。クライアント向けのIPについては、2023年まではTCS(Total Compute Solution)というブランドで提供されていましたが、昨年は、サーバー向けに用いられたCSS(Compute Subsysytem)と名前が合わせられ「CSS for Client」となっていました。

今年は新たに「Lumex CSS Platform」として、刷新されており、CPUのブランド構成なども大幅に変更されているのです。

ちなみにLumexというのは、Armの新しいブランド戦略で名付けられた、モバイル向けのブランドとなっており、他にもサーバー・インフラ向けには従来から用いられていた「Neoverse」、自動車向けには「Zena」、PC向けには「Niva」、IoT組み込み向けには「Orbis」がそれぞれ展開されます。現時点で、自動車向けのZenaのみが展開されていたので、新ブランドでの展開はLumexが2つ目ということになります。

また、CPUの詳細については後述しますが、コンシューマ向けCPU IPブランドであった「Cortex」と、ハイエンドGPU IPブランドであった「Immortalis」が廃止され、前者は「C1」のようにC+世代、後者はMaliに統一され「Mali-G1」のようにMali G+世代という表記に統一されています。

CPU

では、まずCPUから見ていきましょう。

CPUはこれまで、性能順にプライムコア・高性能コア・高効率コアがそれぞれ提供されていました。昨年のCSS for Clientでは、プライムコアに「Cortex-X925」、高性能コアに「Cortex-A725」、高効率コアに「Cortex-A520」がそれぞれ提供されていました。

Lumex CSS Platformでは、前述の通りCortexが廃され「C1」という統一のブランドで提供されています。バリアントはプライムコア向け「C1-Ultra」、新たに追加されたサブプライムコア向け「C1-Premium」、高性能コア向け「C1-Pro」、高効率コア向け「C1-Nano」の4種類です。C1-UltraはCortex-X925、C1-ProはCortex-A725、C1-NanoはCortex-A520のそれぞれ後継です。

CPU全体の進化を見ていきます。

CPUの命令セットがArmv9.3となりSME2に対応しました。SMEは、Scalable Matrix Extentionという行列演算用のArm拡張命令セットであり、SME2はその二世代目になります。SMEでは主にHPC向けの機能が中心だったためCortex系統に採用されませんでしたが、SME2では推論に活用することができる命令セットが追加されており、クライアント向けのC1シリーズにも追加されたとのこと。

これによってAI性能が最大5倍、音声ベースのワークロードにおいてレイテンシが4.7倍削減、音声生成が2.8倍高速になるとのことです。ちなみに、SME2のクライアント向けの実装の例には、AI主軸の進化が目立ったApple M4があり、性能が向上しています。

また、AI面においては、Armが提供しているAI APIである「KleidiAI」がSME2にも対応したため、開発者や研究者がAIフレームワークにおいてのAIにSME2の性能をフルで活用する事が可能です。

製造プロセスについては、3nmに最適化されており、最新の製造プロセスに沿った形に進化しているようです。

2桁%の性能向上を実現した「C1-Ulltra」

次にそれぞれのバリアントの進化を見ていきましょう。

C1-Ultraは、Cortex-X925の後継です。C1-Ultraは順当な進化を遂げており、アウトオブオーダーのウィンドウサイズが25%向上したほか、過去の分岐結果をベースとした分岐予測の精度向上、L1 Instructor-Cacheの帯域が33%の向上などにより、性能が向上しています。

その他、ハード側の更新では、L1キャッシュの容量が増加しており、データ64KBから128KBに増加した事により、データ128KB + 命令64KBの192KBとなっています。

電力効率も向上しており、Cortex-X925と同じ性能を最大28%少ない電力で実現しています。また、ピーク性能は25%向上しており、非常に大幅な性能向上を実現しています。他方で、ピーク時の電力消費も大きくなっています。

新しいグレード「C1-Premium」

新しいグレードとして登場したC1-Premiumは、これまでのプライムコアと高性能コアの中間となる「サブプライムコア」に位置づけられたコアです。

C1-Ultraを踏襲した設計のまま、演算器やL2キャッシュの容量を削減し、フットプリントを小さくしています。

具体的な演算器の数などは不明ですが、C1-Ultraの機能を維持したまま、フットプリントを抑えたコアという立ち位置でしょう。

MediaTekがプライムコアにおいて、Cortex-X925とひと世代前のCortex-X4をミックスしていたり、クロックが異なるCortex-X925を配置していたりしているので、そういったプライムコアの中でもヘテロジニアスな構成を実現するなら、C1-Premiumは有意義だと思います。

11%の性能向上を果たした「C1-Pro」

高性能コア向け「C1-Pro」もまた、Cortex-A725と比較して11%の性能向上、26%の電力効率向上と、2桁の性能向上を果たしています。

C1-Proでも、分岐予測の改良や、L1命令TLBの増量等によって性能や効率が向上しています。

高効率性を維持する「C1-Nano」

高効率コア向けの「C1-Nano」は、高効率コアながらFPとSIMDユニットが拡張されており、CPU全体でのAI性能が図られている用に見えます。

また、C1-Proと同様の改善が行われており、電力効率が26%向上しています。

CPUの構成

CPU間インターコネクトは「C1-DSU」として強化されており、キャッシュの配置や接続方法によって消費電力の削減が図られています。

引き続き最大14コアの構成に対応しており、その中で様々な構成を実現できます。

GPU

新しいGPU「Mali G1」は、Immortalis-G925に引き続き第5世代GPUとなっています。ただ、内部の改善に取り、GPU性能は20%向上しています。

さらに、Immortalis-G925で初めて搭載された、ハードウェアレイトレーシングユニットが第2世代となり、シェーダーエンジンと統合され性能が2倍に。ゲーム開発者の対応も不要で、そのままのAPIで利用可能としています。

Mali-G1のバリアントは、シェーダエンジンが10コア~24コアの「Mali G1-Ultra 」、9コアの「Mali G1-Premium」、5コア以下の「Mali G1-Pro」と3つ用意されています。

年末から来年以降?

展開は、年末から来年初頭に登場するSoCに採用するものと考えられます。

ただ、SnapdragonがOryonに移行したため、パッと思いつく採用例がDimensityだけなのですが・・・。

関連リンク