Nishiki-Hub

国内外のPC/PCパーツ/スマホ/Appleなどの最新情報を取り上げています

Intel、「Lunar Lake」の詳細な設計を明らかに ~ シングルスレッド特化のCPU・XMX搭載のXe2・48 TOPSのNPUでSoC全体120TOPSを達成

3行まとめ

IntelはCOMPUTEX TAIPEIにて「Lunar Lake」に搭載される次世代のCPU・GPU・NPUについて発表を行いました。

Lunar Lake

Lunar Lakeの概要(出典:Intel

Lunar Lakeは、今年第三四半期に投入が計画されているIntelの新世代プロセッサで、非常に大きなアップデートを果たしています。投入されるセグメントは15W TDPの薄型ラップトップ向けです。

まず、パッケージとして、Apple Siliconのようにメモリを同梱しており、最大32GBのLPDDR5Xメモリが搭載されているのが目に見えてわかる変化です。

中身を見ると、「Apple SiliconやSnapdragonに対抗する消費電力(電力効率)」「AI性能の向上」「シングル性能の向上」などのテーマを持ってアップデートされていることが印象的なプロセッサとなっています。

タイル構造の変化

Lunar Lakeのパッケージ(出典:Intel

CPUダイについても引き続きタイル構造を採用するものの、タイルの構成が異なっており、3タイル+Base Tileという構成になっています。最も、この3タイルのうち一つの「Filler Tile」についてはサイズ調整を担うスペースホルダー的なもの(ダミー)であり、実質的に演算機能をもつには「Compute Tile」と「Platform Controller Tile」の2つのみとなっています。4タイルから大幅に削減された気がしますね。

タイルの割り振りが変わったことに伴って、各演算器やアクセラレータについても搭載位置が変わっています。例えば、Meteor LakeではCompute TileにはCPUのみしか搭載されていなかったところ、Lunar Lakeでは、CPUに加えてGPU・NPU・メデイアエンジン・ディスプレイコントローラなども搭載されています。そいて、Platform Controller TileにはI/O系の機能が搭載されています。形としては、Raptor LakeまでのメインのダイとPCHの関係に近いです。

また、歴史的に見ても初めて、IntelはCPU部分を含めてTSMCに製造を依頼しています。Compute TileはTSMC N3Eノード、Platform Controller TileはN6での製造になるようです。Intelはインターコネクトの配線が通っているBase TileのみIntel 22nmで製造することとなります。ただ、Base Tileと他のタイルをパッケージングするのはFoverosを利用しているようです。

CPU

CPUは引き続きIntel Hybrid Technologyを採用し、すでに発表されている通りPコアには「Lion Cove」、Eコアには「Skymont」をそれぞれ採用しています。

構成として、4P4Eの最大8コアになる見込みで

今回はそれぞれのCPUの設計について明らかになりました。

Lion Cove

まずLion Coveはセンセーショナルな変更点としてIntel Hyper Therad Technology(HTT)が未対応になっている点が挙げられます。これはIntelのLion Coveでの新しい方針ということができます。HTTは1つのコアを2分することによって並列処理を実現する技術ですが、これを実装することでハードウェアのスペースを追加で要することになります。そこで、IntelはHTTを削除することで開いたスペースを活用し、シングル性能を向上させる道を選んだということになります。ちなみに、HTT系のコンポーネントは基本的にONの状態であるらしく、消費電力を削減する際のネックであったりもするようです。

つまり、HTTのメリットとデメリットを並べたときに、デメリットが年々大きくなっていく一方で、そのデメリットに対するメリットが小さくなってきたというのがIntelの主張のようです。

では、Line Coveの他の変更点を見ていきます。HTT以外ではキャッシュ階層の大幅な見直しも大きな変更点といえるでしょう。Lion Coveは、4サイクルでロードと利用が可能な48KBのL0データキャッシュ、9サイクルで利用可能の192KB L1データキャッシュ、17サイクルで利用可能な最大3MBのL2キャッシュがコアごtに設けられています。L0キャッシュの追加とL1キャッシュの大幅な増加によって、9サイクル以下のレイテンシで利用可能なキャッシュの容量が、48KBから240KBに増加しました。さらに、DTLB(データ・ランスレーション・ルックアサイド・バッファ)が96ページから128ページに増加しました。これらの改善によってキャッシュでのヒット率が向上し、効率が向上しています。さらに、ストアユニットの数とアドレス生成ユニットの強化と増加によってストア性能が向上。キャッシュの大幅な刷新につながっています。

正直、IntelはAMDほどキャッシュを重視している印象がなかったため、今回のこの変更は多少驚いていますが、順当に進化すべき場所なのかもしれません。

また、処理の実行については、デコード帯域幅の向上や投機実行の予測ブロックが8倍に増加するなど、性能と効率の両立を実現する進化が果たされています。OOO(アウトオブオーダー)では、ディープ命令ウィンドウが512から576エントリに増加、実行ポートが12から18に増加しました。

整数ALU(演算器)が5基から6基に、ジャンプユニットが2基から3基に、シフトユニットも2基から3基に増加したことによって、複雑な演算に対してもより高い性能を提供することが可能です。この演算器の構成の変化というのも非常に重要な進化と言えるでしょう。

電源管理の面では、100MHzごとだったクロックの調整が16.67MHzごとに行えるようになり、より細かくクロックを調整できるようになりました。

これらの進化によって、Lion Coveは30%のIPCの向上を実現し、電力効率も20%向上など、近年のIntel CPUの進化と比較しても大きい進化といえるでしょう。

Skymont

IntelがHTTをコンシューマ向けCPUからなくす流れを作った要因としては、Eコアの追加によって物理コア数が稼げるようになったからという面もあるでしょう。実際、Eコアの進化は大きいです。

Lunar LakeでEコアに採用されるSkymontは、デコードクラスタが50%増加している他、OOOエンジンが強化されています。また、物理レジスタファイルのサイズも増加するなど、並列での命令実行の効率も大きく向上しています。

ベクトルパフォーマンスでは、Skymontは3x128bitの浮動小数点数とSIMDベクタをサポートし、GLOPS/TOPS換算での理論性能が2倍に。

メモリサブシステムも改良され、4コアで共有する4MBのL2キャッシュの帯域幅はサイクルあたり128Byteとなり、レイテンシが削減されました。

性能として、Meteor LakeのLP Eコアと比較してシングル性能は、同じ性能を1/3の電力で、同じ電力で1.7倍の性能を実現し、最大2倍の性能を実現します。マルチ性能では、同じ消費電力で2.9倍、最大4倍の性能を実現します。

おそらく、Eコアのマイクロアーキテクチャとして、Gracemontを超えるような大きなアップデートとなっているでしょう。

GPU/Media/Display

GPUはXe2アーキテクチャが採用されています。これは第2世代のArc GPUとなる「Battlemage」と同じアーキテクチャのはずです。Xe2はXe同様、CPU内蔵からHPCまで幅広く対応できるGPUアーキテクチャとなっています。

GPUとして大きなアップデートはXe Matrix eXtention(XMX)の搭載でしょう。Meteor LakeのXe-LPGでは、基本的にArcのXe-HPGのアーキテクチャをベースにしていましたが、XMXは搭載されておらず、AI機能はGPU自体のDP4a命令によって実現しました。しかし、XMXの搭載によって大きくAI性能が向上。GPUで67 TOPSの性能を提供するに至りました。

さらにレイトレーシングユニットが増加するなどGPU自体の性能も強化され、グラフィックパフォーマンスは1.5倍に向上。

Meteor Lakeと比較して、GPUの規模は大きくない(Arcブランドはつかないと見られる)ですが、DirectX 12 Ultimateをフルサポートする強力なGPUであることが見受けられます。

また、Meteor LakeではGraphics TileとSOC Tileで離れていたDiplay EngineとMedia EngineはLunar Lakeはほぼ一体化されています。

Display Engine画面出力の面では、eDisplayPort 1.5により、内蔵ディスプレイの強化にもつながっています。その他、最大8K60Hz HDRのサポート、最大3台の4K60Hz HDRのサポート、1080pあるいは1440pの360Hzのサポートが含まれており、HDMI 2.1とDisplay Port 2.1で出力できるようになっています。

Media Engineでは、Av1コーデックに加えて、次世代のH.266/VVCコーデックをサポートしているのも特徴です。

NPU

単体NPU(VPU)から続く第4世代目となるNPU 4は、大幅に強化されています。NPU 4は、Snapdragon X EliteやApple M4を超える48 TOPSの性能を提供し、WindowsのCopilot+ PCの基準を満たします。

NPU 4は、コアにあたるNeural Compute Engineの数が増加し、2コアから6コアまで増加しています。

クロックあたりの演算数についてはFP16フォーマットで1024回、INT8で2048回で代わりありません。

パッケージでのAI性能について、CPUが5 TOPS、GPUが67 TOPS、NPUが48 TOPSの計120 TOPSの演算性能を提供します。これはSnapdragon X Eliteの1.6倍です。

関連リンク