英特爾Lunar Lake架構(gòu)解析
隨著英特爾下一代AI PC硬件核心——Lunar Lake的問世,英特爾四年內(nèi)跨越五個(gè)制程節(jié)點(diǎn)的演進(jìn)正逐步邁向一個(gè)革命性的里程碑。在AI時(shí)代,面對(duì)算力需求的指數(shù)級(jí)增長(zhǎng),英特爾的Lunar Lake,即第二代酷睿Ultra平臺(tái),其CPU、GPU與NPU的算力已突破至120TOPS,這一壯舉將為基于Lunar Lake構(gòu)建的AI PC帶來更為強(qiáng)大、高效的AI性能體驗(yàn),開啟智能計(jì)算的新紀(jì)元。
在臺(tái)北電腦展這一PC行業(yè)重要時(shí)間節(jié)點(diǎn),英特爾率先公布了Lunar Lake平臺(tái)技術(shù)細(xì)節(jié),再次革新的架構(gòu)設(shè)計(jì),以及全新的CPU、GPU、NPU特性,同時(shí),各大OEM廠商也帶來了基于Lunar Lake平臺(tái)的新一代AIPC。那么Lunar Lake究竟能夠?yàn)榈诙犷ltra平臺(tái)帶來怎樣的改變?接下來,讓我們一起探究全新的英特爾Lunar Lake平臺(tái)。
·以AI為核心的多元化計(jì)算力提升
現(xiàn)如今,AI應(yīng)用蓬勃發(fā)展,并且深入到各個(gè)領(lǐng)域。聊天機(jī)器人、AI智能助手、文生圖、文生視頻、文生音樂、降噪、擴(kuò)圖、代碼生成、聲音模擬等等應(yīng)用場(chǎng)景為人們所熟知。生成式AI蓬勃增長(zhǎng),基于AI技術(shù)的應(yīng)用日新月異,多元化大模型的轉(zhuǎn)換與擴(kuò)散,成為AI終端負(fù)載的主流趨勢(shì)。同時(shí)更需要云、端、邊緣等多模態(tài)AI硬件設(shè)備的算力支持。
與此同時(shí),對(duì)于像PC這樣的本地化AI載體,多元化的AI應(yīng)用對(duì)于CPU、GPU、NPU等核心硬件的算力要求與日俱增,單一和傳統(tǒng)的硬件發(fā)展模式已經(jīng)無法完全適應(yīng)AI時(shí)代的計(jì)算要求。
因此,從Meteor Lake到如今的Lunar Lake,CPU+GPU+NPU構(gòu)成的多元AI計(jì)算引擎,成為當(dāng)代AI PC核心硬件的架構(gòu)設(shè)計(jì)趨勢(shì)。也因此,在如何提升三大AI計(jì)算引擎算力的同時(shí),利用制程與架構(gòu)優(yōu)勢(shì)塑造更好的能效比,并兼顧傳統(tǒng)計(jì)算能力的提升,成為了擺在英特爾這些上游芯片企業(yè)的最直接問題。
我們看看全新的Lunar Lake是如何做到的?
·高達(dá)120TOPS的全核心AI算力暴增
首先需要明確的一點(diǎn)是,Lunar Lake全新的CPU、GPU以及NPU,使得整個(gè)平臺(tái)的AI計(jì)算能力達(dá)到120TOPS,相較Meteor Lake實(shí)現(xiàn)翻倍式提升。
那么這120TOPS算力是如何分配的呢?
首先,Lunar Lake采用的全新的Lion Cove性能核(P-Core)與Skymont能效核(E-Core)設(shè)計(jì),支持VNNI以及AVX AI指令集,峰值A(chǔ)I算力為5TOPS。別看數(shù)字比較低,但是CPU在AI應(yīng)用中往往只負(fù)責(zé)一些輕度的嵌入式AI計(jì)算任務(wù),因此5TOPS算力足以應(yīng)對(duì)這些類型AI的計(jì)算需求。
其次,全新的Xe2 GPU架構(gòu)帶來了67TOPS的峰值A(chǔ)I算力,這主要得益于新架構(gòu)的XMX矩陣引擎吞吐量的進(jìn)一步提升,從而使得新的銳炫GPU擁有了更強(qiáng)的浮點(diǎn)運(yùn)算能力,提升了BF16、INT8等常見AI數(shù)據(jù)類型的算力。
其三,全新的NPU 4架構(gòu),帶來了2倍的能效提升以及48TOPS的峰值算力。相比Meteor Lake NPU 3架構(gòu)的11.5TOPS算力,可以說是提升巨大。
因此,三大硬件核心算力加在一起,就構(gòu)成了Lunar Lake整體120TOPS的AI計(jì)算能力。
·CPU、GPU、NPU三大核心性能更強(qiáng)、能效比更高
了解了Lunar Lake最為核心的特性之后,我們從架構(gòu)入手,看看Lunar Lake在設(shè)計(jì)上有哪些變化?
從整體來看,Lunar Lake被英特爾定位儀下一代AI PC的旗艦級(jí)SoC。它具備四大特點(diǎn):
其一,降低40%能耗,帶來了極富突破性的x86能效表現(xiàn);
其二,達(dá)到Meteor Lake相同性能等級(jí)時(shí),能耗只有前者的一半,從而帶來了卓越的核心性能保險(xiǎn);
其三,全新的Xe2圖形架構(gòu)帶來了1.5倍的圖形性能提升;
其四,120TOPS全平臺(tái)AI算力帶來了無與倫比的AI計(jì)算能力。
在這樣的前提下,我們來看看Lunar Lake的芯片設(shè)計(jì)。如下圖所示:
與Meteor Lake的計(jì)算模塊、圖形模塊、SoC模塊、IO模塊的架構(gòu)設(shè)計(jì)相比,Lunar Lake進(jìn)行了整合并直接集成了內(nèi)存。可以看到,Lunar Lake在基板上直接集成了LPDDR5x內(nèi)存顆粒,最高支持32GB雙通道。處理器芯片部分由計(jì)算模塊(Compute tile)和平臺(tái)控制模塊(Platform Controller tile)構(gòu)成。
Lunar Lake的計(jì)算模塊包含了性能核心、能效核心、GPU、媒體和顯示引擎以及NPU五個(gè)區(qū)塊,這部分如果做深入解讀的話會(huì)比較難以理解,所以這里我們盡量把一些較為晦澀難懂的技術(shù)細(xì)節(jié)剔除,比如流水線深度、分支預(yù)測(cè)、矢量等等,只介紹這些技術(shù)細(xì)節(jié)的改變?yōu)長(zhǎng)unar Lake奠定了怎樣的性能基礎(chǔ)。
·全新設(shè)計(jì)的性能核與能效核帶來更好的性能體驗(yàn)
首先,Lunar Lake的性能核代號(hào)為L(zhǎng)ion Cove,其微架構(gòu)針對(duì)性能和能效、IPC、可擴(kuò)展性等方面進(jìn)行了優(yōu)化。如針對(duì)PPA(面積功耗)進(jìn)行優(yōu)化,L3共享緩存提升到12MB,存儲(chǔ)器子系統(tǒng)進(jìn)一步改進(jìn),引入了基于AI的電源管理,矢量與整數(shù)亂序引擎進(jìn)行了拆分等等。
這一系列改進(jìn)使得Lion Cove的IPC相較Meteor Lake的Redwood Cove提升14%,并且能夠在相同功耗下獲得更好的性能,尤其在低能耗下的性能提升幅度達(dá)到了18%。這意味著Lunar Lake能夠以更少的耗電量獲取更高的性能,從而兼顧性能與續(xù)航表現(xiàn)。
Lunar Lake的能效核代號(hào)為Skymont,其微架構(gòu)設(shè)計(jì)增加了工作負(fù)載的覆蓋范圍并實(shí)現(xiàn)了雙倍的矢量與AI吞吐能力提升,這使得低功耗島上的Skymont核心在單線程以及多線程性能方面分別提升2倍和4倍。再加上更好的電源效率,使得能效核在實(shí)現(xiàn)相同性能時(shí),功耗較前代相比更低。
總體來看,Skymont微架構(gòu)打造的全新能效核,增強(qiáng)了分支預(yù)測(cè)能力,擁有4MB L2共享緩存,L2緩存帶寬提升了2倍,4x 128bit FP和SIMD矢量AI吞吐能力提升2倍,同時(shí)具備更好的并行計(jì)算能力。
對(duì)比Meteor Lake的Crestmont微架構(gòu)能效核,Skymont單線程FP計(jì)算能力提升1.68倍,多線程INT峰值算力是前者的4倍,而達(dá)到相同算力的能耗只有前者的1/3。
·全新的線程調(diào)度邏輯優(yōu)化工作負(fù)載到核心匹配
此外,Lunar Lake改變了性能核與能效核的調(diào)度邏輯,以同時(shí)覆蓋全面的CPU性能范圍,從而優(yōu)化工作負(fù)載到核心的匹配。Meteor Lake無論在怎樣的負(fù)載狀態(tài)下,都會(huì)優(yōu)先調(diào)用性能核來承擔(dān)工作負(fù)載,這就會(huì)出現(xiàn)明明負(fù)載不高的工作任務(wù),也會(huì)跑在性能核上的問題,進(jìn)而影響散熱與續(xù)航表現(xiàn)。而Lunar Lake則會(huì)優(yōu)先調(diào)用功耗更低的能效核來執(zhí)行工作負(fù)載,之后如果工作負(fù)載不斷增高,就會(huì)調(diào)用性能核來提供更好的性能。這種全新的“大小核”調(diào)度邏輯,可以幫助Lunar Lake更好地分配性能與功耗,避免性能核瘋狂跑,能效核在一旁“圍觀”的問題。
之所以能夠?qū)崿F(xiàn)更“聰明”的核心匹配,主要原因有三點(diǎn):
其一是讓線程調(diào)度更加智能化,以優(yōu)化工作負(fù)載與核心的匹配;
其二是改善系統(tǒng)與OEM集成來更加實(shí)現(xiàn)更為智能和可控的CPU調(diào)度。
其三是擴(kuò)展效率并提升整體的電池壽命。
在開始采用性能核與能效核設(shè)計(jì)之后,英特爾為酷睿平臺(tái)引入了Intel Thread Director,也就是英特爾線程調(diào)度器。Lunar Lake采用了改進(jìn)后的全新線程調(diào)度器,旨在優(yōu)化混合架構(gòu)下多核心處理器中不同類型核心的利用效率,提高整體性能和能效。新一代線程調(diào)度器通過智能化的調(diào)度和資源分配,能夠動(dòng)態(tài)調(diào)整線程的執(zhí)行狀態(tài),從而實(shí)現(xiàn)更高效的計(jì)算和更長(zhǎng)的電池壽命。
在用戶在運(yùn)行復(fù)雜應(yīng)用和多任務(wù)處理時(shí),英特爾線程調(diào)度器能確保應(yīng)用程序順暢運(yùn)行,減少卡頓和延遲現(xiàn)象,提升用戶體驗(yàn)。例如在游戲場(chǎng)景中,英特爾線程調(diào)度器可以優(yōu)先調(diào)度游戲相關(guān)線程到性能核,而將后臺(tái)更新等任務(wù)安排到能效核,確保游戲的流暢運(yùn)行。再比如Teams應(yīng)用,通過基于系統(tǒng)容器和電源管理層面的優(yōu)化,該項(xiàng)應(yīng)用的能耗相比Meteor Lake降低35%,顯著增強(qiáng)了在線會(huì)議時(shí)電腦的能效表現(xiàn)。
另外還可以看看Office生產(chǎn)力應(yīng)用時(shí)的能效核與性能核調(diào)度邏輯。第一張圖是任務(wù)剛剛開始時(shí),工作負(fù)載較低的情況下,優(yōu)先調(diào)用能效核來執(zhí)行;第二張圖是任務(wù)負(fù)載持續(xù)爬坡之后需要更高性能時(shí),工作負(fù)載會(huì)迅速轉(zhuǎn)移到性能核上來。如果后續(xù)性能不需要性能核介入,那么就會(huì)一直跑在功耗更低的能效核上,這可以說是非常典型的Lunar Lake“大小核”調(diào)度邏輯。而以往Meteor Lake可能在任務(wù)開始時(shí),就會(huì)將負(fù)載放到性能核上來。
總體來說,全新的英特爾線程調(diào)度器通過實(shí)時(shí)監(jiān)控和動(dòng)態(tài)調(diào)度,實(shí)現(xiàn)了對(duì)混合架構(gòu)中不同核心的高效利用。它不僅提高了系統(tǒng)的整體性能和響應(yīng)速度,還通過優(yōu)化資源分配降低了功耗,延長(zhǎng)了電池壽命。這項(xiàng)技術(shù)在Lunar Lake等平臺(tái)上展現(xiàn)出了顯著的優(yōu)勢(shì),將為用戶提供無縫、高效的計(jì)算體驗(yàn)。
·全新的Xe2核顯釋放更強(qiáng)圖形與AI性能
CPU部分說完,我們?cè)賮砜纯碐PU。
Meteor Lake引入全新的銳炫GPU之后,圖形性能提升顯著。一方面在游戲端可以在1080p、高畫質(zhì)下用核顯運(yùn)行大型3A游戲,并可以獲得35-40fps以上的畫面流暢度;另一方面,銳炫核顯在Intel OpenVINO加持下, 可以提供更加出色的AI算力,尤其在本地化的Stable Diffusion應(yīng)用上,文生圖、圖生圖效率提升顯著。
Lunar Lake引入了全新的Xe2 GPU,相比Meteor Lake而言,圖形性能提升1.5倍,并且提供了更大的光追單元,幫助提升游戲的畫質(zhì)與真實(shí)感。Xe2 GPU架構(gòu)提高了硬件功能的利用率,在整個(gè)架構(gòu)上實(shí)現(xiàn)更好地工作負(fù)載分配,并且加強(qiáng)了硬件和軟件集成。
同時(shí)在硬件規(guī)格方面,Xe2架構(gòu)也實(shí)現(xiàn)了升級(jí),其Xe核心增加到了8個(gè),圖形性能自然提升。AI性能的提升則來源于全新引入的Xe矩陣擴(kuò)展引擎,這一全新的矢量引擎支持4096OPS/clock和2048OPS/clock的INT8和FP16計(jì)算,并且改進(jìn)了固定功能單元,提高了吞吐量,從而優(yōu)化了AI計(jì)算效率。其總體AI算力達(dá)到了67TOPS,并且擁有8MB L2緩存。
同時(shí),Xe2 GPU增強(qiáng)了XeSS內(nèi)核,從而提升了圖像處理和渲染效果,并且?guī)砀玫哪苄П?。在同等性能下功耗更低,在同等功耗下性能更高。相比Meteor Lake,Lunar Lake功耗降低了40%。
圖形性能和能效升級(jí)的同時(shí),Lunar Lake也帶來了全新的媒體和顯示引擎。
其中,媒體引擎在原有的AV1編解碼上增加了VVC解碼支持,而顯示引擎支持eDP 1.5、DP 2.1、HDMI 2.1接口標(biāo)準(zhǔn)。新的媒體與顯示引擎可以更好地支持自適應(yīng)分辨率流媒體和360°全景視頻。
VVC解碼也是新引擎的一大亮點(diǎn),雖然目前支持的比較少,但是VVC相對(duì)于AV1而言,保證相近質(zhì)量的同時(shí)文件體積減少了10%,這可以幫助視頻流媒體平臺(tái)進(jìn)一步縮減成本,是未來視頻解碼的一大主流方向。
·NPU 4架構(gòu)帶來4倍AI算力升級(jí)
Lunar Lake的NPU也迎來大幅升級(jí)。全新的NPU 4架構(gòu)增加了芯片規(guī)模、提高了時(shí)鐘頻率和能效,同時(shí)針對(duì)現(xiàn)代AI進(jìn)行了優(yōu)化,以更好地支持LLMs(大語言模型)和Transformer的高效運(yùn)行。
與Meteor Lake搭載的NPU 3相比,NPU 4的峰值性能高出4倍。
NPU 4被英特爾定義為AI PC最大的集成和專用AI加速器,它集成了12個(gè)增強(qiáng)版SHAVE DSP(Streaming Hybrid Architecture Vector Engine Digital Signal Processors),J加速LLMs和Transformer的加速,并且支持原生激活功能和數(shù)據(jù)轉(zhuǎn)換。其帶寬是Meteor Lake的2倍,內(nèi)置6個(gè)神經(jīng)計(jì)算引擎,MAC(Multiply-Accumulate)陣列能效優(yōu)化,從而使得AI算力從Meteor Lake的11.5TOPS激增至48TOPS,峰值性能高出4倍,能耗更低、性能更強(qiáng)。
·出色的平臺(tái)級(jí)連接性
計(jì)算模塊之外,Lunar Lake的平臺(tái)控制模塊提供了出色的連接性。
Lunar Lake原生支持藍(lán)牙5.4、Wi-Fi 7(5Gig)、Thunderbolt 4。PCIe 4.0和PCIe 5.0通道數(shù)量進(jìn)一步提升,新增支持Thunderbolt Share技術(shù)【具體參看:雷電接口史詩級(jí)強(qiáng)化!一根線完成2臺(tái)電腦協(xié)同應(yīng)用】,因此Lunar Lake在連接性方面有著天花板級(jí)別的生態(tài)支持。
·結(jié)語
總體來說,Lunar Lake相比Meteor Lake而言,在CPU、GPU、NPU計(jì)算性能與能效比方面都有著極其顯著的提升。其SoC能耗降低40%,片上封裝內(nèi)存之后使得數(shù)據(jù)遷移的能耗降低40%。
同時(shí),Lunar Lake架構(gòu)設(shè)計(jì)邏輯相較Meteor Lake變化極大,從原先的4大模塊整合成計(jì)算與平臺(tái)控制兩大模塊,CPU、GPU、NPU均采用了全新的微架構(gòu)設(shè)計(jì),IPC性能、AI計(jì)算性能、圖形性能、能效比、內(nèi)存性能得到全方位提升。
目前,包括微星、華碩、宏碁在內(nèi)的多家OEM以及發(fā)布基于Lunar Lake的筆記本新品,但是具體上市時(shí)間并未公布,同時(shí)英特爾也沒有給出Lunar Lake家族的具體型號(hào)構(gòu)成。預(yù)計(jì)新產(chǎn)品和新平臺(tái)正式上市時(shí)間會(huì)在2024年第三季度,其性能體驗(yàn)如何?讓我們拭目以待!