玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁 > 新聞 > 其他

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

來源:快科技 編輯:非小米 時間:2024-08-09 01:20人閱讀

之前趁著參加AMD Zen5技術(shù)日活動,我們和大家分享過Zen5的架構(gòu)設(shè)計特性,但和以往不同,當(dāng)時公布的資料并不多,并未涉及到架構(gòu)底層細節(jié),也缺乏和Zen4的全面對比。

最近,AMD更新了Zen5架構(gòu)技術(shù)文檔,終于公布了我們想要的大量細節(jié),包括各個微架構(gòu)模塊的具體變化,包括桌面端、移動端的異同,包括Zen5、Zen5c的新理念,包括同樣升級的RDNA 3.5 GPU、XDNA 2 NPU。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

任何工作都要有目標,CPU架構(gòu)設(shè)計當(dāng)然也是如此。

Zen5的目標就很簡單,核心就是繼續(xù)大幅提升單核、雙核性能,為未來奠定新的基礎(chǔ),同時實現(xiàn)滿血版AVX-512,支持可配置的256/512位浮點數(shù)據(jù)路徑,有助于大大提升AI能力。

令人唏噓的是,Intel 12代酷睿開始采用異構(gòu)混合架構(gòu),其中E核不支持AVX-512,導(dǎo)致整體不得不放棄。

Zen5還有一個重要使命就是進一步普及緊湊版核心,也就是Zen5c,包括移動端和服務(wù)器端。

上一代其實就有了Zen4、Zen4c,并在數(shù)據(jù)中心端大放異彩,而在移動端只是非常低調(diào)地小試牛刀,這次要大面積普及。

不過AMD明確表示,Zen5c這種設(shè)計在桌面端不會使用,原因后邊再講。

另外,更靈活、更高的能效,4/3nm工藝支持,ISA指令集增強,也是Zen5的主要任務(wù)。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

Zen5微架構(gòu)總覽,從前端到后端,從整數(shù)到浮點,從緩存到帶寬,都進行了全面升級,后邊會一一講述。

緩存部分是大家經(jīng)常見到也比較容易理解的。

Zen5的一級指令緩存容量還是32KB,8路關(guān)聯(lián),每時鐘周期兩組32B拾?。?/p>

一級數(shù)據(jù)緩存容量增至48KB,12路關(guān)聯(lián),每時鐘周期4個內(nèi)存操作。

還有個特殊的操作緩存(Op-Cache),支持6個指令,每時鐘周期支持兩組6個寬度的拾取。

二級緩存容量還是1MB,16路關(guān)聯(lián)。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

分支預(yù)測與拾取部分做了極大的優(yōu)化提升,比如支持“零泡沫”(zero-bubble)條件分支,意味著分支預(yù)測器在訪問BTB(分支目標緩沖)時無需付出任何代價。

L1、L2 BTB也提升了容量(1.5K/7K來到16K/8K)和精度,并增大了TAGE,這對有條件的間接分支都很關(guān)鍵。

另外,每時鐘周期拾取和解碼指令數(shù)從32B翻番到64B,返回尋址堆棧從32個變?yōu)?2個,每時鐘周期支持最多3個預(yù)測窗口,指令緩存的延遲和帶寬也都有所改善。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

新的指令解碼系統(tǒng),配備了雙解碼流水線,可以獨立并行處理指令流,每條每時鐘周期4條指令。

操作緩存(OpCache)關(guān)聯(lián)路數(shù)增加1/3達到了16路,可存儲最多6條指令,配合雙流水線,每時鐘周期就是12條指令。

在開啟SMT多線程的時候,每個線程都是一條流水線。

另外還很關(guān)鍵的是,通往整數(shù)和浮點單元的分派隊列寬度從6個增至8個宏操作(macro-op),并支持操作融合,可以讓來自某些指令的兩個宏操作作為一個來處理。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

整數(shù)單元本就是Zen架構(gòu)的強項,現(xiàn)在更加“膨脹”,分派、重命名、引退達到了8個寬度。

ALU整數(shù)邏輯單元從4個增至6個,包括3個乘法單元和3個分支單元,ALU調(diào)度器也從24個大幅增至88個。

AGU地址生成單元從3個增至4個,每時鐘周期可執(zhí)行4次內(nèi)存尋址,AGU調(diào)度器從48個獨立、24個與ALU共享變?yōu)楠毩⒌?6個。

可以說,整數(shù)單元的大大強化,是銳龍9000系列在加速頻率微增或不動、基準頻率降低情況下取得性能大幅提升的關(guān)鍵所在。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

矢量和浮點能力也顯著增強,尤其是AVX-512指令集終于可以支持完整的512位數(shù)據(jù)路徑,同時保留256位,非常靈活,可以兼顧高性能、高效率,也不至于讓功耗失控。

整個浮點執(zhí)行單元的帶寬和延遲都做了升級,包括4條浮點執(zhí)行流水線(Zen4 3條)、3×38個浮點調(diào)度器(Zen4 2×32個)、2條載入存儲與整數(shù)寄存器流水線、每時鐘周期2個512位載入和1個512位存儲、雙循環(huán)FADD,等等。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

一二級緩存部分的數(shù)據(jù)帶寬全面擴充,尤其是一級數(shù)據(jù)緩存來到了12路48KB,4條載入/存儲流水線每時鐘周期可以執(zhí)行4個載入(Zen4還是3個)和2個存儲,4條整數(shù)載入流水線可以合并為2條。

外還全面涉及TLB、實時窗口、數(shù)據(jù)預(yù)取等等部分。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

指令新增加的不算很多,AVX-512仍是重點,包括拓展至VEX編碼的VNNI/VEX、矢量配對為一對掩碼寄存器的VP2INTERSECT[DQ]。

另外就是PMC虛擬化,可為客戶機提供更好的安全保障,以及異構(gòu)拓撲,顯然是為Zen5、Zen5c的組合準備的。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

Zen5、Zen4技術(shù)規(guī)格細節(jié)對比,也是對上邊所講的一個概括。

注意所有列出的參數(shù)都變了,從前端到執(zhí)行單元到緩存,因此可以說Zen5是一次全面性的架構(gòu)翻新,即所謂的“大改”,這才有了頻率下來了但性能上去了的神奇結(jié)果。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

Zen5、Zen5c二者架構(gòu)設(shè)計、IPC性能、ISA指令集都是完全相同的,也都支持多線程,對于操作系統(tǒng)和應(yīng)用軟件而言是透明和等價的,基本上不需要特別考慮調(diào)度問題,這和Intel的異構(gòu)大小核天然不同。

Zen5的追求是盡可能高的單核頻率與單核性能,還有足夠大的三級緩存。

Zen5c則降低了頻率,提高了能效,同時精簡了部分三級緩存。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

Zen5 CCX模塊的核心與緩存體系結(jié)構(gòu)圖。

一級指令緩存基本沒變,還是32KB容量,8路關(guān)聯(lián)。

一級數(shù)據(jù)緩存容量增大一半來到48KB,12路關(guān)聯(lián)也增多了一半,并且?guī)挿?/strong>,與CPU核心之間每時鐘周期支持4個載入與2個存儲。

二級緩存容量還是每核心1MB,但是關(guān)聯(lián)路數(shù)翻了一番達到16路,帶寬也翻了一番,與一級緩存之間是每時鐘周期翻番到64B,與三級緩存之間是每時鐘周期32B,雙向都是如此。

三級緩存每CCX 16MB,16路關(guān)聯(lián),但是降低了延遲,提高了命中率。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

Zen5架構(gòu)在桌面臺式機、移動筆記本、服務(wù)器數(shù)據(jù)中心三大領(lǐng)域采取了不同的產(chǎn)品設(shè)計和試實現(xiàn)方式,都非常有針對性。

桌面上,經(jīng)典chiplet設(shè)計,一個或兩個CCD(等同于CCX),外加完全延續(xù)上代設(shè)計的IOD,架構(gòu)上是純粹的Zen5,不會用Zen5c。

筆記本上,繼續(xù)單芯片,雙CCX組合成一個CCD。全部是Zen5、Zen5c的組合,最多分別4個、8個。

服務(wù)器上(包括嵌入式),設(shè)計更加靈活,CCX有的更大有的更小,Zen5、Zen5c都會有,但應(yīng)該會和Zen4、Zen4c一樣發(fā)展各自的產(chǎn)品線,不會混合使用。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

代號Granite Ridge的桌面版銳龍9000系列的裸片、核心布局圖。

和之前基本一致,每一組CCX/CCD里有8個核心、8MB二級緩存、32MB三級緩存,但注意兩種CCX/CCD是不互通的,所以哪怕12/16核心型號有64MB三級緩存,但每個核心最多也只能訪問自己所在CCX/CCD里的32MB。

當(dāng)然理論上可以通過IF總線跨越訪問,但是帶寬太低、延遲太高,沒法用。

IOD部分和銳龍7000系列上是一樣的,因此同樣有2個RDNA2架構(gòu)的GPU CPU單元、128位雙通道DDR5-5600內(nèi)存控制器、28條PCIe 5.0總線、5個USB接口、四組顯示輸出。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

代號Strix Point的移動版銳龍AI 300系列的裸片、核心布局圖。

變化還是挺大的,上一代Zen4、Zen4c組合只在兩款低端型號上低調(diào)嘗試,這次變成了標準的Zen5、Zen5c組合。

注意看左上角,分了兩個黃色框圖,4個Zen5核心和對應(yīng)的16MB三級緩存是一組,8個Zen5c核心和對應(yīng)的8MB是另一組,也就是和桌面上類似甚至更極端,Zen5、Zen5c三級緩存各用各的,沒法互通,24MB也只是個總?cè)萘俊?/strong>

GPU部分是RDNA3.5架構(gòu),8組WGP也就是16個CU,1024個流處理器。NPU部分是48陣列的XDNA 2架構(gòu)。這倆大家都很熟悉了。

IO部分,支持128位LPDDR5X-7500/DDR5-5600內(nèi)存、16條PCIe 4.0、8個USB接口,包括兩個USB4。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

RDNA 3.5架構(gòu)的GPU在紋理子系統(tǒng)、著色器子系統(tǒng)、光柵子系統(tǒng)、顯存/內(nèi)存子系統(tǒng)等各個方面做了優(yōu)化和增強,采樣率等部分指標性能翻番,可以和LPDDR5X內(nèi)存更好地搭配,壓縮率也更高。

當(dāng)然規(guī)模也增大了,12個CU變16個CU,4個渲染后端(RB+),最高頻率提升至2.9GHz,理論性能提升了大約30%,只是由于驅(qū)動還不到位,目前在游戲性能上還沒釋放出來。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

XDNA2架構(gòu)的NPU AI引擎,號稱第一個為“Win24”做好準備的x86處理器NPU,不過現(xiàn)在能用到NPU的應(yīng)用還是太少了,無論AMD還是Intel。

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

總的來說,Zen5作為一次大規(guī)模的架構(gòu)升級,從目前表現(xiàn)來看是相當(dāng)成功的,無論筆記本上的銳龍AI 300系列,還是桌面上的銳龍9000系列,性能、能效都提升巨大、可圈可點,服務(wù)器上的第五代EPYC同樣值得期待。

Intel方面即將拿出對位的Arrow Lake,錯失一代之后終于回歸高性能之爭,又一場好戲開始了!

AMD Zen5架構(gòu)深入解讀:頻率降低、性能卻飛升的秘密找到了!

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標簽: AMD Zen 5

相關(guān)文章