玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁 > 新聞 > 其他

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

來源:芯智訊   編輯:非小米 時間:2023-11-09 10:24人閱讀

11月9日消息,RISC-V服務(wù)器芯片設(shè)計廠商Ventana Micro Systems在2023 RISC-V峰會上發(fā)布了其第二代服務(wù)器CPU——Veyron V2,在指令擴(kuò)展、內(nèi)核設(shè)計、互聯(lián)標(biāo)準(zhǔn)、制程工藝等眾多方面進(jìn)行了全面升級。

官方宣稱其性能超越了AMD的高端服務(wù)器芯片Epyc 9754,堪稱最強(qiáng)RISC-V服務(wù)器CPU!同時,Ventana還能夠讓客戶將定制加速器添加到定制片上系統(tǒng) (SoC) 藍(lán)圖中。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

早在2022年12月,Ventana公司就曾發(fā)布了全球首款基于RISC-V架構(gòu)的服務(wù)器CPU——Veyron V1。

采用5nm制程工藝,基于Ventana自研的高性能RISC-V內(nèi)核,8流水線設(shè)計,支持亂序執(zhí)行,主頻超過3GHz,每個集群最多16個內(nèi)核,多集群最多可擴(kuò)展至192核,擁有48MB共享三級緩存,擁有高級側(cè)信道攻擊緩解措施、IOMMU和高級中斷架構(gòu)(AIA)、支持全面的RAS功能、自上而下的軟件性能調(diào)整方法,可以滿足數(shù)據(jù)中心的各種需求。號稱性能可超越AMD EPYC 7763!

根據(jù)Ventana的計劃,Veyron V1將于今年下半年上市,但是截至目前仍未有客戶選擇采用。這或許也是為什么Ventana急于推出Veyron V2的原因。

據(jù)Ventana 營銷和產(chǎn)品副總裁 Travis Lanier介紹,全新的Veyron V2將融入RISC-V規(guī)范中的所有更新,比如RVA23功能集,這是今年的RISC-V最新的指令集配置文件,實(shí)現(xiàn)了RISC-V輸入輸出內(nèi)存管理單元(IOMMU)規(guī)范,同時還支持小芯片的UCIe互聯(lián)標(biāo)準(zhǔn)。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

Lanier表示,IOMMU 規(guī)范的批準(zhǔn)“在 RISC-V 領(lǐng)域是一件大事”。“只要您擁有虛擬機(jī),并且想要直接訪問其中一個 PCIe 設(shè)備,您就不必執(zhí)行所有軟件開銷來切換它,因此這對于數(shù)據(jù)中心應(yīng)用程序來說是一項(xiàng)關(guān)鍵功能。”

Veyron V2也希望成為一種基于RISC-V標(biāo)準(zhǔn)的兼容性設(shè)計,因此 RISE 支持很重要。

“這也是RISC-V軟件生態(tài)計劃(RISE)兼容性的關(guān)鍵部分,這是一個行業(yè)項(xiàng)目,旨在圍繞RISC-V構(gòu)建必要的應(yīng)用生態(tài)系統(tǒng)。”Lanier進(jìn)一步解釋道。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

Ventana還利用RISC-V矢量擴(kuò)展規(guī)范在其核心中添加了512位矢量處理單元,還具有 AI 矩陣擴(kuò)展功能。Lanier聲稱這將“對某些生成式 AI 或推理工作負(fù)載有很大幫助”。

另外,對于DSA和Chiplet標(biāo)準(zhǔn)UCIe的支持,使得他可以更快地制造芯片,并且可以讓客戶添加 FPGA,添加 ASIC 加速器等。這增加了靈活性,但也降低了進(jìn)入門檻,因?yàn)樗试S使用使用 UCIe 和 I/O 集線器的較小 IP 塊來構(gòu)建軟件包。

Ventana聯(lián)合創(chuàng)始人兼首席執(zhí)行官Balaji Baktha在RISC-V峰會上也表示,Ventana客戶可以使用其知識產(chǎn)權(quán)和其他知識產(chǎn)權(quán)在Veyron V2 上創(chuàng)建的潛在CPU設(shè)計。

具體到Veyron V2的核心配置方面,基于臺積電4nm工藝,依然是基于8流水線設(shè)計,支持亂序執(zhí)行,主頻高達(dá)3.6GHz,單個集群的內(nèi)核數(shù)量提升到了32個,相比上一代提升了一倍,多集群最多可擴(kuò)展至192核。緩存的大小也增加到每個核心1MB二級緩存,以及128MB 的共享集群級三級緩存。

Lanier聲稱,Veyron V2 的所有新的升級使得其性能相比上一代提高了近40%。官方提供的性能預(yù)測數(shù)據(jù)顯示,192核的Veyron V2性能超越了AMD高端服務(wù)器芯片Epyc 9754!

下面對于Veyron V2幾大關(guān)鍵升級進(jìn)行詳細(xì)介紹:

互聯(lián)標(biāo)準(zhǔn)的轉(zhuǎn)變

Veyron V2 的一個重大轉(zhuǎn)變是將支持作為Chiplet(小芯片)連接標(biāo)準(zhǔn)的UCIe(Universal Chiplet Interconnect Express )標(biāo)準(zhǔn),而不是上一代的Veyron V1中的BoW(Bunch of Wires)接口互聯(lián)總線協(xié)議標(biāo)準(zhǔn)。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

據(jù)了解,BoW協(xié)議是一個開放的標(biāo)準(zhǔn),由開放計算項(xiàng)目中的開放域特定架構(gòu)小組控制。

包括Ampere Computing、阿里巴巴、AMD、Arm、思科系統(tǒng)、戴爾、Eliyan、富達(dá)投資、高盛、谷歌、惠普企業(yè)、IBM、英特爾、聯(lián)想、Meta Platforms、微軟、諾基亞、英偉達(dá)、Rackspace、希捷科技、Ventana和Wiwynn都支持BoW,這種廣泛而廉價的芯片到芯片互連協(xié)議,使跨工藝和供應(yīng)商混合小芯片的承諾成為現(xiàn)實(shí)。

但是在2022年3月,英特爾、AMD、Arm、高通、臺積電、三星、日月光、Google云、Meta(Facebook)、微軟等十大行業(yè)巨頭成立了Chiplet標(biāo)準(zhǔn)聯(lián)盟,正式推出了通用Chiplet的高速互聯(lián)標(biāo)準(zhǔn)“UCIe”,旨在定義一個開放的、可互操作的標(biāo)準(zhǔn),用于將多個硅芯片(或芯粒)通過先進(jìn)封裝的形式組合到一個封裝中。

UCIe 標(biāo)準(zhǔn)希望與其他連接標(biāo)準(zhǔn)(如 USB、PCIe 和 NVMe)一樣普遍,同時為Chiplet連接提供卓越的功率和性能指標(biāo),降低IP移植及產(chǎn)品SKU數(shù)量提升的成本,加速Chiplet設(shè)計的創(chuàng)新。

雖然HPE、IBM和Nvidia等大廠并沒出現(xiàn)在最初的創(chuàng)始名單當(dāng)中,但最終他們也加入了UCIe聯(lián)盟。

Balaji Baktha表示,其在與46家現(xiàn)有的和潛在的客戶討論Veyron V1和V2 CPU設(shè)計時,很明顯,UCIe是小芯片互連的發(fā)展方向。因此,Ventana公司加快了Veyron V2的發(fā)布,其中包括大量的RISC-V核心增強(qiáng),因?yàn)樗捎昧薝CI Express而不是BoW進(jìn)行小芯片互連。

以下是BoW、AIB 2.0和UCIe 1.1互連的比較,這是Lei Shan撰寫的一篇論文的補(bǔ)充。Lei Shan曾在IBM TJ Watson研究中心從事互連硬件工作,現(xiàn)在在Arm服務(wù)器芯片新創(chuàng)公司Ampere Computing工作:

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

正如您所看到的,UCIe的數(shù)據(jù)速率是BoW的兩倍,總線帶寬可以相同或高出4倍。信道覆蓋范圍是UCIe距離的一半,但鏈路的功率效率提高了兩倍,延遲不到BoW的一半,每毫米的帶寬也高出35%到65%。

Balaji Baktha表示:“如果芯片設(shè)計者想使用小芯片,他們必須支持UCIe”。

“UCIe背后有著巨大的推動力,因?yàn)槊總€人都想要一個統(tǒng)一的標(biāo)準(zhǔn)。BoW本可以成為這樣一個標(biāo)準(zhǔn)的。但我們不想繼續(xù)構(gòu)建它,因?yàn)閁CIe標(biāo)準(zhǔn)有效地解決了封裝成本,并且正在以最佳水平實(shí)現(xiàn)。UCIe還解決了3D內(nèi)存堆疊問題。

因此,利用UCIe很容易實(shí)現(xiàn)Express 2.0,并利用我們自己的專業(yè)知識彌合與UCIe 1.0之間的差距。例如,UCIe根本沒有提供到AMBA CHI一致接口總線的鏈接。因此,我們在UCIe 2.0上添加了AMBA功能。”

支持512位矢量擴(kuò)展

Ventana希望迅速抓住,并將其納入Veyron V2核心設(shè)計的另一個重大變化是RISC-V Vector 1.0 512位矢量擴(kuò)展。

該擴(kuò)展類似于英特爾至強(qiáng)Phi處理器從2015年開始提供的擴(kuò)展,以及2017年在“Skylake”至強(qiáng)SP處理器中提供的擴(kuò)展。

一年前,該擴(kuò)展也剛剛被添加到AMD Genoa Epyc處理器中。這些512位矢量引擎實(shí)際上并不是英特爾AVX-512的克?。ň拖馎MD Genoa芯片中的那些至少在軟件級別上),但它們足夠接近,不會給想要將代碼從X86移植到RISC-V的Linux開發(fā)人員帶來一場軟件噩夢。

此外,512位矢量擴(kuò)展將為HPC和AI工作負(fù)載提供與X86和Arm處理器有競爭力的性能,在這些工作負(fù)載中,CPU將進(jìn)行AI計算,而不是像GPU和其他加速器一樣在CPU上或CPU外部使用加速器。

Ventana為Veyron V2核心添加了512位矢量擴(kuò)展,使矢量引擎能夠支持矩陣運(yùn)算,并允許客戶將自己的矩陣引擎添加到架構(gòu)中,無論是在核心中還是在使用UCIe鏈路的離散小芯片中與之相鄰。

順便說一句,Veyron V1核心沒有任何向量引擎或矩陣引擎擴(kuò)展,這顯然是一個問題,因?yàn)樵S多人工智能推理仍在CPU上進(jìn)行,在某些情況下,人工智能訓(xùn)練和HPC模擬和建模也在CPU上完成。

全新的內(nèi)核架構(gòu)

Veyron V2設(shè)計的另一個重大變化是Ventana創(chuàng)建了一個顯著改進(jìn)的RISC-V內(nèi)核架構(gòu)。

通過在Veyron V2核心中更積極地融合指令處理并進(jìn)行許多其他調(diào)整,Ventana已經(jīng)能夠?qū)⒁粩堊庸ぷ髫?fù)載的每時鐘指令(IPC)性能提高20%。

與3GHz主頻的Veyron V1內(nèi)核相比,Veyron V2主頻也提高到了3.6 GHz,這將內(nèi)核的性能再提高了20%,從而在Ventana的Veyron RISC-V CPU內(nèi)核設(shè)計中,從V1內(nèi)核到V2內(nèi)核的整體性能提高了40%。

Veyron V2核心是基于臺積電4nm工藝設(shè)計的,相比上代基于臺積電5nm工藝的Veyron V1得到了進(jìn)一步提升。

Veyron V2內(nèi)核還支持RVA23體系結(jié)構(gòu)配置文件,該配置文件強(qiáng)制使用512位矢量擴(kuò)展。還有一些在矢量引擎上運(yùn)行的加密函數(shù)。

Ventana的Veyron V2內(nèi)核還支持RV64GC規(guī)范,并實(shí)現(xiàn)了一個超標(biāo)量、無序流水線,每個時鐘周期可以解碼和調(diào)度多達(dá)15條指令。由于其IOMMU設(shè)計和高級中斷體系結(jié)構(gòu)(AIA),Veyron V2核心可以支持類型1和類型2的服務(wù)器虛擬化管理程序以及嵌套虛擬化。

Veyron V2核心還具有用于調(diào)試、跟蹤和性能監(jiān)控的端口。

以上所有這些都是現(xiàn)代超大規(guī)模數(shù)據(jù)中心服務(wù)器CPU所應(yīng)有的能力。

V1和V2內(nèi)核都沒有同時的超線程,就像亞馬遜云和Ampere Computing的Arm內(nèi)核沒有,未來“Sierra Forest”Xeon SP處理器中使用的“Siera Glen”內(nèi)核也沒有。

另外,Veyron V2內(nèi)核具有512 KB的L1指令緩存和128 KB的L1數(shù)據(jù)緩存以及1 MB的L2數(shù)據(jù)緩存。這些內(nèi)核還有一個4MB的L3緩存,與之相關(guān)的是,在Veyron V2的小芯片復(fù)合體中的32個內(nèi)核中,總共擁有128MB的L3緩存。

每個小芯片上的核心使用專有的片上網(wǎng)狀網(wǎng)絡(luò)相互連接,該互連為CPU核心、內(nèi)存和其他I/O提供了高達(dá)5TB/秒的聚合帶寬。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

四個Veyron V2小芯片可以與UCIe互連,以創(chuàng)建一個128核的復(fù)合體,如果你真的想突破極限,你可以將最多六個小芯片連接在一起,獲得192核。

以下是基于Veyron V2內(nèi)核的CPU的概念圖,它有一個I/O管芯和六個32核Veyron V2小芯片,以及一些特定于領(lǐng)域的加速器鏈接:

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

上圖顯示了I/O集線器與PCI Express 5.0控制器和DDR5內(nèi)存控制器的鏈接,但如果Ventana公司愿意,可以換成HBM3內(nèi)存控制器。

默認(rèn)設(shè)計為六個Veyron V2小芯片上有十二個DDR5內(nèi)存控制,四個Veyron V2小片上有八個,這與我們目前在任何服務(wù)器CPU中看到的配置是一樣的。

性能超越AMD Epyc 9754

Ventana的Veyron V1發(fā)布之時,號稱性能超越AMD EPYC 7763。那么Veyron V2的性能又能有多強(qiáng)呢?

以下是Ventana如何模擬Veyron V2的整數(shù)性能,以及每個插槽的原始SPECint2017性能:

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

按照Ventana公布的數(shù)據(jù)來看,一個192核的Veyron V2 RISC-V CPU的整數(shù)吞吐量將比AMD“Bergamo” Epyc 9754處理器高23%,該處理器在相同的360瓦功率范圍內(nèi)有配備了128核和256線程;

同樣,Veyron V2也比96核的AMD“Genoa” Epyc 9654高了34%左右;與56核的Intel “Sapphire Rapids”Xeon SP 8480+相比,Veyron V2性能更是達(dá)到了其2.7倍。

這并不奇怪,因?yàn)閂eyron V2有3.4倍的內(nèi)核和1.7倍的線程,盡管Veyron V2內(nèi)核必須以較低的時鐘速度運(yùn)行;

另外一款基于Arm Neoverse V2的64核產(chǎn)品似乎的是亞馬遜云(AWS)Graviton3的替代品,擁有64核心,性能比Intel Sapphire Rapids Xeon SP 8480+芯略高,但是也僅為Veyron V2的一半不到。

支持DSA

Veyron V2還支持 DSA(面向某個特定的領(lǐng)域定制優(yōu)化的設(shè)計),該功能允許客戶向其 SoC 添加定制加速器芯片。

Lanier 表示,這是針對可能希望提高數(shù)據(jù)中心特定工作負(fù)載的超大規(guī)??蛻?,例如壓縮和加密、網(wǎng)絡(luò)中的 TCP 卸載處理或數(shù)據(jù)庫中的鍵/值處理。這些加速器小芯片由 Veyron V2內(nèi)核通過 Ventana 添加的自定義指令提供支持,這是整個 RISC-V 架構(gòu)的一大賣點(diǎn)。

在這種情況下,自定義指令使軟件能夠調(diào)用加速器,這可以看作是英特爾處理器使用指令調(diào)用浮點(diǎn)單元 (FPU) 的方式的回響,當(dāng)時其中一個是可選的單獨(dú)的浮點(diǎn)單元 (FPU)。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754
△Ventana 可編程 DSA

總結(jié)來說,Ventana 的目標(biāo)是讓其客戶設(shè)計使用這些 DSA 小芯片(無論是 FPGA 還是 ASIC)來提供更好的工作負(fù)載效率,而不僅僅是最大 SPECint 吞吐量。

安全性大幅提升

Veyron V2 的另一個特色是,支持全面的RAS,具有ECC能力、防數(shù)據(jù)中毒等。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

如今,數(shù)據(jù)中心處理器還需要具有安全啟動和身份驗(yàn)證能力。Veyron V2 設(shè)計也能夠更好地抵御側(cè)信道攻擊,例如Spectre 和 Meltdown缺陷,這些缺陷可能導(dǎo)致服務(wù)器內(nèi)存中的數(shù)據(jù)被竊取。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

不過,Lanier強(qiáng)調(diào),這并不意味著Veyron V2芯片不可能被此類攻擊,只是 V2 在設(shè)計時就了解了這些攻擊的執(zhí)行方式,可以在一定程度上進(jìn)行預(yù)防。“數(shù)據(jù)中心客戶為受影響的服務(wù)器運(yùn)行軟件補(bǔ)丁或緩解措施的成本通??赡軙档?10% 甚至 20% 的性能。”

2024年第三季度投入生產(chǎn)

Ventana還將提供基于Veyron V2的192 核 1U 服務(wù)器參考設(shè)計,有四個128核的小芯片和12通道的DDR5-5600內(nèi)存,小芯片上有UCI Express互連,還有一個I/O接口,可以將它們放在服務(wù)器CPU插槽內(nèi)。

4nm、192核!最強(qiáng)RISC-V服務(wù)器芯片發(fā)布:性能超越AMD Epyc 9754

據(jù)介紹,Veyron V2將于2024年第三季度投入生產(chǎn),屆時用于互連小芯片的UCIe 1.1 PHY有望上市。

編輯:芯智訊-浪客劍

資料來源:

https://www.theregister.com/2023/11/07/ventana_riscv_server/

https://www.servethehome.com/ventana-veyron-v2-risc-v-cpu-launched-for-the-dsa-future/

https://www.nextplatform.com/2023/11/07/ventana-launches-veyron-v2-risc-v-into-the-datacenter/

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: AMD 半導(dǎo)體

相關(guān)文章