回顧NVIDIA GTC 2024：Blackwell算力核彈問世

來源：太平洋科技編輯：非小米時(shí)間：2024-03-21 23:48人閱讀

AI，這個(gè)在2023年猶如井泉噴涌進(jìn)我們?nèi)粘Ｉ畹脑~語，現(xiàn)如今正以驚人的速度重塑著我們的生活方式，同時(shí)間改變著整個(gè)世界的面貌。從大語言LLMs模型到先進(jìn)的AI圖像生成，從智能算法推薦到驚人的AI視頻生成，人工智能的觸角已經(jīng)伸展到了科技的各個(gè)角落。

從GPT-4發(fā)布，到谷歌Bard的入場(chǎng)、Meta開源模型LLama的問世，再到國內(nèi)文心一言、星火大模型、通義千問、月之暗面等諸多國產(chǎn)模型的紛紛亮相。我們目睹了全球人工智能領(lǐng)域的快速發(fā)展和技術(shù)突破。

如今AI的競(jìng)爭依然處于百花齊放百家爭鳴的階段，每一家都在使用自身優(yōu)勢(shì)在AI浪潮中分得一杯羹。從北美的硅谷到歐洲的科技集群，從亞洲的研發(fā)中心到其他地區(qū)的創(chuàng)新孵化器，AI正在成為跨國界、跨文化的合作與競(jìng)爭的焦點(diǎn)。

若將人工智能比作科技高峰上的璀璨之花，那么NVIDIA無疑是這些花朵賴以綻放的肥沃土壤。正是NVIDIA提供的先進(jìn)計(jì)算平臺(tái)，成為滋養(yǎng)人工智能之林的關(guān)鍵養(yǎng)分，讓這些技術(shù)之花競(jìng)相開放，展現(xiàn)出驚世之美。

2024 NVIDIA GTC主題演講見證 AI 的變革時(shí)刻

每年春季，NVIDIA的GTC主題演講就如約而至。自2019年以“GPU Computing: The Future of Computing”揭開序幕，AI便成了GTC年會(huì)的重頭戲。NVIDIA始終致力于將旗下產(chǎn)品的強(qiáng)大算力與AI技術(shù)的前沿需求無縫對(duì)接。正是老黃遠(yuǎn)見卓識(shí)的策略布局，使NVIDIA在AI的黃金時(shí)代巍然屹立，穩(wěn)占行業(yè)霸主之位。

2023年，老黃在演講中詳細(xì)闡述了NVIDIA在人工智能、數(shù)據(jù)中心、云計(jì)算等關(guān)鍵領(lǐng)域取得的最新成果。

重點(diǎn)介紹了NVIDIA Hopper GPU架構(gòu)，它使AI性能相比前一代產(chǎn)品實(shí)現(xiàn)了翻倍的飛躍。同時(shí)，NVIDIA DGX Cloud為企業(yè)級(jí)用戶帶來了前所未有的強(qiáng)大算力支持。

而NVIDIA Omniverse平臺(tái)則將AI技術(shù)的應(yīng)用拓展到了設(shè)計(jì)和建筑行業(yè)。老黃在演講中富有預(yù)見性地指出：我們現(xiàn)在正處在人工智能的‘iPhone時(shí)代’。

那么在今天的GTC大會(huì)上，老黃，這位“人類AI教父”又給我們帶來了什么新鮮事呢？

Blackwell 2080億晶體管的算力猛獸

當(dāng)下，世界范圍內(nèi)使用最多的AI應(yīng)用-LLMs，如Google的Gemini、Meta的NLLB、Maxtral的Mistral以及OpenAI的GPT-4等模型，均采用了“專家混合”（Mixtures of Experts，MoEs）技術(shù)。這些模型功能的強(qiáng)大，對(duì)芯片硬件提出了更高的要求。2023年，NVIDIA 憑借其Hopper架構(gòu)，成功地迎接了這些挑戰(zhàn)。

在今年的GTC上，老黃再一次地刷新了世界AI商用算力的排行榜，發(fā)布了Blackwell 架構(gòu)和同名AI處理器B100、B200和GB200，產(chǎn)品取名自杰出數(shù)學(xué)家和統(tǒng)計(jì)學(xué)家 David H. Blackwell，體現(xiàn)了其在概率計(jì)算、博弈論、統(tǒng)計(jì)學(xué)和動(dòng)態(tài)規(guī)劃等多個(gè)領(lǐng)域的杰出貢獻(xiàn)。

此次發(fā)布的 Blackwell GPU B100使用了兩個(gè)臺(tái)積電4NP工藝制造的芯片，芯片面積為814平方毫米，這個(gè)數(shù)據(jù)已經(jīng)接近了EUV光刻技術(shù)的理論極限值（858平方毫米），兩個(gè)芯片通過C2C-Interface進(jìn)行相連，組成一個(gè)“1600平方毫米”的超大處理單元。

單個(gè)GPU芯片含1040億晶體管，整體達(dá)到2080億個(gè)，比上一代的Hopper架構(gòu)增加了240億個(gè)。每個(gè)GPU連接了四個(gè)各有24GB的HBM3E存儲(chǔ)芯片，使得B100 AI處理器擁有192GB的高速存儲(chǔ)，并且存儲(chǔ)帶寬達(dá)到了8TB/s。

B100/B200/H100/AMDMI300X AI處理器重點(diǎn)參數(shù)對(duì)比圖片源自于網(wǎng)絡(luò)

在計(jì)算性能方面，NVIDIA 目前主要公布了 Blackwell 架構(gòu)中 Tensor Cores 的性能數(shù)據(jù)。對(duì)比 NVIDIA Hopper架構(gòu)的數(shù)據(jù)顯示，對(duì)于低精度計(jì)算，Blackwell GPU 的性能是前代的2.5倍。

而針對(duì) FP64 計(jì)算，性能從 67 TFLOPS 降低至 30 TFLOPS。對(duì)此，NVIDIA并沒有進(jìn)行解釋，許多博主也對(duì)FP64精度計(jì)算性能的下降表示了疑惑。

在日常的計(jì)算任務(wù)中，F(xiàn)P32（單精度浮點(diǎn)數(shù)）和FP64是最為普遍的數(shù)據(jù)格式，它們使用32位和64位分別對(duì)浮點(diǎn)數(shù)進(jìn)行編碼，既能提供較大的數(shù)值范圍也保障了較高的數(shù)值精度，但相對(duì)地，也對(duì)內(nèi)存和計(jì)算資源的需求更高。

與之相對(duì)，F(xiàn)P16（半精度浮點(diǎn)數(shù)）和FP4提供的算力精度較低，特別是FP4，其低精度下的性能并不理想，即使在大型語言模型（LLMs）中開啟FP4精度運(yùn)行也是如此。

尚不明確NVIDIA此次為何將主要升級(jí)焦點(diǎn)放在FP4運(yùn)算上。隨著針對(duì)移動(dòng)端LLMs需求的增長，對(duì)FP4運(yùn)算的依賴可能有所增加，這或許促使NVIDIA優(yōu)化了對(duì)FP4的支持，以提升這些應(yīng)用的運(yùn)算效率。

功耗方面，NVIDIA 宣布 Blackwell 系列的TDP范圍在 700 至 1200 W之間。其中，風(fēng)冷版本的 B100 和 B200 的 TDP 分別為 700W和 1000 W，而 1200 W版本的則需使用上水冷散熱。此外，Blackwell GPU 還配備了支持 6.0 標(biāo)準(zhǔn)的 PCI-Express 控制器。

然后也放一下B100和B200的對(duì)比圖，B200在運(yùn)算性能與顯存上對(duì)比B100有了不小的提升，相當(dāng)于B100的“官方灰燼版”。同時(shí)NVIDIA還推出了GB200。

GB200就是將2個(gè)B200芯片和1個(gè)GraceCPU整合到一起，“合體之后”的性能表現(xiàn)將是單片H100的30倍左右的提升。當(dāng)然GB200是應(yīng)該是不會(huì)單獨(dú)售賣的，如同去年推出的HGX 100 72X一樣，GB200主要還是通過整合，然后形成一個(gè)GB200 NVL72的計(jì)算中心進(jìn)行出售。

回顧最近發(fā)布的Blackwell GPU，我認(rèn)為其最大亮點(diǎn)并非在于算力的顯著提升，而是它所搭載的192GB HBM 3E高帶寬存儲(chǔ)。面對(duì)如今日益增長的模型尺寸——例如，埃隆·馬斯克最近宣布開源的Grok-1模型，它至少需要800GB的顯存才能運(yùn)行。

若使用H100 GPU（配備80GB顯存），運(yùn)行該模型需要整整10張卡，而采用B100 GPU（如果每張配備192GB顯存），僅需4張便可滿足需求。這對(duì)于運(yùn)維商而言，無疑是一種成本效率極高的解決方案。

這也是未來AI處理器發(fā)展的一個(gè)趨勢(shì)，為了更好地AMD 的 Instinct MI300 系列產(chǎn)品形成壓制。NVIDIA 還計(jì)劃在今年下半年為 H100 系列加速器增加新的 H200 或 GH200 代，這將提供更高的 141 GB HBM3E 存儲(chǔ)以及 4.8 TB/s 的存儲(chǔ)帶寬，也就是官方的顯存提升版本。

Omniverse 再升級(jí)，Vision Pro應(yīng)用新場(chǎng)景？

NVIDIA在本次的GTC 2024中進(jìn)一步升級(jí)了其Omniverse平臺(tái)，并將其企業(yè)技術(shù)擴(kuò)展到了蘋果生態(tài)系統(tǒng)。這一策略在于借助Vision Pro應(yīng)用，使開發(fā)者得以在增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)（AR/VR）環(huán)境中利用Omniverse的強(qiáng)大工具。

在GTC大會(huì)上上，NVIDIA展示了設(shè)計(jì)師如何利用Vision Pro中的汽車配置工具操作車輛模型，并能夠以虛擬的方式“進(jìn)入”車輛內(nèi)部進(jìn)行查看。這種交互是通過Omniverse Cloud API實(shí)現(xiàn)的，此外，圖形內(nèi)容還可以通過云計(jì)算服務(wù)直接流式傳輸至Vision Pro，實(shí)現(xiàn)高效的圖形傳輸網(wǎng)絡(luò)服務(wù)。

這一升級(jí)意味著，Omniverse和Vision Pro的結(jié)合將為AR/VR領(lǐng)域帶來更加沉浸式和互動(dòng)性強(qiáng)的體驗(yàn)。用戶能夠在三維空間中以更加自然和直觀的方式進(jìn)行設(shè)計(jì)、模擬和創(chuàng)作，這對(duì)于產(chǎn)品設(shè)計(jì)、建筑可視化以及互動(dòng)娛樂等多個(gè)應(yīng)用場(chǎng)景都將是一次質(zhì)的飛躍。

機(jī)器人的ChatGPT時(shí)代可能即將來臨

正當(dāng)我們以為今天的大會(huì)只會(huì)聚焦于算力話題時(shí)，老黃卻給我們帶來了意想不到的驚喜——備受矚目的年度機(jī)器人環(huán)節(jié)如約而至，NVIDIA宣布了其人形機(jī)器人項(xiàng)目GR00T。

在今日的主題演講中，黃仁勛展示了多款由GR00T平臺(tái)驅(qū)動(dòng)的人形機(jī)器人如何高效完成多項(xiàng)任務(wù)，這些機(jī)器人分別來自 Agility Robotics、Apptronik、傅利葉智能以及宇樹科技。

GR00T的誕生源自NVIDIA的Isaac機(jī)器人平臺(tái)工具，它基于全新的通用基礎(chǔ)模型設(shè)計(jì)，使得GR00T驅(qū)動(dòng)的人形機(jī)器人能夠接收并處理文本、語音、視頻乃至現(xiàn)場(chǎng)示范的輸入信息，從而執(zhí)行精確的操作。這些操作包括理解自然語言、模仿人類行為、在現(xiàn)實(shí)世界中的導(dǎo)航和互動(dòng)等?？梢哉f，AI已經(jīng)變成了機(jī)器人的“靈魂”。

NVIDIA還開發(fā)了一款新型的“機(jī)器人大腦”計(jì)算芯片——Jetson Thor，該芯片能夠執(zhí)行復(fù)雜的任務(wù)，并借助Transformer引擎處理多元的傳感器數(shù)據(jù)。

未來，NVIDIA將人形機(jī)器人定位為公司的一個(gè)關(guān)鍵戰(zhàn)略方向。正如黃仁勛所預(yù)示的，機(jī)器人界的ChatGPT時(shí)代可能即將來臨。

在過去，NVIDIA給人更多的印象就是一個(gè)游戲顯卡的制造商，很少有人能夠想到在不到20年的時(shí)間里，NVIDIA通過CUDA能夠讓GPU從一個(gè)“游戲硬件”概念變成一個(gè)改變世界的“數(shù)字石油”。

未來，隨著技術(shù)的不斷進(jìn)步，NVIDIA的GPU很可能繼續(xù)拓展其影響力。隨著量子計(jì)算、邊緣計(jì)算和物聯(lián)網(wǎng)的發(fā)展，NVIDIA的技術(shù)有望在新的領(lǐng)域中發(fā)揮關(guān)鍵作用，進(jìn)一步加速世界的數(shù)字化轉(zhuǎn)型。