玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁 > 新聞 > 其他

馬斯克Colossus AI超算集群內(nèi)部首曝:足足10萬英偉達(dá)H100 GPU

來源:芯智訊   編輯:非小米 時(shí)間:2024-10-30 17:00人閱讀

10月29日消息,YouTube視頻博主 ServeTheHome 首次曝光了埃隆·馬斯克 (Elon Musk)旗下人工智能企業(yè)xAI的Colossus  AI 超級計(jì)算機(jī)集群,其集成了100000個(gè)英偉達(dá)(NVIDIA)H100 GPU,號稱是目前全球最強(qiáng)大的AI超級計(jì)算機(jī)集群。

馬斯克Colossus AI超算集群內(nèi)部首曝:足足10萬英偉達(dá)H100 GPU

早在今年7月下旬,馬斯克就在“X”平臺上宣布,自己已經(jīng)啟動了“世界上最強(qiáng)大的 AI 集群”。這座AI集群從開始建設(shè)到完成組裝僅花了122天就完成了,目前已經(jīng)上線運(yùn)行了約3個(gè)月。

根據(jù)ServeTheHome曝光的信息來看,龐大的Colossus  AI超級計(jì)算機(jī)集群采用的是超威電腦(Supermicro)的服務(wù)器,其基于NVIDIA HGX H100方案,每個(gè)服務(wù)器中擁有8個(gè)H100 GPU,封裝在 Supermicro 的 4U 通用 GPU 液冷系統(tǒng)內(nèi),為每個(gè) GPU 提供簡單的熱插拔液冷。

這些服務(wù)器裝載在機(jī)架內(nèi),每個(gè)機(jī)架可容納 8 臺服務(wù)器,也就是說每個(gè)機(jī)架內(nèi)有 64 個(gè) GPU。1U 歧管夾在每個(gè) HGX H100 之間,提供服務(wù)器所需的液體冷卻。每個(gè)機(jī)架的底部是另一個(gè) Supermicro 4U 單元,這次配備了冗余泵系統(tǒng)和機(jī)架監(jiān)控系統(tǒng)。

馬斯克Colossus AI超算集群內(nèi)部首曝:足足10萬英偉達(dá)H100 GPU
△四組 xAI 的 HGX H100 服務(wù)器機(jī)架,每組可容納八臺服務(wù)器。(圖片來源:ServeTheHome)

馬斯克Colossus AI超算集群內(nèi)部首曝:足足10萬英偉達(dá)H100 GPU
△xAI Colossus GPU 服務(wù)器的后部訪問。每臺服務(wù)器有 9 根以太網(wǎng)電纜,每臺服務(wù)器有 4 個(gè)電源。電源和液體冷卻軟管也可見。(圖片來源:ServeTheHome)

這些機(jī)架以 8 個(gè)為一組配對,每個(gè)陣列有 512 個(gè) GPU。每臺服務(wù)器都有四個(gè)冗余電源,GPU 機(jī)架的后部露出三相電源、以太網(wǎng)交換機(jī)和一個(gè)提供所有液體冷卻的機(jī)架大小的歧管。

Colossus 集群中有超過 1500 個(gè) GPU 機(jī)架,或近 200 個(gè)機(jī)架陣列。據(jù)英偉達(dá)首席執(zhí)行官黃仁勛稱,這 200 個(gè)陣列的 GPU 僅用了三周時(shí)間就完成了安裝。

由于 AI 超級集群不斷訓(xùn)練模型的高帶寬要求,xAI 在其網(wǎng)絡(luò)互連性方面提供了超大的帶寬。

目前每個(gè)顯卡都有一個(gè) 400GbE 的專用 NIC(網(wǎng)絡(luò)接口控制器),每臺服務(wù)器還有一個(gè)額外的 400Gb NIC。這意味著每臺 HGX H100 服務(wù)器都有每秒 3.6 TB 的以太網(wǎng)速率。整個(gè)集群都在以太網(wǎng)上運(yùn)行,而不是 InfiniBand 或其他在超級計(jì)算領(lǐng)域標(biāo)配的連接。

馬斯克Colossus AI超算集群內(nèi)部首曝:足足10萬英偉達(dá)H100 GPU
△仰望一大片的黃色以太網(wǎng)電纜,將 xAI Colossus 集群連接在一起。多層過寬的電纜線路嵌入天花板中。(圖片來源:ServeTheHome)

馬斯克Colossus AI超算集群內(nèi)部首曝:足足10萬英偉達(dá)H100 GPU
△xAI 的 Colossus CPU 計(jì)算服務(wù)器,看起來與該站點(diǎn)中也廣泛使用的 Supermicro 存儲服務(wù)器完全相同。(圖片來源:ServeTheHome)

當(dāng)然,像 xAI 旗下Grok 3 聊天機(jī)器人這樣基于訓(xùn)練 AI 模型的超級計(jì)算機(jī)需要的不僅僅是 GPU 才能運(yùn)行。

Colossus集群當(dāng)中的存儲和 CPU 計(jì)算機(jī)服務(wù)器的詳細(xì)信息仍未曝光,不過這些服務(wù)器也大多采用 Supermicro 機(jī)箱。一波又一波的 NVMe 轉(zhuǎn)發(fā) 1U 服務(wù)器內(nèi)部帶有某種 x86 平臺 CPU,可容納存儲和 CPU 計(jì)算,還具有后入式液體冷卻功能。

另外,在該超級計(jì)算機(jī)集群的外面,還可以看到一些大量捆綁的特斯拉 Megapack 電池(每個(gè)最多可容納 3.9 MWh)。

該電池陣列的是為了應(yīng)對突發(fā)停電的臨時(shí)備用電源,其可以在毫秒之間快速提供供電,相比柴油發(fā)電機(jī)反應(yīng)要快得多,可以使得有足夠時(shí)間去啟動其他備用電源。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 馬斯克 超算中心

相關(guān)文章