玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁(yè) > 新聞 > 其他

加速?lài)?guó)產(chǎn)GPU開(kāi)發(fā)!摩爾線(xiàn)程開(kāi)源高性能計(jì)算庫(kù)MUTLASS

來(lái)源:快科技 編輯:非小米 時(shí)間:2024-11-12 19:50人閱讀

快科技11月12日消息,摩爾線(xiàn)程宣布,正式開(kāi)源高性能線(xiàn)性代數(shù)模板庫(kù)MUTLASS,以便開(kāi)發(fā)者能夠更高效地針對(duì)摩爾線(xiàn)程GPU MUSA Core、Tensor Core等單元進(jìn)行編程,加速基于國(guó)產(chǎn)GPU的算子開(kāi)發(fā)以及算法創(chuàng)新。

在此之前,摩爾線(xiàn)程已經(jīng)相繼開(kāi)源OpenCV-MUSA計(jì)算機(jī)視覺(jué)庫(kù)、MooER音頻理解大模型、vLLM-MUSA大語(yǔ)言模型高速推理框架。

▼ MUTLASS開(kāi)源地址:

https://github.com/MooreThreads/mutlass

在數(shù)值計(jì)算和深度學(xué)習(xí)領(lǐng)域,矩陣乘法(GEMM)及其變種,比如FlashAttention、Convolution,是構(gòu)建復(fù)雜上層應(yīng)用的基石。

不夠,為了追求更高的算子融合效率,或者更創(chuàng)新的算法,開(kāi)發(fā)者們往往需要超越標(biāo)準(zhǔn)化計(jì)算接口的限制,如標(biāo)準(zhǔn)BLAS接口以及芯片廠(chǎng)商的計(jì)算庫(kù)接口,以實(shí)現(xiàn)高性能的定制化算子。

MUTLASS(MUSA Templates for Linear Algebra Subroutines)正是為滿(mǎn)足這一需求而設(shè)計(jì)。

作為摩爾線(xiàn)程專(zhuān)為自研MUSA架構(gòu)優(yōu)化的高性能計(jì)算庫(kù),MUTLASS是基于開(kāi)源模板庫(kù)CUTLASS進(jìn)行的MUSA適配和定制化開(kāi)發(fā)、優(yōu)化。

針對(duì)矩陣乘法及相關(guān)變種,MUTLASS提供了一系列高性能的C++模板組件,并采用了與muDNN庫(kù)類(lèi)似的分層分解及數(shù)據(jù)搬運(yùn)策略,以確保性能的充分發(fā)揮。 

在本次開(kāi)源的版本中,摩爾線(xiàn)程適配了CuTe后端庫(kù),為其增加了第三代MUSA架構(gòu)的MMA計(jì)算原語(yǔ),支持TF32/FP16/BF16/INT8等多種數(shù)據(jù)精度,并以此為基礎(chǔ),初步實(shí)現(xiàn)了矩陣乘法、默認(rèn)實(shí)例庫(kù)、性能測(cè)試器及相關(guān)工具包的支持。

借助MUTLASS,開(kāi)發(fā)者們既可以靈活復(fù)用不同層級(jí)的模板組件,也可以按需修改各種模板組件的實(shí)現(xiàn)細(xì)節(jié),以較低的開(kāi)發(fā)成本實(shí)現(xiàn)定制化的高性能算子,從而在摩爾線(xiàn)程全功能GPU上充分釋放性能,并嘗試更多的算法創(chuàng)新。

摩爾線(xiàn)程將持續(xù)優(yōu)化MUTLASS的性能,并不斷引入新的功能。

加速?lài)?guó)產(chǎn)GPU開(kāi)發(fā)!摩爾線(xiàn)程開(kāi)源高性能計(jì)算庫(kù)MUTLASS

本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 顯卡 摩爾線(xiàn)程

相關(guān)文章