玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁(yè) > 新聞 > 行業(yè)

阿里云 PAI推出中文稀疏GPT大模型,登頂 ZeroCLUE榜單

來(lái)源:網(wǎng)絡(luò) 編輯:薛崗 時(shí)間:2022-09-02 14:47人閱讀

作者:同潤(rùn)、臨在

日前,中文語(yǔ)言理解權(quán)威評(píng)測(cè)基準(zhǔn)CLUE公布了零樣本學(xué)習(xí)ZeroCLUE的最新結(jié)果,阿里云位于該榜單榜首。此次刷榜的模型是阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)推出的160億參數(shù)的稀疏模型 GPT-MoE,這也是業(yè)界首個(gè)中文稀疏GPT大模型在該榜單登頂。

阿里云 PAI推出中文稀疏GPT大模型,登頂 ZeroCLUE榜單(圖1)

在繼去年的Transformer Encoder大模型取得中文小樣本學(xué)習(xí)、英文預(yù)訓(xùn)練模型知識(shí)量度量冠軍后,今年阿里云將大模型技術(shù)能力又向前推進(jìn)了一步?;贛oE稀疏結(jié)構(gòu),僅用一臺(tái)A100就把160億參數(shù)量級(jí)的多任務(wù)通用GPT模型訓(xùn)練成熟。這是通往低成本且高性能多任務(wù)通用自然語(yǔ)言理解的重要里程碑。

中文GPT大模型落地主要面臨來(lái)自兩方面的挑戰(zhàn):一方面是中文語(yǔ)言建模的困難,中文可以利用復(fù)雜多變的自由組合表達(dá)多重含義,這使得中文語(yǔ)言模型比英文在表達(dá)效率上難度加倍;另一方面隨著模型參數(shù)量的不斷增加,需要投入的硬件成本越來(lái)越高,訓(xùn)練成熟時(shí)間越來(lái)越長(zhǎng)。

以O(shè)penAI推出的1750億的GPT-3為例,在1024張A100GPU上預(yù)估需要34天;因此,能否消耗更少的計(jì)算資源以高性價(jià)比的方式完成訓(xùn)練和推理是大模型落地亟待解決的難題。

GPT-MoE 模型采用稀疏模型的結(jié)構(gòu)設(shè)計(jì),有效緩解了上面提到的兩個(gè)困難。在刷榜的過(guò)程中,從工程到算法沉淀出4點(diǎn)自研核心技術(shù),有強(qiáng)化型稀疏均衡器,領(lǐng)域話術(shù)再適應(yīng)驅(qū)動(dòng)的中文提示語(yǔ)零樣本學(xué)習(xí),中文復(fù)雜任務(wù)定向優(yōu)化,以及阿里云自主研發(fā)的transformer訓(xùn)練加速工具Rapidformer,實(shí)現(xiàn)了單機(jī)A100即可訓(xùn)練160億參數(shù)大模型。

目前,GPT-MoE 模型已在阿里云機(jī)器學(xué)習(xí)PAI EasyNLP項(xiàng)目中開(kāi)源,和開(kāi)發(fā)者共享中文百億稀疏GPT大模型技術(shù)。

開(kāi)源項(xiàng)目地址:https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer



本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 大模型 阿里 阿里云 ChatGPT

相關(guān)文章