玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

阿里云 PAI推出中文稀疏GPT大模型，登頂 ZeroCLUE榜單

來(lái)源：網(wǎng)絡(luò) 編輯：薛崗時(shí)間：2022-09-02 14:47人閱讀

作者：同潤(rùn)、臨在

日前，中文語(yǔ)言理解權(quán)威評(píng)測(cè)基準(zhǔn)CLUE公布了零樣本學(xué)習(xí)ZeroCLUE的最新結(jié)果，阿里云位于該榜單榜首。此次刷榜的模型是阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)推出的160億參數(shù)的稀疏模型 GPT-MoE,這也是業(yè)界首個(gè)中文稀疏GPT大模型在該榜單登頂。

阿里云 PAI推出中文稀疏GPT大模型，登頂 ZeroCLUE榜單(圖1)

在繼去年的Transformer Encoder大模型取得中文小樣本學(xué)習(xí)、英文預(yù)訓(xùn)練模型知識(shí)量度量冠軍后，今年阿里云將大模型技術(shù)能力又向前推進(jìn)了一步?；贛oE稀疏結(jié)構(gòu)，僅用一臺(tái)A100就把160億參數(shù)量級(jí)的多任務(wù)通用GPT模型訓(xùn)練成熟。這是通往低成本且高性能多任務(wù)通用自然語(yǔ)言理解的重要里程碑。

中文GPT大模型落地主要面臨來(lái)自兩方面的挑戰(zhàn)：一方面是中文語(yǔ)言建模的困難，中文可以利用復(fù)雜多變的自由組合表達(dá)多重含義，這使得中文語(yǔ)言模型比英文在表達(dá)效率上難度加倍；另一方面隨著模型參數(shù)量的不斷增加，需要投入的硬件成本越來(lái)越高，訓(xùn)練成熟時(shí)間越來(lái)越長(zhǎng)。

以O(shè)penAI推出的1750億的GPT-3為例，在1024張A100GPU上預(yù)估需要34天；因此，能否消耗更少的計(jì)算資源以高性價(jià)比的方式完成訓(xùn)練和推理是大模型落地亟待解決的難題。

GPT-MoE 模型采用稀疏模型的結(jié)構(gòu)設(shè)計(jì)，有效緩解了上面提到的兩個(gè)困難。在刷榜的過(guò)程中，從工程到算法沉淀出4點(diǎn)自研核心技術(shù)，有強(qiáng)化型稀疏均衡器，領(lǐng)域話術(shù)再適應(yīng)驅(qū)動(dòng)的中文提示語(yǔ)零樣本學(xué)習(xí)，中文復(fù)雜任務(wù)定向優(yōu)化，以及阿里云自主研發(fā)的transformer訓(xùn)練加速工具Rapidformer，實(shí)現(xiàn)了單機(jī)A100即可訓(xùn)練160億參數(shù)大模型。

目前，GPT-MoE 模型已在阿里云機(jī)器學(xué)習(xí)PAI EasyNLP項(xiàng)目中開(kāi)源，和開(kāi)發(fā)者共享中文百億稀疏GPT大模型技術(shù)。

開(kāi)源項(xiàng)目地址：https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer

本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱：business@qudong.com