玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁 > 新聞 > 其他

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

來源:快科技 編輯:非小米 時間:2024-08-23 20:00人閱讀

快科技8月23日消息,摩爾線程官方宣布,音頻理解大模型“MooER”(摩耳)已經(jīng)正式開源,并公布在GitHub上:https://github.com/MooreThreads/MooER

目前開源的內(nèi)容包括推理代碼,以及5000小時數(shù)據(jù)訓(xùn)練的模型,后續(xù)還將開源訓(xùn)練代碼,以及基于8萬小時數(shù)據(jù)訓(xùn)練的模型。

摩爾線程希望,能夠在語音大模型的方法演進(jìn)和技術(shù)落地方面為社區(qū)做出貢獻(xiàn)。

MooER是業(yè)界首個基于國產(chǎn)全功能GPU進(jìn)行訓(xùn)練和推理的大型開源語音模型,依托摩爾線程的夸娥(KUAE)智算平臺,并得益于自研的創(chuàng)新算法和高效計算資源的結(jié)合,僅用38個小時,就完成了5000小時音頻數(shù)據(jù)和偽標(biāo)簽的訓(xùn)練。

MooER不僅支持中文和英文的語音識別,還具備中譯英的語音翻譯能力,并在多個語音識別領(lǐng)域的測試集中,展現(xiàn)出了領(lǐng)先或至少持平的優(yōu)異表現(xiàn)。

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

MooER的模型結(jié)構(gòu)包括Encoder、Adapter、Decoder(LLM)三個部分。

其中,Encoder對輸入的原始音頻進(jìn)行建模,提取特征并獲取表征向量。

Encoder的輸出會送到Adapter進(jìn)一步下采樣,使得每120ms音頻輸出一組音頻Embedding。

音頻Embedding和文本的Prompt Embedding拼接后,再送進(jìn)LLM進(jìn)行對應(yīng)的下游任務(wù),如語音識別(ASR)、語音翻譯(AST)等。

在模型訓(xùn)練階段,融合了語音模態(tài)和文本模態(tài)的數(shù)據(jù)會按以下形式輸入到LLM:

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

摩爾線程使用開源的Paraformer語音編碼器、Qwen2-7B-instruct大語言模型,初始化Encoder和LLM模塊,并隨機(jī)初始化Adapter模塊。

訓(xùn)練過程中,Encoder始終固定參數(shù),Adapter和LLM會參與訓(xùn)練和梯度更新。

利用自研的夸娥智算平臺,摩爾線程使用DeepSpeed框架和Zero2策略,基于BF16精度進(jìn)行訓(xùn)練和推理。

經(jīng)實驗發(fā)現(xiàn),訓(xùn)練過程中更新LLM參數(shù)能夠提升最終音頻理解任務(wù)的效果。

為了提升訓(xùn)練效率,摩爾線程采用了LoRA技術(shù),僅更新2%的LLM參數(shù)。具體的模型參數(shù)規(guī)模如下:

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

該模型的訓(xùn)練數(shù)據(jù)MT5K(MT 5000h)由部分開源數(shù)據(jù)和內(nèi)部數(shù)據(jù)構(gòu)成,內(nèi)部數(shù)據(jù)的語音識別標(biāo)簽均是由第三方云服務(wù)得到的偽標(biāo)簽。

語音識別的偽標(biāo)簽經(jīng)過一個文本翻譯模型后,得到語音翻譯的偽標(biāo)簽,且沒有對這些偽標(biāo)簽數(shù)據(jù)做任何的人工篩選。

具體數(shù)據(jù)來源和對應(yīng)的規(guī)模如下:

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

摩爾線程將MooER與多個開源的音頻理解大模型進(jìn)行了對比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3、SeamlessM4T-v2等。這些模型的訓(xùn)練規(guī)模從幾萬小時到上百萬小時不等。

對比結(jié)果顯示,開源模型MooER-5K在六個中文測試集上的CER(字錯誤率)達(dá)到4.21%,在六個英文測試集的WER(詞錯誤率)為17.98%,與其它開源模型相比,效果更優(yōu)或幾乎持平。

特別是在Covost2 zh2en中譯英測試集上,MooER的BLEU分?jǐn)?shù)達(dá)到了25.2,顯著優(yōu)于其他開源模型,取得了可與工業(yè)水平相媲美的效果。

基于內(nèi)部8萬小時數(shù)據(jù)訓(xùn)練的MooER-80k模型,在上述中文測試集上的CER達(dá)到了3.50%,在英文測試集上的WER到達(dá)了12.66%。

與此同時,摩爾線程還得到一些有趣的結(jié)論,可以為數(shù)據(jù)資源和計算資源有限的開發(fā)者提供一些建議:

▼Encoder的選擇。

分別對比無監(jiān)督(Self-Supervised Learning)訓(xùn)練的W2v-bert 2.0、半監(jiān)督(Semi-Supervised Learning)訓(xùn)練的Whisper v3、有監(jiān)督(Supervised Learning)訓(xùn)練的Paraformer。

采用無監(jiān)督訓(xùn)練得到的Encoder必須參與到訓(xùn)練過程中,否則模型很難收斂。

綜合考慮模型效果、參數(shù)量以及訓(xùn)練和推理的效率,選擇Paraformer作為Encoder。

▼音頻建模粒度很關(guān)鍵。

嘗試使用240ms、180ms和120ms的粒度進(jìn)行建模,并發(fā)現(xiàn)這一參數(shù)對音頻與文本的融合效果具有重要影響,同時會影響模型的最終效果和訓(xùn)練的收斂速度。

經(jīng)過評估,最終選擇每120ms輸出一個音頻Embedding。

▼快速適應(yīng)到目標(biāo)垂類。

僅使用了140h~150h的英文數(shù)據(jù)進(jìn)行訓(xùn)練,可以在6個不同來源的英文的測試集上取得一定效果。

同時嘗試將任務(wù)遷移到語音翻譯(AST)領(lǐng)域,取得了很好的效果。

相信這個方法同樣也適用于小語種、方言或其它低資源的音頻理解任務(wù)。

▼LLM對音頻理解任務(wù)的影響。

在模型訓(xùn)練過程中采用LoRA技術(shù)對LLM參數(shù)進(jìn)行更新,可以使訓(xùn)練更快收斂,并且最終取得更好的效果。

同時,音頻理解任務(wù)上的效果也會隨著基礎(chǔ)LLM效果提升而提升。

更多技術(shù)細(xì)節(jié),請參考技術(shù)文檔:

https://arxiv.org/pdf/2408.05101

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 開源 摩爾線程

相關(guān)文章