昆侖萬維宣布開源百億級大語言模型“天工”:0門檻商用
快科技10月30日消息,今天,昆侖萬維官方宣布,開源百億級大語言模型“天工”Skywork-13B系列,并罕見地配套開源了600GB、150B Tokens的超大高質量開源中文數(shù)據集。
根據官方介紹,昆侖萬維“天工”Skywork-13B系列包括Skywork-13B-Base、Skywork-13B-Math兩大模型及150B Tokens高質量中文數(shù)據集。
其中Skywork-13B-Base模型是Skywork-13B的基礎模型,其經由3.2萬億個多語言高質量數(shù)據訓練,在CEVAL, CMMLU, MMLU, GSM8K等評測與基準測試上都展現(xiàn)了同等規(guī)模模型的最佳效果。
Skywork-13B-Math模型經過專門的數(shù)學能力強化訓練,在GSM8K等數(shù)據集上取得了同等規(guī)模模型的最佳效果。
本次開源的數(shù)據集大小約為600GB,總token數(shù)量約為150B,是目前開源最大的高質量中文數(shù)據集之一。
此外,昆侖萬維還公開了模型中使用的評估方法、數(shù)據配比研究和訓練基礎設施調優(yōu)方案等,助力對于大型模型預訓練的認知,推動人工智能通用智能的實現(xiàn)。
目前開源社區(qū)中的中文大模型多數(shù)并非是完全可商用,通常需要進行復雜的商用授權申請流程,甚至設定限制不給予商業(yè)授權。
此次Skywork-13B系列大模型將全面開放商用許可,無需再次申請授權即可將大模型進行商業(yè)用途,幫助更多對中文大模型感興趣的用戶和企業(yè)在行業(yè)中不斷探索和進步。
附Skywork-13B下載地址:
https://modelscope.cn/organization/skywork
https://github.com/SkyworkAI/Skywork
本站所有文章、數(shù)據、圖片均來自互聯(lián)網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com