實(shí)測(cè)騰訊AI文生圖!王者榮耀畫(huà)風(fēng)一鍵直出 小程序就能玩
鵝廠大模型,又有新玩法!
發(fā)布不到兩個(gè)月,騰訊混元大模型就速通了一個(gè)新版本,除了語(yǔ)言模型升級(jí)以外,還悄悄上線了AIGC最火熱??的功能——
文生圖。
和語(yǔ)言模型一樣,文生圖同樣可以通過(guò)微信小程序直接體驗(yàn)。
不過(guò)與Midjourney獨(dú)立出圖不同,混元的文生圖和對(duì)話功能“互不耽誤”,可以邊聊邊畫(huà),與DALL·E 3體驗(yàn)相似。
之前已經(jīng)申請(qǐng)測(cè)試通過(guò)的,可以立刻沖了~
還在排隊(duì)中的也別急,我們已經(jīng)快速實(shí)測(cè)了一波熱圖,這就先放出來(lái)給大伙兒看看。
混元文生圖上手實(shí)測(cè)
根據(jù)騰訊介紹,混元大模型文生圖最大的優(yōu)勢(shì)在三處:真實(shí)感、中文理解、風(fēng)格多樣。
接下來(lái)就挨個(gè)試試它做到了什么程度。
先來(lái)畫(huà)人,復(fù)刻一波之前爆火過(guò)的Midjourney“寫(xiě)實(shí)90年代北京情侶”看看。
請(qǐng)輸出一張攝影風(fēng)的照片,在20世紀(jì)90年代的北京,一個(gè)男性和一個(gè)女性,面帶微笑,坐在屋頂,穿著夾克和牛仔褲,有很多的建筑物,真實(shí)感
可以看出,寫(xiě)實(shí)風(fēng)格的人像還是很拿手的,人物姿態(tài)合理,畫(huà)亞洲人臉與國(guó)外AI相也比較自然。
注意這里有個(gè)小技巧,想要寫(xiě)實(shí)風(fēng)格的話最好用“生成一張……”來(lái)觸發(fā),如果用“畫(huà)一張……”大概率會(huì)得到插畫(huà)風(fēng)格。
寫(xiě)實(shí)風(fēng)格的人像可以,再看看畫(huà)風(fēng)景如何。
除了一般的風(fēng)景描述,混元大模型支持指定一個(gè)真實(shí)存在的景點(diǎn),比如“桂林山水”或“長(zhǎng)城”。
畢竟是AI生成,和真實(shí)景觀不會(huì)完全一樣,但感覺(jué)還是到位了。
接下來(lái)要上難度了,把這兩個(gè)場(chǎng)景“組合”起來(lái):
生成一張桂林山水,但是岸上有長(zhǎng)城,攝影風(fēng)格,真實(shí)感,高度細(xì)節(jié)。
這么離譜的需求都畫(huà)出來(lái)了,甚至水面還有水波,看來(lái)不是簡(jiǎn)單地重現(xiàn)訓(xùn)練數(shù)據(jù),而是對(duì)概念有一些自己的理解。
那么更復(fù)雜的概念如何?
曾經(jīng),AI因不理解中文菜名鬧過(guò)一波笑話。
經(jīng)過(guò)這半年的發(fā)展,“紅燒獅子頭”里不會(huì)出現(xiàn)獅子的頭,“夫妻肺片”里也不會(huì)變成恐怖片了,甚至看著還挺香。
要說(shuō)比菜名更有挑戰(zhàn)的,就到了古詩(shī)詞,正好寫(xiě)實(shí)風(fēng)格也看膩了也可以換換口味。
生成一張圖片:孤舟蓑笠翁,獨(dú)釣寒江雪,水墨畫(huà)風(fēng)格。
總得來(lái)說(shuō)還不錯(cuò),美中不足之處在于一張圖沒(méi)有“舟”,還有一張舟上坐了兩個(gè)“翁”,就沒(méi)有孤獨(dú)的意境了。
看來(lái)詩(shī)詞這種過(guò)于凝練的還是有難度。
But,別忘了混元助手同時(shí)擁有聊天對(duì)話能力,還支持多輪對(duì)話。
借助強(qiáng)大的語(yǔ)言模型部分,我們也找出解決辦法。
接下來(lái)只需用“這些要求”、“上述要求”來(lái)指代上面的回答,就可以讓兩個(gè)功能聯(lián)動(dòng)起來(lái)了。
再畫(huà)就會(huì)更穩(wěn)定,而且增加了雪花飄落的細(xì)節(jié)。
記住這個(gè)小技巧,接下來(lái)還會(huì)用到。
其實(shí)在騰訊混元助手中,專門(mén)準(zhǔn)備了這樣一個(gè)存為指令的功能。
存好后就可以從對(duì)話框右邊的魔法棒圖標(biāo)處快速調(diào)用了,只需要更改要描述的內(nèi)容即可。
還可以方便地一鍵分享到微信,4張圖一次分享讓好友幫忙選,不用來(lái)回截圖了。
直接打開(kāi)分享鏈接,就可以放大查看四張圖,還可以開(kāi)始新對(duì)話!
了解過(guò)混元大模型的中文理解能力,再來(lái)試試最后一個(gè)特點(diǎn)風(fēng)格多樣性。
既然是騰訊出品,游戲插畫(huà)肯定少不了,比如正火的賽博朋克風(fēng)。
有點(diǎn)感覺(jué)了,但總覺(jué)得還差點(diǎn)意思。
可以用上面的技巧來(lái),聯(lián)動(dòng)語(yǔ)言模型來(lái)明確賽博朋克風(fēng)格的特點(diǎn)。
再手動(dòng)加億點(diǎn)點(diǎn)料,就更對(duì)味了。
不同游戲的畫(huà)風(fēng)差距極大,測(cè)試下來(lái)混元助手確實(shí)能hold住不少,從3D到2D甚至像素都沒(méi)問(wèn)題。
即使是同一話題和風(fēng)格限定,也能展現(xiàn)出不同的畫(huà)風(fēng),F(xiàn)urry控狂喜(doge)
其實(shí)騰訊透露,內(nèi)部多個(gè)場(chǎng)景已經(jīng)用上了混元大模型文生圖能力。
雖然還不知道具體怎么使用,但是我們測(cè)試了一下用《王者榮耀》來(lái)當(dāng)風(fēng)格限定詞,混元也能理解。
除了游戲之外還有廣告場(chǎng)景,前面提到的混元大模型文生圖真實(shí)感的優(yōu)勢(shì)就能發(fā)揮出來(lái)。
也別忘了騰訊還有一大塊內(nèi)容業(yè)務(wù),來(lái)個(gè)玄幻小說(shuō)插圖也沒(méi)問(wèn)題。
這樣的文生圖效果,背后究竟是通過(guò)什么原理實(shí)現(xiàn)的?
在此之前,業(yè)界其實(shí)已經(jīng)有不少文生圖的開(kāi)源模型。
騰訊是基于其中某種方案打造,還是重新進(jìn)行的自研?
帶著種種問(wèn)題,我們和騰訊混元大模型文生圖技術(shù)負(fù)責(zé)人蘆清林聊了聊,了解了一下背后的技術(shù)細(xì)節(jié)。
模型全自研,用20億+圖文對(duì)煉成
“從算法、數(shù)據(jù)系統(tǒng)到工程平臺(tái),都是從0到1自研。”
蘆清林表示,這也算是騰訊混元大模型文生圖功能的優(yōu)勢(shì),這樣從生成自由度到數(shù)據(jù)安全性,就都能完全把控,也讓生成的圖像“更符合用戶需求”。
首先是在算法這一塊。
當(dāng)前文生圖模型普遍存在三個(gè)難點(diǎn),語(yǔ)義理解差、構(gòu)圖不合理、畫(huà)面細(xì)節(jié)無(wú)質(zhì)感。
語(yǔ)義理解差,就是模型聽(tīng)不懂人話,尤其是中英文夾雜的人話。
當(dāng)前業(yè)界普遍采用的是開(kāi)源的CLIP算法,然而它一來(lái)沒(méi)有建模中文語(yǔ)言,輸入中文只能靠翻譯,會(huì)出現(xiàn)紅燒獅子頭真的生成獅子的問(wèn)題(doge);另一個(gè)是訓(xùn)練時(shí)圖文對(duì)齊能力不行。
構(gòu)圖不合理,指的是生成的人體結(jié)構(gòu)、畫(huà)面結(jié)構(gòu)有問(wèn)題,直接“生異形”。
如果直接基于業(yè)界已有的開(kāi)源擴(kuò)散模型生成圖像,就容易出現(xiàn)這個(gè)問(wèn)題,像是出現(xiàn)“三只手”或者各種奇怪的畫(huà)面結(jié)構(gòu)。
畫(huà)面細(xì)節(jié)無(wú)質(zhì)感,就是生成圖像清晰度差。當(dāng)前不少數(shù)據(jù)集圖像分辨率和質(zhì)量不高,容易導(dǎo)致訓(xùn)練出來(lái)的開(kāi)源模型質(zhì)量也不高。
為了解決這三個(gè)難點(diǎn),騰訊混元團(tuán)隊(duì)在算法階段,特意用了三類模型組合來(lái)“逐個(gè)擊破”。
語(yǔ)義理解上,騰訊自研了跨模態(tài)預(yù)訓(xùn)練大模型,不僅讓它同時(shí)學(xué)會(huì)建模中英文,而且強(qiáng)化文本和圖像細(xì)粒度特征的聯(lián)系,簡(jiǎn)單來(lái)說(shuō)就是中文、英文、圖像三者的“跨模態(tài)對(duì)齊”。
生成構(gòu)圖上,騰訊自研了一種擴(kuò)散模型和Transformer混合的架構(gòu),尤其是將Transformer當(dāng)前大火的旋轉(zhuǎn)位置編碼研究給用上了。
旋轉(zhuǎn)位置編碼通常被用于增加大模型的上下文長(zhǎng)度,不過(guò)在這里被騰訊巧妙地用于刻畫(huà)人體結(jié)構(gòu),讓模型既能掌握全局信息(人體骨架)又能理解局部信息(臉部細(xì)節(jié))。
最后是在畫(huà)面細(xì)節(jié)上,騰訊自研了超分辨率模型,與此同時(shí)還結(jié)合了多種算法,針對(duì)圖像不同的細(xì)節(jié)進(jìn)行優(yōu)化,讓最后生成的圖像進(jìn)一步“耐看”。
這樣做出來(lái)的模型架構(gòu),不僅能生成質(zhì)量更高的圖片(分辨率1024 x 1024),而且只需要微調(diào)一下架構(gòu),就能變成圖生圖、甚至是文生視頻模型。
接下來(lái),就是關(guān)鍵的數(shù)據(jù)部分了。
對(duì)于文生圖而言,生成圖像的質(zhì)量,很大程度上取決于數(shù)據(jù)的質(zhì)量,OpenAI在DALL·E 3論文中,通篇都在強(qiáng)調(diào)數(shù)據(jù)對(duì)于指令跟隨的重要性。
騰訊也非常重視數(shù)據(jù)對(duì)模型的重要性,并同樣自研了三方面的技術(shù)。
在數(shù)據(jù)質(zhì)量上,由于互聯(lián)網(wǎng)上扒下來(lái)的數(shù)據(jù)集,往往存在文字描述簡(jiǎn)潔、和生成內(nèi)容不完全匹配的問(wèn)題,因此團(tuán)隊(duì)通過(guò)改善圖-文對(duì)數(shù)據(jù)集中的“文”部分,也就是細(xì)化中文的文本描述,來(lái)提升圖文數(shù)據(jù)的相關(guān)性;
在數(shù)據(jù)效果上,團(tuán)隊(duì)針對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了“金銀銅”分層分級(jí),等級(jí)越高,意味著數(shù)據(jù)清洗程度越精細(xì)。
其中,20+億未清洗的“青銅數(shù)據(jù)”,用來(lái)對(duì)所有模型進(jìn)行“粗加工”,也就是預(yù)訓(xùn)練;
6億+“白銀數(shù)據(jù)”,用來(lái)對(duì)生成模型進(jìn)一步加工,提升生成質(zhì)量;
1.12億+精心清洗的“黃金數(shù)據(jù)”,則用來(lái)對(duì)模型進(jìn)行“精加工”,也就是精調(diào)突擊訓(xùn)練,確保訓(xùn)練出來(lái)的模型質(zhì)量更優(yōu)秀。
在數(shù)據(jù)效率上,為了加快訓(xùn)練速度,尤其是針對(duì)用戶反饋對(duì)模型進(jìn)行優(yōu)化的速度,騰訊也建立了數(shù)據(jù)飛輪,自動(dòng)化構(gòu)建訓(xùn)練數(shù)據(jù)并加快模型迭代,讓模型生成準(zhǔn)確率進(jìn)一步提升。
據(jù)蘆清林透露,數(shù)據(jù)飛輪這個(gè)技術(shù),也正是解決數(shù)據(jù)長(zhǎng)尾場(chǎng)景難題的關(guān)鍵。
由于我們的生活中總是在出現(xiàn)一些潮流新詞,例如“玲娜貝兒”等,這種名詞往往在數(shù)據(jù)集中不常見(jiàn),而用戶又會(huì)在輸入時(shí)使用,因此往往需要第一時(shí)間更新進(jìn)訓(xùn)練數(shù)據(jù)中。
有了數(shù)據(jù)飛輪,就能將這個(gè)過(guò)程效率進(jìn)一步提升,避免模型在見(jiàn)識(shí)到新詞后,依舊長(zhǎng)時(shí)間無(wú)法生成對(duì)應(yīng)的圖像。
最后,有了算法和數(shù)據(jù),還得有個(gè)工程平臺(tái),來(lái)把它們組合起來(lái)快速訓(xùn)練。
為此,騰訊自研了Angel機(jī)器學(xué)習(xí)平臺(tái),包括訓(xùn)練框架AngelPTM和推理框架AngelHCF。
訓(xùn)練上,大模型最重要的就是并行能力。為此,騰訊基于4D并行+ZeROCache機(jī)制,實(shí)現(xiàn)了千億參數(shù)混元大模型的快速訓(xùn)練。
直觀來(lái)看,AngelPTM訓(xùn)練框架相比業(yè)界主流框架DeepSpeed-Chat速度提升了1倍以上。
推理上,AngelHCF則實(shí)現(xiàn)了支持多種并行能力、支持服務(wù)部署及管理、以及自研模型無(wú)損量化三大功能,相比業(yè)界主流框架提升了1.3倍以上。
值得一提的是,在Angel機(jī)器學(xué)習(xí)框架和平臺(tái)的支持下,騰訊混元的語(yǔ)言模型也進(jìn)行了一輪升級(jí),尤其是代碼能力有不小的提升。
我們也簡(jiǎn)單測(cè)了測(cè)騰訊混元大模型更新后的代碼能力。
首先試試寫(xiě)代碼,以幫老師寫(xiě)一個(gè)“隨機(jī)點(diǎn)名程序”為例(手動(dòng)狗頭)。
混元大模型很快生成了一段帶注釋的完整代碼:
實(shí)測(cè)可以絲滑運(yùn)行,每次都能抽到不同的幸(dao)運(yùn)(mei)兒(dan)起來(lái)回答問(wèn)題:
然后我們還發(fā)現(xiàn),混元大模型竟然還能幫忙查代碼bug,屬實(shí)是程序員省心利器了。
當(dāng)然,無(wú)論是文生圖還是代碼能力,現(xiàn)在都已經(jīng)可以在騰訊混元助手中體驗(yàn)。
感興趣的小伙伴,可以到騰訊混元助手排個(gè)隊(duì)或是體驗(yàn)一把~
本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com