國產(chǎn)Sora的秘密 藏在這個清華系大模型團(tuán)隊中
在視頻 AIGC 領(lǐng)域,出現(xiàn)一個有力的國產(chǎn)選手。
2024 年,Sora 一直活在聚光燈下。
馬斯克不惜溢美之詞,稱「人類愿賭服輸」;紅衣教主周鴻祎眼中,借助 Sora 人類實現(xiàn) AGI 將縮減至一兩年。就連賣付費課程的微商,也拿「Sora」重新組裝了自己的鐮刀。
這種狂熱的蔓延,從美國到中國,從一級到二級甚至再到三級市場,像漣漪一樣,播散向全世界。
因為,在理想情況下,長視頻生成的底層邏輯,約等于世界模型。十幾秒、幾十秒的視頻中,包含了基礎(chǔ)的圖像處理、空間關(guān)系、物理規(guī)律、因果邏輯等等現(xiàn)實規(guī)律與知識的映射。小處看,可以掀翻傳統(tǒng)電影、游戲制作的桌子,大處看,通往通用人工智能,這是關(guān)鍵一步。
同時,在一眾長視頻生成算法中,Sora 的技術(shù)突破是具備革命性的。相比傳統(tǒng)的 Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 架構(gòu),既克服了 Stable Diffusion 擴(kuò)展性的缺失,更是在生成內(nèi)容的準(zhǔn)確性和靈活性上有了質(zhì)的飛躍。
唯一美中不足是,Sora 并非開源算法。
沒了開源,也就沒了復(fù)現(xiàn)的可能;沒了復(fù)現(xiàn)可能,那么哪怕經(jīng)管出身的合伙人睡前讀物變成了《Scalable diffusion models with transformers》,投資經(jīng)理一周跑遍北京、深圳科技產(chǎn)業(yè)園掘地三尺,所有人都不得不承認(rèn)一個現(xiàn)實,盡管視頻大模型企業(yè)眾多,但或許尚未等到國產(chǎn) Sora 正式發(fā)掘,視頻大模型的淘汰賽就已經(jīng)走到尾聲。
業(yè)內(nèi)「哇聲一片」,一級市場卻空前焦慮。中國 AI 企業(yè),只能眼睜睜看著自己距離 Sora 越來越遠(yuǎn)嗎?
01「國產(chǎn) Sora」來了?場上 VC 幾乎絕望之際,誰也沒曾想到,國產(chǎn) Sora 的秘密,最先揭曉謎底的,竟是成立僅一年多的大模型企業(yè)——生數(shù)科技。
近日,生數(shù)科技聯(lián)合清華大學(xué)宣布推出國內(nèi)首個基于純自研 U-ViT 架構(gòu)的視頻大模型「Vidu」,支持一鍵生成長達(dá) 16 秒、分辨率高達(dá) 1080p 的高清視頻內(nèi)容。從官宣的短片來看,Vidu 在多鏡頭生成、時間和空間一致性、模擬真實物理世界以及想象力等方面,幾乎與 Sora 齊平。
而相比其他國產(chǎn)「類 Sora」的工作,Vidu 一個最明顯的特點就是,畫面時間足夠長。
一直以來,十秒幾乎是「國產(chǎn) Sora」的一個生死線。要想達(dá)到或者超過十秒,則意味著對訓(xùn)練素材的積累,以及如何解決算法記憶消失問題,需要做出深厚的研究。
這是 Vidu 放出的另一段官方視頻,從視頻中可以看到,白色老式 SUV 在山坡土路行駛中,滾動的輪胎會揚(yáng)起灰塵,軌跡自然連貫;周圍樹林,也在陽光的照射下,遵循真實世界中的投射規(guī)律,留下光影斑駁。
形成對比的是,保證視頻時長的前提下,大部分國產(chǎn)「類 Sora」都很難保持人物和場景的連貫,同時也難以做到真實地遵循物理世界規(guī)律,比如吃漢堡會留下咬痕、汽車開過會留下尾氣與灰塵的痕跡。
根據(jù)行業(yè)人士透露,目前市面上之前的一些「類 Sora」模型,做到長時長的路徑,其實大多是通過插幀的方式,在視頻的每兩幀畫面中增加一幀或多幀來提升視頻的長度。
這種方法就需要對視頻進(jìn)行逐幀處理,通過插入額外的幀來改善視頻長度和質(zhì)量。整體畫面就會顯得僵硬而又緩慢。
但生數(shù)科技的作用原理明顯不同?;趩我荒P屯耆说蕉松蓪崿F(xiàn)底層算法,直觀上,我們可以看到「一鏡到底」的絲滑感,視頻從頭到尾連續(xù)生成,沒有插幀痕跡。
另外,還有一些工具類的長視頻采用了「換湯不換藥」的做法。底層集合了許多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成單張畫面,再圖生 4s 短視頻,再做拼接。也就是說,想要一個十幾秒長視頻,那就把多個 4s 短視頻拼在一起就好,不僅整體的畫面流暢度會大打折扣,底層也并沒有實現(xiàn)長視頻生成能力的突破。
除了生成時長有了質(zhì)的突破,從官宣視頻中我們還可以看到,Vidu 還做到了畫面連續(xù)流暢,且有細(xì)節(jié)、邏輯連貫。盡管都是運(yùn)動畫面,但幾乎不會出現(xiàn)穿模、鬼影、運(yùn)動不符合現(xiàn)實規(guī)律的問題。
做一個簡單對比,以下是某熱門視頻大模型團(tuán)隊的視頻生成效果截圖,雖然整體視頻長度才四秒,但僅僅一個準(zhǔn)備跳躍的動作指令,就足以讓畫面里的小貓變成 6 只腳,或者三根尾巴的「鬼影」。
對比如此鮮明,讓人不禁疑惑:為何ChatGPT發(fā)布后,市場馬上涌現(xiàn)一批「達(dá)到 GPT 3.5,逼近 GPT4.0」的大模型產(chǎn)品。同樣是追趕,為什么類 Sora 產(chǎn)品卻如此困難?
答案是,ChatGPT 發(fā)布不久,Meta LLama2 開源,開源平替解決了國產(chǎn) ChatGPT 技術(shù)復(fù)現(xiàn)的燃眉之急。而 Sora 沒有開源,技術(shù)細(xì)節(jié)未公開,這就導(dǎo)致,實現(xiàn)「國產(chǎn) Sora」就只剩了自研這一條路可以走。
根據(jù) OpenAI 披露的技術(shù)報告,Sora 核心技術(shù)架構(gòu)背后源自一篇名為《Scalable Diffusion Models with Transformers》的論文,論文提出了一個將 Diffusion(擴(kuò)散模型)和 Transformer 融合的架構(gòu)——DiT,后面被 Sora 采用。
巧合的是,比 DiT 早兩個多月,清華團(tuán)隊就提出了用 Transformer 替代基于 CNN 的 U-Net 的網(wǎng)絡(luò)架構(gòu) U-ViT。從架構(gòu)路線上,兩者并無二致。甚至過程中,還曾出現(xiàn)一個小插曲,由于發(fā)布時間更早,當(dāng)年計算機(jī)視覺頂會 CVPR 2023 收錄了清華大學(xué)的 U-ViT 論文,卻以「缺乏創(chuàng)新」為由拒稿了 Sora 底層使用的 DiT 論文。
生數(shù)科技的創(chuàng)始團(tuán)隊正是源于清華大學(xué)該論文團(tuán)隊。公司的 CTO 鮑凡就是該篇論文的第一作者,此次發(fā)布的 Vidu 模型底層采用的就是 U-ViT 架構(gòu)。也就是說,生數(shù)科技并不屬于追逐 Sora 的一員,而是一早就踏在了同一起跑線,甚至是更早。
由此窺見,生數(shù)科技成立時間雖短,但來頭卻不小。
深扒發(fā)現(xiàn),論人才,其團(tuán)隊核心成員來自清華大學(xué)人工智能研究院,是國內(nèi)最早開展深度生成式研究的團(tuán)隊。論技術(shù),團(tuán)隊多項研究成果被 OpenAI、蘋果、Stability AI 等應(yīng)用于 DALL·E 2、Stable Diffusion 等模型中,是現(xiàn)階段在生成式領(lǐng)域發(fā)表論文成果數(shù)最多的國內(nèi)團(tuán)隊。論背景,生數(shù)科技已獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV 百度風(fēng)投、字節(jié)系錦秋基金等多家知名機(jī)構(gòu)的認(rèn)可,完成數(shù)億元融資。
而真做到這一切的,為什么是生數(shù)?
02 為什么是生數(shù)科技?最重要的答案或許是,生數(shù)科技早早走對了技術(shù)路線。
與市面上大部分視頻生成算法采用基于 U-Net 卷積架構(gòu)的傳統(tǒng)擴(kuò)散模型不同,生數(shù)科技此次發(fā)布的 Vidu 與 Sora 采用的都是融合架構(gòu)(即上文提到的 U-ViT 與 DiT)。
所謂融合架構(gòu),可以理解為 Diffusion(擴(kuò)散模型)與 Transformer 的融合。
Transformer 架構(gòu)被熟知應(yīng)用于大語言模型,該架構(gòu)的優(yōu)勢在于 scale 特性,參數(shù)量越大,效果越好,而 Diffusion 被常用于傳統(tǒng)視覺任務(wù)(圖像和視頻生成)中。
融合架構(gòu)就是在 Diffusion Model(擴(kuò)散模型)中,用 Transformer 替換常用的 U-Net 卷積網(wǎng)絡(luò),將 Transformer 的可擴(kuò)展性與 Diffusion 模型處理視覺數(shù)據(jù)的天然優(yōu)勢進(jìn)行融合,能在視覺任務(wù)下展現(xiàn)出卓越的涌現(xiàn)能力。
2022 年 9 月,團(tuán)隊提交了 U-ViT 論文,在全球首次提出將擴(kuò)散模型與 Transformer 融合的架構(gòu)思路。兩個多月之后推出的 DiT 架構(gòu)同樣采取了這一思路,而后被 Sora 采用。
相比僅在 ImageNet 上做了實驗的 DiT,U-ViT 還在小數(shù)據(jù)集(CIFAR10、CelebA)、ImageNet、圖文數(shù)據(jù)集 MSCOCO 均做了實驗。而且,相比傳統(tǒng)的 Transformer,U-ViT 提出了一項「長連接」的技術(shù),大大提升了訓(xùn)練收斂速度。
之后,團(tuán)隊繼續(xù)深入。2023 年 3 月,團(tuán)隊基于 U-ViT 架構(gòu)在大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓(xùn)練出近 10 億參數(shù)量模型 UniDiffuser,并將其開源,UniDiffuser 支持圖文模態(tài)間的任意生成和轉(zhuǎn)換。
UniDiffuser 的實現(xiàn)有一項重要的價值——首次驗證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴(kuò)展性(Scaling Law),相當(dāng)于將融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程都跑通。
值得一提的是,同為圖文模型,UniDiffuser 比最近才切換至 DiT 架構(gòu)的 Stable Diffusion 3 領(lǐng)先了一年。
不過,雖然都選了融合架構(gòu),但在后續(xù)產(chǎn)品路徑的推進(jìn)上,基于資源等方面的考慮,Sora 團(tuán)隊選擇「每天基本不睡覺高強(qiáng)度工作了一年」all in 長視頻,生數(shù)科技則選擇從 2D 圖像開始,再進(jìn)一步拓展到 3D 和視頻。
路線沒有對錯之分,一個基本常識是,國內(nèi)創(chuàng)業(yè)公司,技術(shù)路線可以與 OpenAI 一樣,說明目光足夠長遠(yuǎn);但商業(yè)化打法參考 OpenAI 就是自尋死路——Sora 背后是 OpenAI 的技術(shù)實力,以及微軟的幾乎無限制的算力支持,普通公司沒有學(xué)習(xí)的資本。
也是因此,回顧整個 2023 年,生數(shù)科技主要資源都放在了圖像和 3D 上。到了今年 1 月份,生數(shù)科技才正式上線 4 秒短視頻生成,2 月份 Sora 發(fā)布之后,公司正式攻堅,很快便在 3 月份就突破了 8 秒的視頻生成,4 月份實現(xiàn) 16 秒長度突破,生成質(zhì)量與時長,全方面取得突破。
僅僅兩個月的時間就完成從 4 秒到 16 秒的訓(xùn)練任務(wù),速度令人吃驚。
背后不僅源自技術(shù)架構(gòu)層面的「前瞻」,也在于通過過去圖像到 3D 到視頻的循序漸進(jìn),讓團(tuán)隊積累了高效的工程化經(jīng)驗。
視頻本質(zhì)上是圖像在時間序列上的擴(kuò)增,可以看成連續(xù)多幀的圖像,所以先從圖像開始入手,基礎(chǔ)建設(shè)類的工程化工作,比如數(shù)據(jù)的收集、清洗、標(biāo)注以及模型的高效訓(xùn)練等經(jīng)驗,是可以復(fù)用的。Sora 就是這么做的:它采用了 DALL·E 3 的重標(biāo)注技術(shù),通過為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述,使模型能夠更加準(zhǔn)確地遵循用戶的文本指令生成視頻。
據(jù)悉,「Vidu」也復(fù)用了生數(shù)科技在圖文任務(wù)的很多經(jīng)驗,通過在前期的圖像等任務(wù)中的準(zhǔn)備鋪墊,生數(shù)科技利用視頻數(shù)據(jù)壓縮技術(shù)降低了輸入數(shù)據(jù)的序列維度,同時采用自研的分布式訓(xùn)練框架,在保證計算精度的同時,通信效率提升 1 倍,顯存開銷降低 80%,訓(xùn)練速度累計提升 40 倍。
路要一步一步走,飯要一口一口吃。在這個搶奪「國產(chǎn) Sora」的商業(yè)游戲中,技術(shù)上找對和認(rèn)準(zhǔn)方向是第一步;而走出「國產(chǎn)」特色,也是生存下去的必要條件,二者缺一不可。
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com