玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁 > 新聞 > 其他

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

來源:量子位   編輯:非小米 時(shí)間:2023-12-12 17:15人閱讀

繼AnimateAnyone之后,阿里又一項(xiàng)“舞蹈整活兒”論文火了——

這一次,只需一張臉部照片、一句話描述,就能讓你在任何地方跳舞

例如下面這段《擦玻璃》的舞蹈視頻:

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

你所需要做的就是“投喂”一張人像,以及一段prompt:

一個(gè)女孩,微笑著,在秋天的金色樹葉中跳舞,穿著淺藍(lán)色的連衣裙。

而且隨著prompt的變化,人物背景和身上的衣服也會(huì)隨之發(fā)生改變。例如我們?cè)贀Q兩句:

一個(gè)女孩,微笑著,在木屋里跳舞,穿著毛衣和長(zhǎng)褲。

一個(gè)女孩,微笑著,在時(shí)代廣場(chǎng)跳舞,穿著連衣裙般的白襯衫,長(zhǎng)袖,長(zhǎng)褲。

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

這便是阿里最新的一項(xiàng)研究——DreaMoving,主打的就是讓任何人、隨時(shí)隨地地跳舞。

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

而且不僅是真人,就連卡通動(dòng)漫人物也都是可以hold住的哦~

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

項(xiàng)目一出,也是引發(fā)了不少網(wǎng)友的關(guān)注,有人在看過效果之后直呼“Unbelievable”~

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

那么如此效果,這項(xiàng)研究又是如何做到的呢?

背后原理

雖然像Stable Video Diffusion和Gen2等文本到視頻(text-to-video,T2V)模型的出現(xiàn),在視頻生成方面取得了突破性進(jìn)展,但現(xiàn)在仍然有諸多挑戰(zhàn)需要面對(duì)。

例如在數(shù)據(jù)集方面,目前缺乏開源的人類舞蹈視頻數(shù)據(jù)集以及難以獲得相應(yīng)的精確文本描述,這就使得讓模型們?nèi)ド啥鄻有?、幀一致性、時(shí)長(zhǎng)更長(zhǎng)的視頻成為挑戰(zhàn)。

并且在以人為中心的內(nèi)容生成領(lǐng)域,生成結(jié)果的個(gè)性化和可控性也是關(guān)鍵因素。

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

面對(duì)這兩大難點(diǎn),阿里團(tuán)隊(duì)先從數(shù)據(jù)集著手做處理。

研究者們首先從互聯(lián)網(wǎng)收集了大約1000個(gè)高質(zhì)量的人類舞蹈視頻。然后,他們將這些視頻分割成大約6000個(gè)短視頻(每個(gè)視頻8至10秒),以確保視頻片段中沒有轉(zhuǎn)場(chǎng)和特殊效果,這樣有利于時(shí)間模塊的訓(xùn)練。

此外,為了生成視頻的文本描述,他們使用了Minigpt-v2作為視頻字幕器(video captioner),特別采用了“grounding”版本,指令是詳細(xì)描述這個(gè)幀。

基于關(guān)鍵幀中心幀生成的字幕代表了整個(gè)視頻片段的描述,主要是準(zhǔn)確描述主題和背景內(nèi)容。

框架方面,阿里團(tuán)隊(duì)則是提出了一個(gè)名叫DreaMoving、基于Stable Diffusion的模型。

它主要由三個(gè)神經(jīng)網(wǎng)絡(luò)來構(gòu)成,包括去噪U(xiǎn)-Net(Denoising U-Net)、視頻控制網(wǎng)絡(luò)(Video ControlNet)和內(nèi)容引導(dǎo)器(Content Guider)。

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

其中,Video ControlNet是在每U-Net塊之后注入運(yùn)動(dòng)塊(Motion Block)的圖像控制網(wǎng)絡(luò),將控制序列(姿態(tài)或深度)處理為額外的時(shí)間殘差。

Denoising U-Net是一種衍生的Stable-Diffusion U-Net,帶有用于視頻生成的運(yùn)動(dòng)塊。

而Content Guider則是將輸入文本提示和外觀表情(如人臉)傳輸?shù)絻?nèi)容嵌入中。

在如此操作之下,DreaMoving便可以在給定引導(dǎo)序列和簡(jiǎn)單的內(nèi)容描述(如文本和參考圖像)作為輸入的情況下生成高質(zhì)量、高保真度的視頻。

阿里又整活兒:一張人臉一句話就能跳《擦玻璃》 服裝背景隨意換!

不過很可惜的一點(diǎn)是,目前DreaMoving項(xiàng)目并沒有開源代碼。

感興趣的小伙伴可以先關(guān)注一波,坐等代碼開源了~

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 阿里 AI

相關(guān)文章