阿里又整活兒：一張人臉一句話就能跳《擦玻璃》服裝背景隨意換！

來源：量子位編輯：非小米時(shí)間：2023-12-12 17:15人閱讀

#阿里 #AI

繼AnimateAnyone之后，阿里又一項(xiàng)“舞蹈整活兒”論文火了——

這一次，只需一張臉部照片、一句話描述，就能讓你在任何地方跳舞！

例如下面這段《擦玻璃》的舞蹈視頻：

你所需要做的就是“投喂”一張人像，以及一段prompt：

一個(gè)女孩，微笑著，在秋天的金色樹葉中跳舞，穿著淺藍(lán)色的連衣裙。

而且隨著prompt的變化，人物背景和身上的衣服也會(huì)隨之發(fā)生改變。例如我們?cè)贀Q兩句：

一個(gè)女孩，微笑著，在木屋里跳舞，穿著毛衣和長(zhǎng)褲。

一個(gè)女孩，微笑著，在時(shí)代廣場(chǎng)跳舞，穿著連衣裙般的白襯衫，長(zhǎng)袖，長(zhǎng)褲。

阿里又整活兒：一張人臉一句話就能跳《擦玻璃》服裝背景隨意換！

這便是阿里最新的一項(xiàng)研究——DreaMoving，主打的就是讓任何人、隨時(shí)且隨地地跳舞。

而且不僅是真人，就連卡通動(dòng)漫人物也都是可以hold住的哦~

項(xiàng)目一出，也是引發(fā)了不少網(wǎng)友的關(guān)注，有人在看過效果之后直呼“Unbelievable”~

那么如此效果，這項(xiàng)研究又是如何做到的呢？

背后原理

雖然像Stable Video Diffusion和Gen2等文本到視頻（text-to-video，T2V）模型的出現(xiàn)，在視頻生成方面取得了突破性進(jìn)展，但現(xiàn)在仍然有諸多挑戰(zhàn)需要面對(duì)。

例如在數(shù)據(jù)集方面，目前缺乏開源的人類舞蹈視頻數(shù)據(jù)集以及難以獲得相應(yīng)的精確文本描述，這就使得讓模型們?nèi)ド啥鄻有?、幀一致性、時(shí)長(zhǎng)更長(zhǎng)的視頻成為挑戰(zhàn)。

并且在以人為中心的內(nèi)容生成領(lǐng)域，生成結(jié)果的個(gè)性化和可控性也是關(guān)鍵因素。

面對(duì)這兩大難點(diǎn)，阿里團(tuán)隊(duì)先從數(shù)據(jù)集著手做處理。

研究者們首先從互聯(lián)網(wǎng)收集了大約1000個(gè)高質(zhì)量的人類舞蹈視頻。然后，他們將這些視頻分割成大約6000個(gè)短視頻（每個(gè)視頻8至10秒），以確保視頻片段中沒有轉(zhuǎn)場(chǎng)和特殊效果，這樣有利于時(shí)間模塊的訓(xùn)練。

此外，為了生成視頻的文本描述，他們使用了Minigpt-v2作為視頻字幕器（video captioner），特別采用了“grounding”版本，指令是詳細(xì)描述這個(gè)幀。

基于關(guān)鍵幀中心幀生成的字幕代表了整個(gè)視頻片段的描述，主要是準(zhǔn)確描述主題和背景內(nèi)容。

在框架方面，阿里團(tuán)隊(duì)則是提出了一個(gè)名叫DreaMoving、基于Stable Diffusion的模型。

它主要由三個(gè)神經(jīng)網(wǎng)絡(luò)來構(gòu)成，包括去噪U(xiǎn)-Net（Denoising U-Net）、視頻控制網(wǎng)絡(luò)（Video ControlNet）和內(nèi)容引導(dǎo)器（Content Guider）。