小鵬公然AI“造假” 嘖嘖嘖

來(lái)源：量子位編輯：非小米時(shí)間：2024-02-07 13:45人閱讀

#小鵬汽車(chē) #何小鵬

家人們，我們先來(lái)看一段視頻，你能否發(fā)現(xiàn)其中有什么異樣？

如果說(shuō)，在這段視頻里，有一個(gè)物件是假的，是被合成進(jìn)去的，你能發(fā)現(xiàn)嗎？

小鵬公然AI“造假” 嘖嘖嘖

不賣(mài)關(guān)子，現(xiàn)在就來(lái)揭曉答案。

“造假”的物體，正是這個(gè)出現(xiàn)在不該出現(xiàn)位置的紅綠燈。

我們?cè)賮?lái)玩一把“大家來(lái)找茬”，請(qǐng)看題目：

答案是：放在置物架上的這個(gè)設(shè)備。

這就是來(lái)自小鵬汽車(chē)最新的一項(xiàng)研究——Anything in Any Scene。

主打一個(gè)往真實(shí)環(huán)境里毫無(wú)違和感地“塞”進(jìn)去任何東西。

并且研究團(tuán)隊(duì)給予這個(gè)通用框架的評(píng)價(jià)是：

它的應(yīng)用遠(yuǎn)遠(yuǎn)超出了視頻數(shù)據(jù)增強(qiáng)的范圍，在虛擬現(xiàn)實(shí)、視頻編輯和其他各種以視頻為中心的應(yīng)用中顯示出巨大的潛力。

甚至有網(wǎng)友在看完效果之后直呼：

再見(jiàn)了視頻證據(jù)~這個(gè)技術(shù)插入視頻的物體可以保持與原始素材相同的真實(shí)感。

那么這項(xiàng)AI技術(shù)更多效果如何，我們繼續(xù)往下看。

Anything in Any Scene

先從室外場(chǎng)景來(lái)看下效果。

在視頻中合成某個(gè)物體的時(shí)候，往往不逼真的原因，可以總結(jié)為位置放置錯(cuò)誤、無(wú)陰影、無(wú)HDR和無(wú)樣式遷移等原因。

正如下面幾個(gè)錯(cuò)誤案例所示：

而小鵬團(tuán)隊(duì)的效果，是這樣的：

相比剛才缺少各種因素的情況而言，效果顯然是相對(duì)逼真的。

再與其它已有的算法和框架做比較，例如DoveNet、StyTR2和PHDiffusion，它們?cè)谑彝鈭?chǎng)景中合成物體的效果是這樣的：

小鵬的Anything in Any Scene從效果上來(lái)看，依舊是相對(duì)更為逼真。

同樣的，在室內(nèi)環(huán)境中，不論是包包還是鞋子，小鵬新AI技術(shù)所生成的效果可以說(shuō)是真假難辨的那種了。

更多的效果展示如下圖所示：

除了視覺(jué)效果之外，小鵬團(tuán)隊(duì)在CODA數(shù)據(jù)集的原始圖像上，將訓(xùn)練的YOLOX模型的性能與Anything in Any Scene框架在原始和增強(qiáng)圖像的組合上訓(xùn)練時(shí)的性能進(jìn)行了比較。

從整體精度上來(lái)看也有了不小的提高。

怎么做到的？

從此次提出的框架上來(lái)看，Anything in Any Scene主要由三個(gè)關(guān)鍵部分組成。

首先是物體放置和穩(wěn)定化的過(guò)程。

團(tuán)隊(duì)先確定相機(jī)在場(chǎng)景中的世界坐標(biāo)系位置，并將其作為物體插入的參考點(diǎn)；使用相機(jī)的內(nèi)參矩陣和姿態(tài)（旋轉(zhuǎn)矩陣和位移向量）將世界坐標(biāo)系中的點(diǎn)投影到像素坐標(biāo)系中，以確定物體在視頻幀中的放置位置。

為了避免與場(chǎng)景中其他物體的遮擋，團(tuán)隊(duì)還使用語(yǔ)義分割模型估計(jì)每個(gè)幀的分割掩模，并確保物體放置在未被遮擋的區(qū)域。

在物體穩(wěn)定化方面，團(tuán)隊(duì)在連續(xù)幀之間估計(jì)光流，以跟蹤物體的運(yùn)動(dòng)軌跡；并通過(guò)優(yōu)化相機(jī)姿態(tài)（旋轉(zhuǎn)矩陣和位移向量），最小化物體在連續(xù)幀中的3D到2D投影誤差，確保物體在視頻中的穩(wěn)定運(yùn)動(dòng)。

其次，是光照估計(jì)和陰影生成。

針對(duì)HDR全景圖像重建，團(tuán)隊(duì)使用圖像修復(fù)網(wǎng)絡(luò)推斷全景視圖的光照分布，然后通過(guò)天空HDR重建網(wǎng)絡(luò)將全景圖像轉(zhuǎn)換為HDR圖像；并結(jié)合使用GAN訓(xùn)練編碼器-解碼器網(wǎng)絡(luò)來(lái)模擬太陽(yáng)和天空的亮度分布。

在環(huán)境HDR圖像重建方面，研究人員則是收集了場(chǎng)景的多視角LDR圖像，并通過(guò)現(xiàn)有模型恢復(fù)為HDR圖像，以學(xué)習(xí)連續(xù)曝光值表示。

在物體陰影生成上，團(tuán)隊(duì)則是使用3D圖形應(yīng)用（如Vulkan）和光線追蹤技術(shù)，根據(jù)估計(jì)的主要光源位置生成插入物體的陰影。