楊冪+小蘭會(huì)是什么樣 中山大學(xué)新AI成果:人臉個(gè)性化SOTA
只需上傳一張照片,就能瞬間變換身份,獲得高精度個(gè)人寫真!
或是科幻電影中的超級(jí)英雄,或是穿越時(shí)空的復(fù)古角色……
李飛飛在家做飯的樣子有了,還有讓斯嘉麗一鍵帶圣誕帽。
除此之外,楊冪+小蘭兩位人臉融合在一起會(huì)是什么樣子?
中山大學(xué)、聯(lián)想的研究團(tuán)隊(duì)推出了ConsistentID,可在細(xì)粒度多模態(tài)面部提示下,僅利用單張參考圖像生成多樣的肖像,且保持五官的一致性。
最終在人臉個(gè)性化任務(wù)處理上,相比騰訊的photomaker和小紅書的instantID,在五官一致性保持上更具優(yōu)勢(shì)
只需單張照片就可快速保留五官細(xì)節(jié)
ConsistentID框架包括兩個(gè)關(guān)鍵模塊:多模態(tài)面部 ID 生成器和ID保存網(wǎng)絡(luò)。
多模態(tài)面部提示生成器由兩個(gè)基本組件組成:細(xì)粒度多模態(tài)特征提取器,專注于捕獲詳細(xì)的面部信息,以及用來學(xué)習(xí)面部ID特征的提取器。
另一方面,ID保存網(wǎng)絡(luò)同時(shí)利用面部文本和視覺提示,通過面部注意力定位策略防止來自不同面部區(qū)域的 ID 信息混合。
這種方法確保了面部區(qū)域ID一致性的保存。
多模態(tài)面部提示生成器
首先在細(xì)粒度多模態(tài)特征提取器這一模塊中,使用了包括文本嵌入、面部嵌入和面部編碼器這三個(gè)關(guān)鍵組件。需要獨(dú)立學(xué)習(xí)細(xì)粒度的面部視覺和文本嵌入,并將它們輸入到設(shè)計(jì)的輕量級(jí)面部編碼器中,以生成細(xì)粒度的多模態(tài)面部特征。
△用于生成細(xì)粒度多模態(tài)面部特征的面部編碼器框架。
面部ID特征提取器。
除了細(xì)粒度面部特征的輸入條件外,我們還將字符的整體 ID 信息注入到我們的 ConsistentID 中作為視覺提示。具體來說,將完整的人臉圖像同時(shí)輸入到兩個(gè)編碼器中進(jìn)行視覺特征提取。在這兩個(gè)編碼器之后,使用由 IPA-FaceID-Plus 初始化的參數(shù)的輕量級(jí)投影模塊來生成整個(gè)圖像的人臉嵌入。
ID保存網(wǎng)絡(luò)。
通過引導(dǎo)面部特征的注意力與相應(yīng)的面部區(qū)域?qū)R來保持局部 ID 特征的一致性。這種優(yōu)化策略源于觀察到傳統(tǒng)的交叉注意力圖傾向于同時(shí)關(guān)注整個(gè)圖像,這對(duì)在面部區(qū)域生成期間保持 ID 特征提出了挑戰(zhàn)。為了解決這個(gè)問題,我們?cè)谟?xùn)練期間引入了面部分割掩碼,以從面部區(qū)域的增強(qiáng)文本交叉注意模塊中學(xué)習(xí)到的注意力分?jǐn)?shù)。
除此之外,研究團(tuán)隊(duì)還引入了測(cè)量細(xì)粒度面部生成數(shù)據(jù)集 FGID,解決了現(xiàn)有數(shù)據(jù)集中用于捕獲不同身份保留面部細(xì)節(jié)的局限性。
該數(shù)據(jù)集包括面部區(qū)域和整個(gè)面部的面部特征和描述,輔以一種新穎的細(xì)粒度身份一致性度量,建立了細(xì)粒度面部生成性能的綜合評(píng)估框架。
具體效果
在面部特征比較上,該方法生成的圖像在眼睛、鼻子和嘴巴等面部特征中表現(xiàn)出很強(qiáng)的一致性。
在定性評(píng)估中,研究團(tuán)隊(duì)對(duì)目前最先進(jìn)方法,包括Fastcomposer,IP-Adapter、Photomaker和InstantID進(jìn)行來比較分析,對(duì)每種方法使用默認(rèn)參數(shù),并將推理限制為單個(gè)參考圖像。
除此之外,還與Photomaker方法對(duì)齊,使用 Mystyle數(shù)據(jù)集進(jìn)行定量評(píng)估,并結(jié)合超過10個(gè)身份數(shù)據(jù)集進(jìn)行可視化。
最終可以看到,ConsistentID在高質(zhì)量生成、靈活的可編輯性和強(qiáng)大的身份保真度方面表現(xiàn)出更強(qiáng)大的能力。
而在定量評(píng)估中,在大多數(shù)評(píng)估指標(biāo)中,ConsistentID始終優(yōu)于其他方法,并且在生成效率方面超過了其他基于IP-Adapter的方法。
△在風(fēng)格化和動(dòng)作指令兩個(gè)特殊任務(wù)上的定性比較
試玩鏈接:http://consistentid.natapp1.cc/
項(xiàng)目鏈接:
[1]https://github.com/JackAILab/ConsistentID
[2]https://ssugarwh.github.io/consistentid.github.io/
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請(qǐng)來信告知我們刪除。郵箱:business@qudong.com