訂閱
糾錯(cuò)
加入自媒體

6倍極速生成無限時(shí)長人像視頻!復(fù)旦&微軟最新FlashPortrait:讓你成為數(shù)字人面具背后的TA

作者:Shuyuan Tu、Zhen Xing等

解讀:AI生成未來

亮點(diǎn)直擊

提出了一種基于滑動(dòng)窗口的自適應(yīng)潛變量預(yù)測加速機(jī)制。該方法無需額外訓(xùn)練,僅在推理階段激活,可在保持無限長度人像動(dòng)畫身份一致性的同時(shí)實(shí)現(xiàn)6倍加速。首個(gè)探索視頻擴(kuò)散模型以加速身份保持型無限長度人像動(dòng)畫生成的研究。

設(shè)計(jì)了一種新型歸一化面部表情模塊,用于對(duì)齊擴(kuò)散潛變量與面部特征的分布中心,從而增強(qiáng)去噪過程中的身份穩(wěn)定性。

在多個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的模型優(yōu)于當(dāng)前最先進(jìn)方法。

在電影制作、虛擬助手、直播帶貨等領(lǐng)域,人像動(dòng)畫技術(shù)始終追求著 “無限時(shí)長、高保真、身份穩(wěn)定” 的終極目標(biāo)。隨著擴(kuò)散模型的興起,音頻驅(qū)動(dòng)或視頻驅(qū)動(dòng)的人像生成技術(shù)取得了顯著進(jìn)展,但現(xiàn)有方案卻面臨著難以調(diào)和的核心矛盾:要么生成時(shí)長受限(超過20秒即出現(xiàn)身體扭曲、身份漂移),要么推理速度緩慢(生成20秒視頻需數(shù)分鐘),嚴(yán)重制約了技術(shù)的工業(yè)化落地。當(dāng)前基于擴(kuò)散模型的人像動(dòng)畫技術(shù),在長時(shí)長、高速推理、高一致性的要求下,暴露出三大核心缺陷:

(1)身份一致性缺失:擴(kuò)散潛變量與面部表情特征的分布中心差異過大,導(dǎo)致生成視頻易出現(xiàn)面部扭曲、顏色漂移、身份特征模糊等問題;

(2)推理速度緩慢:傳統(tǒng)擴(kuò)散模型需逐幀完成完整去噪流程,生成 20 秒視頻往往需要數(shù)十分鐘,難以滿足實(shí)時(shí)應(yīng)用場景;

(3)長視頻銜接生硬:采用片段切割拼接或簡單滑窗策略時(shí),視頻片段間過渡突兀,缺乏流暢性與連貫性,F(xiàn)有加速方案(如緩存復(fù)用、知識(shí)蒸餾)要么僅適用于小幅運(yùn)動(dòng)場景,要么需付出巨大計(jì)算成本,且無法解決長視頻中的身份漂移問題。因此,開發(fā)一款兼顧速度、時(shí)長與一致性的人像動(dòng)畫框架,成為工業(yè)界迫切需求。

為了解決上述問題,來自復(fù)旦、微軟、西交等研究團(tuán)隊(duì)提出FlashPortrait框架,以實(shí)現(xiàn)6倍推理加速的無限時(shí)長人像視頻生成,目前代碼已開源,包括推理代碼和訓(xùn)練代碼。

方法簡介

如下圖所示,F(xiàn)lashPortrait 基于 Wan2.1-14B 基座模型開發(fā),通過三大核心技術(shù)模塊,構(gòu)建了 “特征對(duì)齊-流暢銜接-高速生成” 的完整技術(shù)路線。

1. 歸一化面部表情模塊(Normalized Facial Expression Block)

針對(duì)擴(kuò)散潛變量與面部特征分布差異導(dǎo)致的身份漂移問題,F(xiàn)lashPortrait 設(shè)計(jì)了歸一化面部表情模塊,通過分布對(duì)齊技術(shù),實(shí)現(xiàn)跨幀身份一致性的精準(zhǔn)把控,具體而言,首先利用預(yù)訓(xùn)練面部編碼器(PD-FGC)從驅(qū)動(dòng)視頻中提取頭部姿態(tài)、眼部動(dòng)作、情緒狀態(tài)、嘴部運(yùn)動(dòng)等原生面部表情特征,再通過自注意力機(jī)制與前饋網(wǎng)絡(luò)(FFN)增強(qiáng)面部整體布局感知。然后計(jì)算處理后表情特征與擴(kuò)散潛變量的均值和方差,通過歸一化操作將兩者分布中心對(duì)齊,消除分布差異帶來的身份不穩(wěn)定問題,將歸一化后的面部特征與參考圖像的 CLIP 編碼特征進(jìn)行交叉注意力融合,通過逐元素相加注入擴(kuò)散模型,確保生成過程中面部細(xì)節(jié)與身份特征的精準(zhǔn)保留。

2. 加權(quán)滑窗策略(Weighted Sliding-Window Strategy)

將長視頻劃分為多個(gè)重疊窗口,窗口重疊長度設(shè)為v(v=5),確保相鄰窗口存在部分共享幀,在重疊區(qū)域采用算術(shù)插值權(quán)重,對(duì)相鄰窗口的潛變量進(jìn)行加權(quán)融合()。融合后的潛變量回注至相鄰窗口,使窗口邊界由混合特征構(gòu)成,避免片段銜接處的突兀過渡,實(shí)現(xiàn)長視頻的流暢連貫生成。

3. 自適應(yīng)潛變量預(yù)測加速機(jī)制(Adaptive Latent Prediction Acceleration)

為突破傳統(tǒng)擴(kuò)散模型逐幀去噪的速度瓶頸,F(xiàn)lashPortrait 創(chuàng)新提出自適應(yīng)潛變量預(yù)測加速機(jī)制,通過高階導(dǎo)數(shù)預(yù)測跳過冗余去噪步驟,實(shí)現(xiàn)6倍速推理。首先利用泰勒級(jí)數(shù)展開,基于歷史潛變量的高階差分近似未來潛變量,即,其中通過有限差分替代復(fù)雜的導(dǎo)數(shù)計(jì)算,降低計(jì)算成本。針對(duì)人像動(dòng)畫中面部運(yùn)動(dòng)幅度大、潛變量波動(dòng)劇烈的問題,設(shè)計(jì)兩大動(dòng)態(tài)調(diào)整函數(shù):(1)潛變量變化率函數(shù)(), 根據(jù)當(dāng)前時(shí)步潛變量變化速度與平均變化速度的比值,動(dòng)態(tài)調(diào)整預(yù)測步長,避免大幅運(yùn)動(dòng)時(shí)預(yù)測失真。(2)跨層導(dǎo)數(shù)權(quán)重函數(shù)(), 根據(jù)不同擴(kuò)散層的導(dǎo)數(shù)幅度差異,動(dòng)態(tài)調(diào)整權(quán)重,解決低層紋理特征與高層結(jié)構(gòu)特征的預(yù)測誤差問題。通過上述預(yù)測機(jī)制,擴(kuò)散模型僅需對(duì)部分關(guān)鍵時(shí)步進(jìn)行完整去噪,即可直接預(yù)測未來多個(gè)時(shí)步的潛變量,最終實(shí)現(xiàn)跳過冗余去噪步驟,達(dá)到6倍速推理加速。

生成結(jié)果示例

實(shí)驗(yàn)對(duì)比

結(jié)論

FlashPortrait,該模型配備專門設(shè)計(jì)的訓(xùn)練與推理機(jī)制,能夠生成具有身份保持特性的無限長度人像動(dòng)畫,并在推理速度上實(shí)現(xiàn)了高達(dá)6倍的加速。FlashPortrait首先利用現(xiàn)有成熟模型提取與身份無關(guān)的面部表情特征。為提升身份穩(wěn)定性,模型引入了歸一化面部表情模塊以優(yōu)化表情特征。在推理階段,為確保長視頻的流暢性與身份一致性,F(xiàn)lashPortrait提出了加權(quán)滑動(dòng)窗口策略。在每個(gè)上下文窗口中,進(jìn)一步引入自適應(yīng)潛變量預(yù)測加速機(jī)制,以跳過部分去噪步驟,從而實(shí)現(xiàn)6倍推理加速。多數(shù)據(jù)集實(shí)驗(yàn)結(jié)果表明,本文模型在合成無限長度、身份保持的人像動(dòng)畫方面具有顯著優(yōu)勢,且推理速度大幅提升。

參考文獻(xiàn)

[1] FlashPortrait: 6 × Faster Infinite Portrait Animationwith Adaptive Latent Prediction

       原文標(biāo)題 : 6倍極速生成無限時(shí)長人像視頻!復(fù)旦&微軟最新FlashPortrait:讓你成為數(shù)字人面具背后的TA

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請輸入評(píng)論內(nèi)容...

請輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)