魚羊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
何愷明團(tuán)隊(duì)新作,持續(xù)聚焦Flow模型。
與MeanFlow對(duì)流匹配的優(yōu)化不同,這次主要旨在解決歸一化流在生成模型中的局限。

論文提出名為雙向歸一化流(BiFlow)的新框架,通過解耦前向過程——將數(shù)據(jù)映射為噪聲,和逆向過程——把噪聲再轉(zhuǎn)回來生成圖片,成功打破了傳統(tǒng)歸一化流生成模型效率低下的問題。
值得一提的是,論文的三位一作分別是來自清華姚班和MIT的本科生。
BiFlow:逆向過程不必是前向過程的精確逆運(yùn)算
歸一化流方法(NFs)已經(jīng)成為生成建模的一種原則性框架。
標(biāo)準(zhǔn)的歸一化流包含前向過程和逆向過程:
前向過程將數(shù)據(jù)映射為噪聲,逆向過程則通過對(duì)前向過程求逆來生成樣本。
傳統(tǒng)的NF模型有一個(gè)硬性規(guī)定,逆向過程必須是前向過程的精確逆運(yùn)算——要像鑰匙和鎖一樣完全匹配。這就導(dǎo)致了兩個(gè)問題:
模型設(shè)計(jì)受限:因?yàn)橐WC “可逆”,不能使用很多強(qiáng)大的通用架構(gòu)(比如視覺Transformer),得特意設(shè)計(jì)復(fù)雜結(jié)構(gòu);
推理速度慢:由于架構(gòu)約束,歸一化流通常需要比其他模型更深、更寬的網(wǎng)絡(luò)才能達(dá)到相似效果。以TARFlow為例,逆向生成時(shí)需要一步步按順序計(jì)算,并且無法并行加速。

BiFlow的核心創(chuàng)新就在于,打破了“逆向過程必須是前向過程的精確逆運(yùn)算”這一規(guī)則。
設(shè)計(jì)思路是這樣的:
BiFLow解耦了前向過程和逆向過程的設(shè)計(jì)。
前向模型仍然使用易于訓(xùn)練的流模型(如改進(jìn)版TARFlow),將數(shù)據(jù)映射為噪聲。
逆向模型則引入一個(gè)可學(xué)習(xí)的獨(dú)立模型,來近似前向模型的逆映射。
由此,逆向模型不需要是前向模型的數(shù)學(xué)精確逆,可以使用任意架構(gòu)(如非因果的雙向Transformer)來實(shí)現(xiàn)并行化和高效計(jì)算。
逆向模型也可以在單次前向傳遞中,直接從噪聲生成圖像,無需像自回歸模型那樣逐步生成。
具體來說,何愷明團(tuán)隊(duì)的這篇新論文提出了三項(xiàng)關(guān)鍵技術(shù)。
隱藏層對(duì)齊(Hidden Alignment)
為了解決獨(dú)立逆向模型容易跑偏的問題,論文提出了一種新的損失函數(shù)策略,既利用了全軌跡監(jiān)督,又保持了架構(gòu)的靈活性:
利用前向過程的完整中間狀態(tài)軌跡(數(shù)據(jù)→半噪聲→純?cè)肼暎┳鳛楸O(jiān)督信號(hào);
通過可學(xué)習(xí)的投影頭,將逆向模型的中間狀態(tài)與前向狀態(tài)對(duì)齊。

學(xué)習(xí)去噪(Learned Denoising)
傳統(tǒng)NF方法(如TARFlow)推理時(shí)需要額外去噪,會(huì)增加計(jì)算量。
BiFlow將去噪步驟直接整合進(jìn)逆向模型的一個(gè)額外模塊中,實(shí)現(xiàn)了“端到端”的從噪聲到清晰數(shù)據(jù)的映射,消除了額外的推理開銷。

訓(xùn)練時(shí)無分類器引導(dǎo)(Training-time CFG)
為了在推理時(shí)保持單步生成(1-NFE)的高效性,BiFlow在訓(xùn)練階段就引入了無分類器引導(dǎo)(CFG),讓模型學(xué)習(xí)以CFG比例為條件的生成,從而避免了推理時(shí)計(jì)算兩次前向傳播的成本。
實(shí)驗(yàn)結(jié)果:速度提升兩個(gè)數(shù)量級(jí)
實(shí)驗(yàn)結(jié)果顯示,在生成質(zhì)量方面,BiFlow在ImageNet 256×256數(shù)據(jù)集上,取得了2.39的FID分?jǐn)?shù),刷新目前基于NF方法的SOTA。

在推理速度方面,相比于基線方法(改進(jìn)版TARFlow),BiFlow的采樣速度提升了兩個(gè)數(shù)量級(jí)(在TPU上快697倍)。

另外,BiFlow憑借雙向映射特性,無需額外訓(xùn)練即可實(shí)現(xiàn)圖像修復(fù)和類別編輯兩類圖像編輯任務(wù)。
本科生領(lǐng)銜
BiFlow有兩位項(xiàng)目負(fù)責(zé)人。
陸伊煬,江蘇南通人,清華姚班大二本科生,目前在MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)實(shí)習(xí),導(dǎo)師是何愷明,主要研究方向?yàn)橛?jì)算機(jī)視覺和深度生成模型。

高中時(shí)期,他是物理競賽生,曾以江蘇選手中第一名、全國第九名的成績,在2022年獲得了第三十九屆全國中學(xué)生物理競賽(CPhO)金牌。
Qiao Sun,MIT大二本科生,目前是何愷明計(jì)算機(jī)視覺課題組的本科生研究機(jī)會(huì)項(xiàng)目(UROP)學(xué)生。研究主要集中在生成模型方面,如擴(kuò)散模型、流匹配等。

Qiao Sun高中畢業(yè)于上海中學(xué),是2023年國際數(shù)學(xué)奧林匹克競賽(IMO)金牌得主。
論文的另一位一作是王銜邦,今年剛從人大附中畢業(yè),進(jìn)入MIT學(xué)習(xí)。他的導(dǎo)師同樣是何愷明。

王銜邦還是一名雙料競賽生,在2024年IMO上摘得金牌,還在2021年和2022年獲得過全國信息學(xué)奧林匹克競賽的銀牌。
論文地址:
https://arxiv.org/abs/2512.10953v1
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
—?完?—
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見


