訂閱
糾錯
加入自媒體

硬剛GPT-Image-1?蘋果最新UniGen-1.5強勢發(fā)布:一個模型搞定理解+生成+編輯!

2025-11-24 17:22
AI生成未來
關注

作者:Rui Tian等

解讀:AI生成未來

亮點直擊

推出UniGen-1.5統(tǒng)一多模態(tài)大模型,通過創(chuàng)新的架構設計與訓練流程,實現(xiàn)了先進的圖像理解、生成與編輯能力融合。

開創(chuàng)統(tǒng)一強化學習訓練框架,借助共享獎勵模型協(xié)同優(yōu)化圖像編輯與生成任務,顯著提升雙任務性能表現(xiàn)。

提出后SFT階段的編輯指令對齊機制,通過強化編輯指令理解能力,大幅提升模型編輯效果。

UniGen-1.5在多項任務中達到業(yè)界領先水平:如下圖1所示,在圖像編輯任務(ImgEdit基準測試與GPT-Image-1持平)、圖像生成任務(GenEval和DPG-Bench顯著超越BLIP3o)均取得競爭優(yōu)勢,同時在圖像理解任務也表現(xiàn)出色。

總結速覽

解決的問題

能力割裂:需要一種能同時處理高級圖像理解、生成與編輯任務的統(tǒng)一模型,以克服傳統(tǒng)模型中這些能力相互割裂的局限。

協(xié)同優(yōu)化:如何協(xié)同優(yōu)化圖像生成與編輯這兩個密切相關但又存在技術差異的任務,以避免獨立優(yōu)化帶來的效率低下和性能瓶頸。

指令理解:在圖像編輯任務中,模型對復雜、精細的編輯指令的理解精度不足,制約了最終編輯效果的成功率與質量。

提出的方案

核心模型:推出UniGen-1.5統(tǒng)一多模態(tài)大語言模型,旨在融合圖像理解、生成與編輯三大能力。

訓練框架:構建統(tǒng)一強化學習訓練框架,利用共享獎勵模型同時優(yōu)化圖像生成和圖像編輯任務。

性能優(yōu)化:引入一個輕量級的后SFT(監(jiān)督微調)編輯指令對齊階段,專門用于提升模型對編輯指令的精準理解與執(zhí)行能力。

應用的技術

多模態(tài)大語言模型架構:作為模型的基礎能力支撐。

統(tǒng)一強化學習策略:核心訓練技術,通過共享獎勵實現(xiàn)生成與編輯任務的協(xié)同優(yōu)化。

編輯指令對齊機制:一種針對性的后訓練技術,用于微調并增強模型的指令遵循能力。

達到的效果

性能領先:在GenEval和ImgEdit等權威基準測試中取得了具有競爭力的分數(shù)(分別為0.89和4.31),綜合性能超越了BAGEL等先進開源模型,并與GPT-Image-1等頂尖閉源模型性能相當。

全面卓越:在圖像生成(顯著超越BLIP3o)、圖像編輯(與GPT-Image-1持平)和圖像理解(與Show-o2性能相當)多項任務上均展現(xiàn)出業(yè)界領先的競爭力。

能力融合:成功在一個統(tǒng)一模型中解鎖并協(xié)同增強了圖像理解、生成與編輯三大核心能力。

方法

架構

本文在預訓練大語言模型Qwen2.5-7B基礎上構建UniGen-1.5,并分別采用獨立的編碼器處理理解與生成任務。如下圖2所示,視覺生成任務使用離散視覺分詞器MAGViTv2 ,視覺理解任務則采用連續(xù)視覺編碼器SigLIP2。

對于圖像理解, 采用SigLIP2作為視覺編碼器。相比固定輸入分辨率(如384×384)的SigLIP,SigLIP2可接收任意寬高比的變尺寸輸入圖像,這對保持圖像原始信息至關重要。輸入圖像將根據(jù)其原始尺寸被映射為一組連續(xù)令牌。遵循LLaVA的工作流程,本文通過基于MLP的投影器將圖像與文本嵌入對齊至同一空間,隨后將視覺嵌入與文本嵌入共同輸入LLM,通過下一令牌預測生成響應(上圖2(a))。

對于文本到圖像生成, 基本沿用UniGen的設置,以掩碼令牌預測作為訓練目標。對于每張圖像,本文通過生成分詞器將其編碼為離散令牌序列。模型訓練目標是根據(jù)文本提示生成目標圖像令牌。訓練過程中,根據(jù)掩碼調度函數(shù) 的掩碼率,本文為每個令牌隨機采樣二值掩碼。對于掩碼值為1的令牌,將其對應的離散圖像令牌替換為特殊掩碼令牌[MASK]以形成最終輸入圖像序列。如上圖2(b)所示,LLM接收文本提示和掩碼后的圖像序列令牌作為輸入,并以預測被掩碼的視覺令牌為優(yōu)化目標。推理階段,圖像生成從全掩碼令牌開始,通過多輪掩碼令牌預測完成生成。圖像生成分辨率設置為384×384。

對于圖像編輯, 在監(jiān)督微調階段解鎖該能力。給定條件圖像和編輯文本提示,本文聯(lián)合使用理解編碼器和生成分詞器,分別獲取 和 ,以從條件圖像中提取連續(xù)(語義)特征和離散(底層)特征。本文將條件圖像調整為384×384進行特征提取以確保捕獲足夠細節(jié)。通過MLP層將特征投影至聯(lián)合空間后,本文按序拼接語義視覺嵌入、文本嵌入和底層視覺嵌入(上圖2(c)),并將組裝后的序列作為圖像編輯條件輸入LLM。目標是生成輸出圖像的離散視覺令牌,其中。與文本到圖像生成類似,本文采用掩碼令牌預測策略進行圖像令牌預測。編輯任務生成分辨率設置為384×384。

預訓練

在UniGen-1.5的預訓練階段,旨在通過大規(guī)模對齊良好的圖文對數(shù)據(jù)建立基礎的視覺描述與生成能力。具體而言,本文采用UniGen包含細粒度標注的預訓練數(shù)據(jù),包括ImageNet、CC-3M、CC-12M和SAM-11M。同時引入少量RefinedWeb的純文本訓練數(shù)據(jù)以保持LLM的基礎語言能力。為簡化流程,本文僅設置單一預訓練階段,并解凍除和外的所有參數(shù)。本階段包含圖像理解與文本到圖像生成任務,生成與理解的圖像輸入分辨率均設為384×384。本文按3:2:1的比例從圖像生成、圖像理解和文本理解任務中采樣數(shù)據(jù)構建訓練批次。

監(jiān)督微調

在監(jiān)督微調階段,通過更強化的數(shù)據(jù)混合方案提升UniGen-1.5的生成與理解性能,并通過聯(lián)合訓練激發(fā)其圖像編輯能力。

圖像生成與編輯。 采用前文中介紹的架構進行圖像生成與編輯。受前人工作的啟發(fā),本文通過添加BLIP-3o和ShareGPT-4o-Image提出的高質量樣本擴展訓練數(shù)據(jù)。同時,通過引入來自ShareGPT-4o-Image和GPT-Image-Edit-1.5M的圖像編輯數(shù)據(jù)解鎖編輯能力。

圖像理解。 采用SlowFast-LLaVA-1.5的圖像數(shù)據(jù)混合方案以增強圖像理解的指令遵循能力。為在保持訓練效率的同時促進模型感知輸入圖像的細微特征,本文按以下規(guī)則調整輸入圖像尺寸:(1) 寬度和高度需為16的倍數(shù)以確保與編碼器 patch 尺寸兼容;(2) 調整后圖像寬高比需最接近原始比例;(3) 在視覺令牌數(shù)的約束下最大化輸入分辨率(該令牌數(shù)約等于768×768圖像提取的令牌數(shù))。

聯(lián)合SFT訓練。 與預訓練階段類似,本文在每個訓練步驟中同步優(yōu)化生成(文本到圖像生成或圖像編輯)、圖像理解和文本理解三項任務,訓練樣本比例設置為3:4:1。實踐中,本文交替使用文本到圖像生成和圖像編輯任務的輪詢采樣以提高訓練穩(wěn)定性。經(jīng)過此聯(lián)合SFT訓練后,UniGen-1.5即具備新的圖像編輯能力。

編輯指令對齊

在強化學習的初步實驗中,發(fā)現(xiàn)對于具有挑戰(zhàn)性的編輯指令,模型生成的候選圖像往往全部無法滿足指令要求,導致獎勵值的標準差過小。在此情況下,GRPO獲得的學習信號較弱,難以有效改進策略。本文將此問題歸因于模型對復雜編輯指令的理解能力不足,因而無法準確推斷輸出圖像的語義內(nèi)容。

為緩解此問題,本文引入編輯指令對齊作為后SFT階段,以增強編輯指令與期望輸出語義內(nèi)容之間的對齊。如下圖3所示,UniGen-1.5以條件圖像和編輯指令作為輸入,通過預測預期輸出圖像的文本描述進行優(yōu)化——這構成了通往最終視覺生成的關鍵橋梁。該過程使模型能更準確地理解編輯意圖,從而在RL階段生成語義連貫且多樣化的候選圖像,并提供信息豐富的學習信號。

強化學習

本文通過采用分組相對策略優(yōu)化(GRPO)的強化學習階段來提升UniGen-1.5的整體視覺生成質量。盡管系列研究已證明GRPO在提升文本到圖像生成性能方面的有效性,但其對更廣義視覺生成(如圖像編輯)的影響仍待探索。在UniGen-1.5中提出統(tǒng)一文本到圖像生成與圖像編輯的RL訓練(下圖4)。具體而言,通過測量圖像與其對應文本描述間的語義對齊度來評估兩類任務輸出圖像的質量。

RL公式設定。 以后SFT模型為初始化,UniGen-1.5作為策略模型,接收不同條件輸入并生成對應的視覺令牌序列。對于文本到圖像任務,條件僅為提示詞的文本嵌入;對于編輯任務,則基于、編輯文本嵌入和生成圖像。訓練過程中,本文從采樣個序列作為輸出候選,每個候選將獲得標量獎勵。這些獎勵用于計算如公式3.1所示的分組歸一化優(yōu)勢度。

本文策略模型的參數(shù)通過優(yōu)化公式3.2中的訓練目標進行更新,其中  表示參考策略(初始策略), 代表重要性采樣比率, 表示更新前的舊策略。

共享獎勵模型。 設計編輯獎勵本質上比設計文本到圖像生成的獎勵更具挑戰(zhàn)性,因為視覺編輯通常具有細微性、局部性且高度依賴上下文。此外,訓練專用的編輯獎勵模型需要大量人工標注成本來收集跨類別的大規(guī)模圖像編輯數(shù)據(jù),并獲取符合人類偏好的高質量標簽。這些挑戰(zhàn)使得大規(guī)模構建可靠的編輯獎勵極為困難。為此,本文提出利用穩(wěn)健成熟的文本到圖像獎勵模型來評估編輯后圖像。

具體而言,通過評估兩項任務的質量,引入圖像生成與編輯的統(tǒng)一強化學習公式,其中表示共享獎勵函數(shù),指像素空間中的生成圖像,指預期輸出的文本描述。對于文本到圖像生成,本文直接使用真實文本提示作為;對于圖像編輯,則使用Qwen2.5-72B合成的文本描述。相信強大LLM能夠可靠反映視覺差異,在其描述中捕捉編輯圖像的細節(jié)與布局,無論修改幅度大小。受T2I-R1啟發(fā),本文采用集成多樣化視覺專家的方式實現(xiàn),為候選圖像分配獎勵。本文的獎勵模型包括CLIP-H、HPSv2、Unified-Reward-7B和ORM。

實驗

實現(xiàn)細節(jié)

本文使用預訓練Qwen2.5-7B LLM初始化UniGen-1.5,采用來自Show-o的MAGVITv2作為離散視覺編碼器(輸入分辨率384×384),以及siglip2-so400mpatch16-naflex作為連續(xù)視覺編碼器以支持原生圖像分辨率。對于圖像生成和編輯,本文利用MAGVITv2解碼器將視覺令牌投影回像素空間。所有訓練階段中離散與連續(xù)編碼器均保持凍結。

預訓練階段使用96張H100-80G GPU,批次大小設為576,學習率設為。監(jiān)督微調階段使用64張H100-80G GPU,批次大小設為128,學習率設為。在編輯指令對齊階段,本文使用8張H100-80G GPU在收集的Edit-Align數(shù)據(jù)集上訓練500步,批次大小為64。此階段學習率設為并采用余弦調度。為適配推理時的無分類器引導,本文在文本到圖像和圖像編輯任務訓練中隨機丟棄文本提示的概率為10%,而在圖像編輯訓練樣本中丟棄和的概率分別為50%和10%。

GRPO階段本文遵循T2I-R1移除傳統(tǒng)比率裁剪,僅采用顯式KL懲罰正則化約束策略更新。使用8張B200 GPU進行1500步GRPO訓練,學習率設為,批次大小設為32。KL懲罰系數(shù)設為0.01,每個輸入生成個圖像候選。為在最小性能影響下加速訓練,每個圖像候選僅使用16解碼步進行采樣,并禁用無分類器引導。

推理階段遵循MaskGIT使用余弦掩碼調度,默認生成步數(shù)設為50。此外,本文按照慣例采用無分類器引導尺度:文本到圖像生成的引導尺度設為5.0。對于圖像編輯,本文通過以下方式構建帶無分類器引導的生成過程:

其中  表示 UniGen-1.5 的參數(shù), 表示空條件(丟棄條件), 指編輯指令的引導尺度, 指條件圖像的引導尺度。在 ImgEdit 基準測試的評估中,本文分別將  和  設置為 3 和 1.5。

主要結果

本文在下表1、下表2和下表3中將 UniGen-1.5 與最先進的統(tǒng)一 MLLM 進行比較,并根據(jù)實驗結果總結出以下發(fā)現(xiàn):

首先,UniGen-1.5 在圖像編輯基準測試中獲得了有競爭力的性能。如表1所示,UniGen-1.5 在 ImgEdit 上展示了最先進的性能。在不借助外部擴散模型的情況下,UniGen-1.5 以顯著優(yōu)勢領先該基準測試,其總體得分大幅超過 BAGEL 和 OmniGen2 等類似模型規(guī)模的最新模型。值得注意的是,UniGen-1.5 甚至取得了略優(yōu)于 GPT-Image-1 的性能。

其次,UniGen-1.5 在文本到圖像生成基準測試中取得了優(yōu)異的性能。UniGen-1.5 在 GenEval 和 DPG-Bench 上的最終得分分別為 0.89 和 86.83。與 UniGen 相比,在 GenEval 上提高了 0.11,在 DPG-Bench 上提高了 1.6。UniGen-1.5 在 GenEval 上也擊敗了一系列最先進的統(tǒng)一 MLLM,尤其是在"位置"類別上。例如,UniGen-1.5 在總分上顯著優(yōu)于 Show-o2、BLIP3-o 和 BAGEL,分別高出 0.13、0.05 和 0.07 分。在 DPG-Bench 上,UniGen-1.5 大幅超越 BLIP3-o 超過 5 分。

第三,UniGen-1.5 有效改進了 UniGen 在理解基準測試上的表現(xiàn)。如表3所示,UniGen-1.5 在所有基準測試上均顯著提升了 UniGen 的性能。本文將這些改進歸因于三個方面:1) 本文將模型規(guī)模擴展到 7B,增強了統(tǒng)一 MLLM 的整體能力;2) 本文提高了輸入圖像的分辨率并保持原始寬高比,這有利于保留圖像的原始信息;3) 本文執(zhí)行了基于理解的預訓練,緩解了生成和理解訓練目標之間的不匹配。當與類似規(guī)模的其他強大統(tǒng)一 MLLM 比較時,UniGen-1.5 仍然展現(xiàn)出有競爭力的性能,在大多數(shù)基準測試上取得了優(yōu)于 UniToken、MUSE-VL 和 MMaDA 的分數(shù),并與 Show-o2 持平。

消融實驗結果

統(tǒng)一 RL 的影響

RL(GRPO)階段顯著改善了圖像生成和編輯任務。對比下表4中第一行和最后一行,本文觀察到 RL 階段帶來了顯著提升,所有三個基準測試均有明顯進步(GenEval 從 0.85 提升至 0.89,DPG-Bench 從 84.19 提升至 86.83,ImgEdit 從 3.93 提升至 4.31)。本文在圖5中也展示了定性比較。對于文本到圖像任務,UniGen-1.5 在計數(shù)(第一個示例)、位置(第二個示例)和形狀(第三個示例)等多種場景下,展示了文本提示與生成圖像之間更好的語義對齊。對于圖像編輯,本文觀察到 UniGen-1.5 在經(jīng)過 GRPO 后對條件圖像實現(xiàn)了更精細的控制。例如,它成功實現(xiàn)了 GRPO 之前未能完成的"讓貓坐起來"(第一個示例)和"提取玻璃瓶"(最后一個示例)。此外,本文認為 GRPO 并未導致理解性能下降。

在 RL 階段移除文本到圖像或圖像編輯任一任務均會導致性能顯著下降。當在 RL 階段丟棄圖像編輯任務時,圖像生成基準測試(GenEval 和 DPG-Bench)的結果與完整 UniGen-1.5 相當,但 ImgEdit 基準測試得分大幅下降(上表4第2行 vs 第4行)。當在 RL 訓練中移除文本到圖像任務時,本文觀察到文本到圖像生成性能顯著下降。同時保留兩項任務可獲得最佳整體性能。

編輯指令對齊的影響

編輯指令對齊是RL階段的重要前置步驟。本文首先通過比較SFT階段的結果來評估添加此階段的效果。如下表5所示(第1行 vs 第2行),即使在RL階段之前,添加編輯指令對齊也能提升所有三個基準測試的性能,這表明該階段具有普遍優(yōu)勢。

編輯指令對齊的影響在RL階段被放大。如上表5所示(第3行 vs 第4行),添加編輯指令對齊階段對RL后的圖像編輯至關重要。若無此階段,UniGen-1.5通過RL在ImgEdit上僅提升0.21分(第1行 vs 第3行)。受益于該階段帶來的精細化語義對齊,RL實現(xiàn)了0.38分的更大增益(第2行 vs 第4行)。

結論

UniGen-1.5 ——一個在圖像理解、生成與編輯任務中均取得競爭力的統(tǒng)一MLLM。基于UniGen框架,UniGen-1.5通過增強模型架構擴展至圖像編輯支持,并通過設計的編輯指令對齊階段進一步優(yōu)化。本文還提出統(tǒng)一RL策略,通過共享獎勵模型聯(lián)合優(yōu)化生成與編輯,在保真度與可控性上獲得顯著提升。大量實驗表明,UniGen-1.5在圖像理解、文本到圖像生成和圖像編輯的廣泛基準測試中達到最先進水平,為推進統(tǒng)一MLLM的未來研究建立了強大可擴展的基線。

局限性。 首先,UniGen-1.5在渲染文本內(nèi)容方面能力不足(圖A首行)。本文的模型側重于改進文本指令與離散視覺令牌間的語義對齊,且僅使用輕量級視覺解碼頭進行圖像重建,這導致在生成文本(極度依賴保留細粒度結構細節(jié))方面存在劣勢。本文相信在框架中集成基于擴散的組件能有效解決此局限。其次,UniGen-1.5仍存在視覺不一致性問題(圖A末行),這是圖像編輯任務的關鍵挑戰(zhàn)。需要在RL階段采用專用獎勵模型來強化視覺一致性。

參考文獻

[1] UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning

       原文標題 : 硬剛GPT-Image-1?蘋果最新UniGen-1.5強勢發(fā)布:一個模型搞定理解+生成+編輯!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號