中文字精品码无卡一区,日本不卡六区,精品久久久久一区二区

MM2025: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

論文鏈接：https://arxiv.org/abs/2508.02374?

代碼鏈接：https://github.com/JD-GenX/Uni-Layout?

摘要：布局生成在電商圖片的設計中起到至關重要的作用。當前的布局生成方法在能力上具有任務特定性，并且評估標準與人類感知不一致，導致其應用范圍有限且評估效果不佳。為了解決這些問題，Uni-Layout實現(xiàn)了統(tǒng)一生成、模擬人類的評估以及二者之間的對齊。針對通用生成，該框架將各種布局任務整合到一個統(tǒng)一的分類系統(tǒng)中，并開發(fā)了一個統(tǒng)一的生成器，通過自然語言提示處理背景或元素內(nèi)容受限的任務。為了引入人類反饋以有效評估布局，我們構建了Layout-HF100k，這是首個包含10萬個人工標注布局的大規(guī)模人類反饋數(shù)據(jù)集?；贚ayout-HF100k，我們引入了一種模擬人類的評估器，該評估器結合視覺和幾何信息，采用思維鏈機制進行定性評估，并通過信心估計模塊提供定量測量。為了更好地對齊生成器和評估器，我們采用動態(tài)邊距偏好優(yōu)化（DMPO）技術，將二者整合為一個協(xié)調(diào)系統(tǒng)，以更好地符合人類判斷。

一、背景及現(xiàn)狀

布局生成旨在為給定的元素設計吸引人的視覺排版，涵蓋從海報和文檔設計到用戶界面布局和雜志排版等廣泛任務。雖然生成模型取得了顯著進展，但現(xiàn)有方法通常專注于狹義任務，導致解決方案缺乏靈活性和普適性。此外，盡管現(xiàn)有的評估指標基于布局設計原則精心設計，但它們常常與人類的感知不一致。如圖1所示，高評分的布局可能在視覺質量上較差，這揭示了現(xiàn)有指標與真實人類感知之間的差距。為了解決這些挑戰(zhàn)，我們提出了Uni-Layout，一個通過統(tǒng)一生成器、模擬人類的評估器和動態(tài)邊距對齊機制來整合布局生成、評估和對齊的整體框架。為了詳細闡述Uni-Layout，本文圍繞三個核心研究問題展開。

圖1：布局生成任務的分類體系與動機闡述

二、如何實現(xiàn)跨任務的統(tǒng)一布局生成？

為了系統(tǒng)地統(tǒng)一當前分散的布局生成任務領域，我們提出了一個基于兩個維度的精心組織的分類法：背景和元素內(nèi)容是自由的還是受限的。如圖1所示，我們將現(xiàn)有的布局任務分為四種代表性類型：BFEF、BCEF、BFEC和BCEC。當前的任務特定方法在統(tǒng)一布局生成方面存在困難，但多模態(tài)大型語言模型（MLLMs）由于其通用的視覺-語言理解能力，提供了有前景的解決方案。利用MLLMs，我們提出了一個統(tǒng)一的布局生成器，其工作方式類似于一名熟練的設計師。該生成器結合視覺約束和文本指令來生成連貫的布局，能夠處理背景和元素內(nèi)容既可以受限也可以自由的多種場景。通過在各種布局任務上的聯(lián)合訓練，它為布局生成提供了一個靈活且統(tǒng)一的解決方案。

為了統(tǒng)一多種布局任務，一個通用的布局任務指令可寫作：

其中T為任務描述，b表示背景的內(nèi)容和屬性，e表示元素的內(nèi)容和屬性，O是指定的輸出格式。注意背景和元素的屬性是必須的，但其內(nèi)容可為空。為了清楚起見，我們針對BCEC任務提供了一個說明示例，其中下劃線部分對應上式中的對應項。

三、如何模擬人類來評估布局？

盡管人類感知在布局設計中非常重要，但現(xiàn)有數(shù)據(jù)集中缺乏對布局質量的人類反饋。為彌補這一缺口，我們匯總了統(tǒng)一生成器的輸出，并編制了Layout-HF100k，這是首個專為布局生成策劃的全面人類反饋數(shù)據(jù)集，包含10萬個精心標注的高質量示例，涵蓋代表性布局任務。該數(shù)據(jù)集的示例如圖2所示。

圖2：Layout-HF100k示例。第一/二行分別為合格/不合格布局。

基于這一全新的數(shù)據(jù)集，我們開發(fā)了一種評估器，結構如圖3（b）和（c）所示。其通過視覺和幾何信息兩個分支處理布局，以有效模擬人類判斷模式。此外，該評估器結合了一個輸出定量置信度估計的分類頭，以及定性“思維鏈”（CoT）推理，使其能夠捕捉微妙的審美偏好，并提供與人類感知模式緊密對齊的可解釋評估。通過結合多模態(tài)分析和CoT推理，我們的評估器不僅能夠做出準確判斷，還能闡明其決策背后的理由，類似于人類專家如何評估布局。

具體來說，CoT包含以下四個步驟：

(1) 布局概覽：對布局可視化結果快速而全面的掃描，通過簡潔的文本描述捕捉布局的第一印象，概述整體構圖和上下文元素。

(2) 空間解構：系統(tǒng)地分解布局的基本組成部分，分析幾何屬性和空間關系。它檢查對齊模式、識別潛在重疊，并評估間距一致性，以揭示潛在的結構框架。

(3) 美學評估：對布局的視覺質量進行詳細評估，重點關注藝術價值和設計原則。這包括對比例平衡、空間和諧和視覺節(jié)奏的評估，同時考慮這些元素如何對整體美學效果產(chǎn)生影響。

(4) 全面評估：最后階段綜合所有先前分析的見解，以提供對布局有效性的全面評估，最后給出“合格”或“不合格”的明確判斷。

圖3：Uni-Layout框架概覽

四、如何有效對齊人類反饋和布局生成？

現(xiàn)有的對齊方法要么直接最大化人類偏好的輸出可能性，要么在其偏好學習目標中使用固定邊距。這些傳統(tǒng)方法未能反映人類偏好的不同程度，因為它們對強偏好和弱偏好一視同仁。為了解決這一限制，我們提出了一種新的對齊方法，稱為動態(tài)邊距偏好優(yōu)化（DMPO）。具體而言，當評估者在成對樣本之間表現(xiàn)出更強烈的偏好時，DMPO會自動增加邊距，以在勝出和失敗的響應之間強制產(chǎn)生更大的分數(shù)差異，而對于不太明顯的偏好則應用較小的邊距。這種信心引導的自適應邊距策略更好地捕捉了人類判斷的范圍，從而實現(xiàn)與布局生成和人類偏好的更精確對齊。

如圖3（d）所示，給定任務指令和可選的背景或元素內(nèi)容，生成器產(chǎn)生兩個候選布局l1和l2。之后通過雙分支處理器將布局結果轉化為視覺和幾何信息，并通過布局評估器產(chǎn)出候選布局的得分。我們將兩種布局的分數(shù)差距定義如下：

其中I+和l+分別表示高分布局的視覺和幾何信息。為了進一步增強對邊距的感知，我們應用了非線性變換f()來處理分數(shù)差距。最終，DMPO的損失形式可寫作：

通過將生成和評估整合到反饋循環(huán)中，DMPO彌合了布局生成和人類審美偏好之間的差距，產(chǎn)生了更具視覺吸引力的布局。

五、實驗結果

（1）布局評估模型性能

為了驗證我們的評估器，我們將其與一些領先的閉源（M）LLM模型進行比較，包括GPT-4o、Claude3.5 Sonnet（Claude3.5）、GLM-4v和DeepSeek-R1。這些模型遵循“LLM-as-Judge”范式。所有模型接收相同的指令和視覺輸入，除了DeepSeek-R1，它只處理文本。如表1所示，我們的模型表現(xiàn)出色，達到85.5%的準確率，比現(xiàn)有的MLLMs高出25-35%。一些MLLMs的表現(xiàn)接近隨機（約50%），突顯了它們在布局評估中的局限性。

表1 ：布局評估模型對比

（2）布局生成模型性能

在本小節(jié)中，我們與三類基線方法進行了比較：(1) 針對單個布局任務設計的任務特定SOTA模型（例如，LayoutDM）；(2) 閉源模型，包括GPT-4o、Claude3.5和DeepSeek-R1；(3) 開源的多模態(tài)大語言模型（MLLMs），如聯(lián)合訓練四個任務的LLaVA。

在表2展示的任務特定評估中，我們的方法在多個指標上表現(xiàn)出色。值得注意的是，在BFEF任務中，我們實現(xiàn)了最低的Ove（0.001）和Ali（0.00004），與專用模型如LayoutDM和LayoutFlow持平或超越。在BFEC任務中，我們的方法以最小的Ove（0.00045）和最高的Max.（0.439）創(chuàng)下新紀錄。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴