日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

京東零售廣告創(chuàng)意:統(tǒng)一的布局生成和評估模型

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2026-01-13 16:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZPGll_92AeZLCAAFq24ROlPo233.png

MM2025: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

論文鏈接:https://arxiv.org/abs/2508.02374?

代碼鏈接:https://github.com/JD-GenX/Uni-Layout?

?

摘要:布局生成在電商圖片的設計中起到至關重要的作用。當前的布局生成方法在能力上具有任務特定性,并且評估標準與人類感知不一致,導致其應用范圍有限且評估效果不佳。為了解決這些問題,Uni-Layout實現(xiàn)了統(tǒng)一生成、模擬人類的評估以及二者之間的對齊。針對通用生成,該框架將各種布局任務整合到一個統(tǒng)一的分類系統(tǒng)中,并開發(fā)了一個統(tǒng)一的生成器,通過自然語言提示處理背景或元素內(nèi)容受限的任務。為了引入人類反饋以有效評估布局,我們構建了Layout-HF100k,這是首個包含10萬個人工標注布局的大規(guī)模人類反饋數(shù)據(jù)集?;贚ayout-HF100k,我們引入了一種模擬人類的評估器,該評估器結合視覺和幾何信息,采用思維鏈機制進行定性評估,并通過信心估計模塊提供定量測量。為了更好地對齊生成器和評估器,我們采用動態(tài)邊距偏好優(yōu)化(DMPO)技術,將二者整合為一個協(xié)調(diào)系統(tǒng),以更好地符合人類判斷。

一、背景及現(xiàn)狀

布局生成旨在為給定的元素設計吸引人的視覺排版,涵蓋從海報和文檔設計到用戶界面布局和雜志排版等廣泛任務。雖然生成模型取得了顯著進展,但現(xiàn)有方法通常專注于狹義任務,導致解決方案缺乏靈活性和普適性。此外,盡管現(xiàn)有的評估指標基于布局設計原則精心設計,但它們常常與人類的感知不一致。如圖1所示,高評分的布局可能在視覺質量上較差,這揭示了現(xiàn)有指標與真實人類感知之間的差距。為了解決這些挑戰(zhàn),我們提出了Uni-Layout,一個通過統(tǒng)一生成器、模擬人類的評估器和動態(tài)邊距對齊機制來整合布局生成、評估和對齊的整體框架。為了詳細闡述Uni-Layout,本文圍繞三個核心研究問題展開。

wKgZO2ll_9-APJ_UAArZM0ELzKk529.png

圖1:布局生成任務的分類體系與動機闡述

二、如何實現(xiàn)跨任務的統(tǒng)一布局生成?

為了系統(tǒng)地統(tǒng)一當前分散的布局生成任務領域,我們提出了一個基于兩個維度的精心組織的分類法:背景和元素內(nèi)容是自由的還是受限的。如圖1所示,我們將現(xiàn)有的布局任務分為四種代表性類型:BFEF、BCEF、BFEC和BCEC。當前的任務特定方法在統(tǒng)一布局生成方面存在困難,但多模態(tài)大型語言模型(MLLMs)由于其通用的視覺-語言理解能力,提供了有前景的解決方案。利用MLLMs,我們提出了一個統(tǒng)一的布局生成器,其工作方式類似于一名熟練的設計師。該生成器結合視覺約束和文本指令來生成連貫的布局,能夠處理背景和元素內(nèi)容既可以受限也可以自由的多種場景。通過在各種布局任務上的聯(lián)合訓練,它為布局生成提供了一個靈活且統(tǒng)一的解決方案。

為了統(tǒng)一多種布局任務,一個通用的布局任務指令可寫作:

wKgZPGll_-CAa35nAAAmeqnutRU901.png

其中T為任務描述,b表示背景的內(nèi)容和屬性,e表示元素的內(nèi)容和屬性,O是指定的輸出格式。注意背景和元素的屬性是必須的,但其內(nèi)容可為空。為了清楚起見,我們針對BCEC任務提供了一個說明示例,其中下劃線部分對應上式中的對應項。

wKgZO2ll_-GAXEdJAAC_ECRcmMY877.png

?

三、如何模擬人類來評估布局?

盡管人類感知在布局設計中非常重要,但現(xiàn)有數(shù)據(jù)集中缺乏對布局質量的人類反饋。為彌補這一缺口,我們匯總了統(tǒng)一生成器的輸出,并編制了Layout-HF100k,這是首個專為布局生成策劃的全面人類反饋數(shù)據(jù)集,包含10萬個精心標注的高質量示例,涵蓋代表性布局任務。該數(shù)據(jù)集的示例如圖2所示。

wKgZPGll_-KAZa8MAAc0B2W331E020.png

圖2:Layout-HF100k示例。第一/二行分別為合格/不合格布局。

基于這一全新的數(shù)據(jù)集,我們開發(fā)了一種評估器,結構如圖3(b)和(c)所示。其通過視覺和幾何信息兩個分支處理布局,以有效模擬人類判斷模式。此外,該評估器結合了一個輸出定量置信度估計的分類頭,以及定性“思維鏈”(CoT)推理,使其能夠捕捉微妙的審美偏好,并提供與人類感知模式緊密對齊的可解釋評估。通過結合多模態(tài)分析和CoT推理,我們的評估器不僅能夠做出準確判斷,還能闡明其決策背后的理由,類似于人類專家如何評估布局。

具體來說,CoT包含以下四個步驟:

(1) 布局概覽:對布局可視化結果快速而全面的掃描,通過簡潔的文本描述捕捉布局的第一印象,概述整體構圖和上下文元素。

(2) 空間解構:系統(tǒng)地分解布局的基本組成部分,分析幾何屬性和空間關系。它檢查對齊模式、識別潛在重疊,并評估間距一致性,以揭示潛在的結構框架。

(3) 美學評估:對布局的視覺質量進行詳細評估,重點關注藝術價值和設計原則。這包括對比例平衡、空間和諧和視覺節(jié)奏的評估,同時考慮這些元素如何對整體美學效果產(chǎn)生影響。

(4) 全面評估:最后階段綜合所有先前分析的見解,以提供對布局有效性的全面評估,最后給出“合格”或“不合格”的明確判斷。

wKgZO2ll_-SAAp6mAAZJHBZVroE720.png

圖3:Uni-Layout框架概覽

四、如何有效對齊人類反饋和布局生成?

現(xiàn)有的對齊方法要么直接最大化人類偏好的輸出可能性,要么在其偏好學習目標中使用固定邊距。這些傳統(tǒng)方法未能反映人類偏好的不同程度,因為它們對強偏好和弱偏好一視同仁。為了解決這一限制,我們提出了一種新的對齊方法,稱為動態(tài)邊距偏好優(yōu)化(DMPO)。具體而言,當評估者在成對樣本之間表現(xiàn)出更強烈的偏好時,DMPO會自動增加邊距,以在勝出和失敗的響應之間強制產(chǎn)生更大的分數(shù)差異,而對于不太明顯的偏好則應用較小的邊距。這種信心引導的自適應邊距策略更好地捕捉了人類判斷的范圍,從而實現(xiàn)與布局生成和人類偏好的更精確對齊。

如圖3(d)所示,給定任務指令和可選的背景或元素內(nèi)容,生成器產(chǎn)生兩個候選布局l1和l2。之后通過雙分支處理器將布局結果轉化為視覺和幾何信息,并通過布局評估器產(chǎn)出候選布局的得分。我們將兩種布局的分數(shù)差距定義如下:

wKgZPGll_-WAFBe7AAAeF71_ugQ786.png

wKgZO2ll_-WAZ8dSAAAOvhT6aho889.png

其中I+和l+分別表示高分布局的視覺和幾何信息。為了進一步增強對邊距的感知,我們應用了非線性變換f()來處理分數(shù)差距。最終,DMPO的損失形式可寫作:

wKgZPGll_-aAeIlfAAB5IE6nXLI543.png

通過將生成和評估整合到反饋循環(huán)中,DMPO彌合了布局生成和人類審美偏好之間的差距,產(chǎn)生了更具視覺吸引力的布局。

五、實驗結果

(1)布局評估模型性能

為了驗證我們的評估器,我們將其與一些領先的閉源(M)LLM模型進行比較,包括GPT-4o、Claude3.5 Sonnet(Claude3.5)、GLM-4v和DeepSeek-R1。這些模型遵循“LLM-as-Judge”范式。所有模型接收相同的指令和視覺輸入,除了DeepSeek-R1,它只處理文本。如表1所示,我們的模型表現(xiàn)出色,達到85.5%的準確率,比現(xiàn)有的MLLMs高出25-35%。一些MLLMs的表現(xiàn)接近隨機(約50%),突顯了它們在布局評估中的局限性。

wKgZO2ll_-aAXhPpAACDWLf4P6U686.png

表1 :布局評估模型對比

(2)布局生成模型性能

在本小節(jié)中,我們與三類基線方法進行了比較:(1) 針對單個布局任務設計的任務特定SOTA模型(例如,LayoutDM);(2) 閉源模型,包括GPT-4o、Claude3.5和DeepSeek-R1;(3) 開源的多模態(tài)大語言模型(MLLMs),如聯(lián)合訓練四個任務的LLaVA。

在表2展示的任務特定評估中,我們的方法在多個指標上表現(xiàn)出色。值得注意的是,在BFEF任務中,我們實現(xiàn)了最低的Ove(0.001)和Ali(0.00004),與專用模型如LayoutDM和LayoutFlow持平或超越。在BFEC任務中,我們的方法以最小的Ove(0.00045)和最高的Max.(0.439)創(chuàng)下新紀錄。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 京東
    +關注

    關注

    2

    文章

    1130

    瀏覽量

    50143
  • LLM
    LLM
    +關注

    關注

    1

    文章

    350

    瀏覽量

    1397
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    MWC 2026 | 廣和通發(fā)布 AI ECR 解決方案,以端側 AI 能力開啟無人零售新紀元

    3月3日,在2026年世界移動通信大會( MWC 2026 )上,廣和通發(fā)布專為無人值守及自動零售場景設計的新代 AI 智能收銀機( ECR )解決方案。該方案基于聯(lián)發(fā)科技高性能 Genio
    的頭像 發(fā)表于 03-06 22:41 ?341次閱讀
    MWC 2026 | 廣和通發(fā)布 AI ECR 解決方案,以端側 AI 能力開啟無人<b class='flag-5'>零售</b>新紀元

    云邊云科技SD-WAN智慧網(wǎng)絡,打通零售連鎖終端運營“最后公里”

    前言全國上百家門店的收銀數(shù)據(jù)、庫存同步和視頻監(jiān)控如何實現(xiàn)統(tǒng)一管理?面對數(shù)字化轉型的浪潮,零售連鎖企業(yè)正通過SD-WAN技術找到答案。在線上線下深度融合的新零售時代,門店POS交易、庫存實時同步、會員
    的頭像 發(fā)表于 12-22 14:12 ?531次閱讀
    云邊云科技SD-WAN智慧網(wǎng)絡,打通<b class='flag-5'>零售</b>連鎖終端運營“最后<b class='flag-5'>一</b>公里”

    云邊云科技參與發(fā)布《生成式人工智能零售業(yè)全景探索白皮書》

    、云邊云科技入選生成式人工智能零售業(yè)全景探索白皮書生成式人工智能在生產(chǎn)力和效率優(yōu)化、關鍵風險防控、產(chǎn)品和服務提升等方面可以發(fā)揮重要作用,本次發(fā)布的《
    的頭像 發(fā)表于 12-15 09:58 ?684次閱讀
    云邊云科技參與發(fā)布《<b class='flag-5'>生成</b>式人工智能<b class='flag-5'>零售</b>業(yè)全景探索白皮書》

    高格欣壁掛廣告機:新零售連鎖的品牌實力“放大器”

    當新零售連鎖進入“體驗制勝”的時代,終端展示設備已不再是簡單的廣告載體,更成為品牌實力的直觀名片。深圳市高格欣科技的壁掛廣告機,憑借工業(yè)級品質、智能交互能力與場景適配性,正成為連鎖品牌破局流量困境
    的頭像 發(fā)表于 11-22 17:03 ?713次閱讀
    高格欣壁掛<b class='flag-5'>廣告</b>機:新<b class='flag-5'>零售</b>連鎖的品牌實力“放大器”

    JDD Oxygen智能零售論壇 | 《大模型時代的廣告營銷變革與實踐》

    核心觀點 1. 通用大模型想解決營銷領域問題需向垂類模型轉型。 “全才”通用大模型難覆蓋廣告營銷全流程,需升級為“懂營銷”的垂直模型,實現(xiàn)從
    的頭像 發(fā)表于 10-27 17:18 ?1040次閱讀
    JDD Oxygen智能<b class='flag-5'>零售</b>論壇 | 《大<b class='flag-5'>模型</b>時代的<b class='flag-5'>廣告</b>營銷變革與實踐》

    理想汽車首個海外零售中心正式開業(yè)

    經(jīng)銷商模式。今年11月,理想汽車在哈薩克斯坦第大城市阿拉木圖和首都阿斯塔納的零售中心也將陸續(xù)開業(yè)。理想汽車將為通過授權零售中心購車的海外用戶提供官方質保,以及專業(yè)的檢查維修、高效的原廠備件配送、技術支持、OTA升級等官方服務。
    的頭像 發(fā)表于 10-14 16:25 ?1017次閱讀

    SD-WAN智慧網(wǎng)絡賦能,打通零售連鎖終端運營“最后公里”

    前言全國上百家門店的收銀數(shù)據(jù)、庫存同步和視頻監(jiān)控如何實現(xiàn)統(tǒng)一管理?面對數(shù)字化轉型的浪潮,零售連鎖企業(yè)正通過SD-WAN技術找到答案。在線上線下深度融合的新零售時代,門店POS交易、庫存實時同步、會員
    的頭像 發(fā)表于 10-14 10:49 ?1508次閱讀
    SD-WAN智慧網(wǎng)絡賦能,打通<b class='flag-5'>零售</b>連鎖終端運營“最后<b class='flag-5'>一</b>公里”

    安卓工控體機在智慧新零售市場領域的應用分析

    在智慧零售市場規(guī)模突破2000億的賽道上,安卓工控體機正以 “隱形中樞” 的角色,重塑無人零售的運營邏輯與消費體驗。
    的頭像 發(fā)表于 09-22 11:28 ?924次閱讀
    安卓工控<b class='flag-5'>一</b>體機在智慧新<b class='flag-5'>零售</b>市場領域的應用分析

    智慧零售全面爆發(fā),BLE芯片趁勢而起

    ?2025年,全球智慧零售市場預計突破1.2萬億美元,年均增速約15%,其中亞太地區(qū)(以中國為主)占全球市場的40%以上。中國市場規(guī)模預計達到8500億元人民幣,占全球的35%,年均增速20%,領先
    的頭像 發(fā)表于 09-19 16:20 ?870次閱讀
    智慧<b class='flag-5'>零售</b>全面爆發(fā),BLE芯片趁勢而起

    高格欣廣告機:重構商業(yè)領域新零售消費鏈路的 “智能營銷樞紐”

    不知你是否留意到,商業(yè)零售領域正經(jīng)歷著大變革,越來越多的數(shù)字化新零售體系在逐步取代傳統(tǒng)的商業(yè)模式,顯示與智能交互功能為體的顯示設備終端,已成為推動新零售發(fā)展的關鍵力量,從根本上重塑了
    的頭像 發(fā)表于 08-29 17:26 ?934次閱讀
    高格欣<b class='flag-5'>廣告</b>機:重構商業(yè)領域新<b class='flag-5'>零售</b>消費鏈路的 “智能營銷樞紐”

    零售行業(yè)出海數(shù)據(jù)回流,如何選擇SDWAN

    >全球零售網(wǎng)絡的擴張正面臨關鍵轉折點:**數(shù)據(jù)回流的效率與安全**,已成為出海企業(yè)增長的核心瓶頸,而SD-WAN技術正通過智能化的網(wǎng)絡重構,成為破局的關鍵利器。隨著零售企業(yè)加速全球化布局
    的頭像 發(fā)表于 08-21 14:09 ?1679次閱讀
    <b class='flag-5'>零售</b>行業(yè)出海數(shù)據(jù)回流,如何選擇SDWAN

    零售行業(yè)新店網(wǎng)絡接觸部署場景下,如何選擇SDWAN

    家連鎖超市在新疆偏遠地區(qū)的新店開業(yè)申請網(wǎng)絡專線,市政審批和架設電線桿的流程花了半個月,成本高企——而它的競爭對手在隔壁新店部署SD-WAN,從開箱到業(yè)務上線僅用了10分鐘。近年來,零售企業(yè)瘋狂擴張
    的頭像 發(fā)表于 08-19 15:06 ?1683次閱讀
    <b class='flag-5'>零售</b>行業(yè)新店網(wǎng)絡<b class='flag-5'>零</b>接觸部署場景下,如何選擇SDWAN

    京東零售在智能供應鏈領域的前沿探索與技術實踐

    近日,“智匯運河 智算未來”2025人工智能創(chuàng)新創(chuàng)業(yè)大會在杭州召開。香港工程科學院院士、香港大學副校長、研究生院院長、講座教授、京東零售供應鏈首席科學家申作軍教授與供應鏈算法團隊技術總監(jiān)戚永志博士
    的頭像 發(fā)表于 08-04 16:10 ?1208次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b>在智能供應鏈領域的前沿探索與技術實踐

    融智興科技:RFID超高頻零售標簽解析

    融智興科技推出的RFID超高頻零售標簽,專為零售場景高頻次、多品類、快速周轉而設計,具備遠距離群讀、批量寫入、耐環(huán)境干擾等特點,并通過了ARC(Auburn RFID Lab)認證,滿足沃爾瑪、山姆會員店等全球零售巨頭的標準。
    的頭像 發(fā)表于 07-30 16:32 ?965次閱讀
    融智興科技:RFID超高頻<b class='flag-5'>零售</b>標簽解析

    從校園實驗室到京東零售位算法工程師的風控實戰(zhàn)錄

    大家好,我是王曉婷,在京東零售研究廣告反作弊算法設計、實現(xiàn)與優(yōu)化,結合LLM、深度學習、強化學習賦能反作弊系統(tǒng),用算法識別和打擊數(shù)字廣告領域的欺詐行為。本文與大家分享我從高校實驗室到
    的頭像 發(fā)表于 05-22 16:39 ?838次閱讀
    從校園實驗室到<b class='flag-5'>京東</b><b class='flag-5'>零售</b>:<b class='flag-5'>一</b>位算法工程師的風控實戰(zhàn)錄
    新安县| 商都县| 常德市| 莱芜市| 忻州市| 陕西省| 石林| 乌审旗| 平邑县| 红原县| 昌图县| 巴林左旗| 衡水市| 富平县| 咸宁市| 陵水| 无锡市| 福海县| 黑山县| 常宁市| 长葛市| 剑河县| 宣汉县| 津南区| 临夏县| 林州市| 双辽市| 磐石市| 永济市| 乐昌市| 敦煌市| 宿迁市| 昌邑市| 临颍县| 镇雄县| 扶余县| 清水县| 平邑县| 津南区| 广安市| 清水县|