日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Transformer架構(gòu)的文檔圖像自監(jiān)督預(yù)訓(xùn)練技術(shù)

CVer ? 來源:CSIG文檔圖像分析與識別專 ? 作者:CSIG文檔圖像分析與 ? 2022-11-15 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡要介紹ACM MM 2022錄用論文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。該論文是2022年微軟亞研院發(fā)表的LayoutLM V3[2]的前身工作,主要解決了文檔領(lǐng)域中標(biāo)注數(shù)據(jù)稀少和以視覺為中心的文檔智能任務(wù)骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練問題。

一、研究背景

近年來自監(jiān)督預(yù)訓(xùn)練技術(shù)已在文檔智能領(lǐng)域進(jìn)行了許多的實(shí)踐,大多數(shù)技術(shù)是將圖片、文本、布局結(jié)構(gòu)信息一起輸入統(tǒng)一的Transformer架構(gòu)中。在這些技術(shù)中,經(jīng)典的流程是先經(jīng)過一個視覺模型提取額外文檔圖片信息,例如OCR引擎或版面分析模型,這些模型通常依賴于有標(biāo)注數(shù)據(jù)訓(xùn)練的視覺骨干網(wǎng)絡(luò)。已有的工作已經(jīng)證明一些視覺模型在實(shí)際應(yīng)用中的性能經(jīng)常受到域遷移、數(shù)據(jù)分布不一致等問題的影響。而且現(xiàn)有的文檔有標(biāo)注數(shù)據(jù)集稀少、樣式單一,訓(xùn)練出來的骨干網(wǎng)絡(luò)并非最適用于文檔任務(wù)。因此,有必要研究如何利用自監(jiān)督預(yù)訓(xùn)練技術(shù)訓(xùn)練一個專用于文檔智能領(lǐng)域的骨干網(wǎng)絡(luò)。本文針對上述問題,利用離散變分編碼器和NLP領(lǐng)域的常用預(yù)訓(xùn)練方式實(shí)現(xiàn)了文檔圖像的預(yù)訓(xùn)練。

5053a420-62a5-11ed-8abf-dac502259ad0.png

圖1具有不同布局和格式的視覺豐富的業(yè)務(wù)文檔,用于預(yù)培訓(xùn)DiT

二、DiT原理簡述

2.1總體結(jié)構(gòu)

5088a166-62a5-11ed-8abf-dac502259ad0.png

圖2 DiT的總體架構(gòu)

Fig 2是DiT的整體結(jié)構(gòu)。DiT使用ViT[3]作為預(yù)訓(xùn)練的骨干網(wǎng)絡(luò),模型的輸入是圖像Patch化后的Embedding特征向量,Patch的數(shù)量和離散變分編碼器的下采樣比例有關(guān)。輸入經(jīng)過ViT后輸出到線性層進(jìn)行圖像分類,分類層的大小是8192。預(yù)訓(xùn)練任務(wù)和NLP領(lǐng)域的完型填空任務(wù)一致,先對輸入的Patch隨機(jī)掩膜,在模型輸出處預(yù)測被遮蓋的Patch對應(yīng)的Token,Token由Fig 2 中左側(cè)的離散變分編碼器生成,作為每個Patch的Label,預(yù)訓(xùn)練過程使用CE Loss監(jiān)督。

2.2 離散變分編碼器dVAE

離散變分編碼器作為Image Tokenizer,將輸入的Patch Token化,來源于論文DALL-E[4],在預(yù)訓(xùn)練任務(wù)開始前需要額外訓(xùn)練。本文使用數(shù)據(jù)集IIT-CDIP[5]重新訓(xùn)練了DALL-E中的離散變分編碼器以適用于文檔任務(wù)。在預(yù)訓(xùn)練任務(wù)中只使用到編碼器的部分,解碼器不參與預(yù)訓(xùn)練,編碼器將輸入圖片下采樣到原來的1/8,例如輸入尺度為112*112,那編碼后的Token Map為14*14,此時的Map大小,應(yīng)與ViT輸入Patch數(shù)保持一致。

2.3 模型微調(diào)

50e1f356-62a5-11ed-8abf-dac502259ad0.png

圖3在不同檢測框架中應(yīng)用DiT作為骨干網(wǎng)絡(luò)的圖示

模型預(yù)訓(xùn)練完成后,需針對下游任務(wù)進(jìn)行微小的結(jié)構(gòu)改動,針對分類任務(wù),輸入經(jīng)過平均池化和線性層進(jìn)行分類。針對檢測任務(wù),如Fig 3所示,在ViT的特定層進(jìn)行下采樣或上采樣,然后輸入到FPN和后續(xù)的檢測框架中。

三、主要實(shí)驗(yàn)結(jié)果及可視化效果

表1.RVL-CDIP上的文檔圖像分類精度(%),其中所有模型都使用224×224分辨率的純圖像信息(無文本信息)。

51049230-62a5-11ed-8abf-dac502259ad0.png

表2.PubLayNet驗(yàn)證集上的文檔布局分析mAP@IOU[0.50:0.95]。ResNext-101-32×8d縮短為ResNext,級聯(lián)為C。

5123f530-62a5-11ed-8abf-dac502259ad0.png

表3.ICDAR 2019 cTDaR的表檢測精度(F1)

514b34ce-62a5-11ed-8abf-dac502259ad0.png

表4.文本檢測精度(IoU@0.5)在FUNSD任務(wù)#1中,掩碼R-CNN與不同的主干(ResNeXt、DeiT、BEiT、MAE和DiT)一起使用?!?syn”表示使用包含1M文檔圖像的合成數(shù)據(jù)集訓(xùn)練DiT,然后使用FUNSD訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)。

51edced2-62a5-11ed-8abf-dac502259ad0.png

520d00f4-62a5-11ed-8abf-dac502259ad0.png

圖4使用不同標(biāo)記器進(jìn)行圖像重建

從左到右:原始文檔圖像,使用自訓(xùn)練dVAE標(biāo)記器進(jìn)行圖像重建,使用DALL-E標(biāo)記器進(jìn)行的圖像重建從表1、表2、表3、表4

來看,文章所提方法在各種下游任務(wù)中取得了state-of-the-art的結(jié)果,驗(yàn)證了該方法在文檔領(lǐng)域的有效性。Fig 4中展示了重新訓(xùn)練的離散變分編碼器的可視化輸出,結(jié)果顯示本文中的離散變分編碼器效果更好。

四、總結(jié)及討論

本文設(shè)計(jì)了一個利用大量無標(biāo)簽文檔圖像預(yù)訓(xùn)練ViT的自監(jiān)督方法,該方法的核心是利用離散變分編碼器對圖像Patch進(jìn)行Token化,再使用NLP領(lǐng)域的掩碼重建任務(wù)進(jìn)行預(yù)訓(xùn)練。從實(shí)驗(yàn)結(jié)果可以看出,該方法在多個下游任務(wù)的有效性,探索了自監(jiān)督任務(wù)在文檔領(lǐng)域的可能性。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    4013

    瀏覽量

    143450
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95055

原文標(biāo)題:上交&微軟提出DiT:一種基于Transformer的文檔圖像自監(jiān)督預(yù)訓(xùn)練方法 | ACM MM 2022

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    《多模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡介

    標(biāo)注的圖文對(如網(wǎng)頁中的圖片和alt文本)進(jìn)行監(jiān)督訓(xùn)練。 多實(shí)例學(xué)習(xí) :將同一場景的多模態(tài)數(shù)據(jù)視為一個\"包\",只需標(biāo)注包的類別,無需標(biāo)注每個模態(tài)的具體對應(yīng)關(guān)系。 2. 計(jì)算資源
    發(fā)表于 05-01 17:46

    零基礎(chǔ)手寫大模型資料2026

    Transformer核心結(jié)構(gòu)的大模型,揭示大模型從理論到落地的技術(shù)本質(zhì)。 一、數(shù)學(xué)基礎(chǔ):大模型的三大基石 1. 矩陣運(yùn)算:神經(jīng)網(wǎng)絡(luò)的語言 大模型的所有計(jì)算都可歸結(jié)為矩陣乘法與加法。以輸入層為例,若處理
    發(fā)表于 05-01 17:44

    HM博學(xué)谷狂野AI大模型第四期

    ,為開發(fā)者提供了一把打開 AI 黑盒的鑰匙。從 Transformer 的矩陣運(yùn)算到分布式訓(xùn)練的工程調(diào)度,再到推理加速的極致優(yōu)化,這是一次從應(yīng)用層向底層原理的深度回歸。在 AI 技術(shù)競爭日益激烈的當(dāng)
    發(fā)表于 05-01 17:30

    算法工程師需要具備哪些技能?

    :自動化任務(wù)(如數(shù)據(jù)預(yù)處理、模型訓(xùn)練調(diào)度)。Git版本控制:團(tuán)隊(duì)協(xié)作開發(fā)(如分支管理、代碼合并)。 機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí):線性回歸、邏輯回歸、決策樹、SVM等。無監(jiān)督學(xué)習(xí):聚類(K-Means)、降維
    發(fā)表于 02-27 10:53

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4424次閱讀

    FPGA+DSP/ARM架構(gòu)開發(fā)與應(yīng)用

    中高端FPGA技術(shù)成熟以來,F(xiàn)PGA+DSP/ARM架構(gòu)的硬件設(shè)計(jì)在眾多工業(yè)領(lǐng)域得到廣泛應(yīng)用。例如無線通信、圖像處理、工業(yè)控制、儀器測量等。
    的頭像 發(fā)表于 10-15 10:39 ?4563次閱讀
    FPGA+DSP/ARM<b class='flag-5'>架構(gòu)</b>開發(fā)與應(yīng)用

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    %,使用的參數(shù)減少了15%。 3.2 LighrSeq2 LighrSeq2 提出了三種加速Transformer模型訓(xùn)練技術(shù)。 ①針對所有的Transformer模型,LightS
    發(fā)表于 09-12 17:30

    AI的核心操控:從算法到硬件的協(xié)同進(jìn)化

    到頂層的應(yīng)用算法,共同構(gòu)成AI的“智能引擎”。 算法層:模型架構(gòu)訓(xùn)練控制 現(xiàn)代AI的核心是深度學(xué)習(xí)算法,其操控依賴于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)和訓(xùn)練過程的精細(xì)化調(diào)控。例如,Transformer
    的頭像 發(fā)表于 09-08 17:51 ?1188次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機(jī)器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得益于近年來VR
    的頭像 發(fā)表于 08-21 09:56 ?1247次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA模型H-RDT

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4392次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度學(xué)習(xí)嗎?

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    一、模型架構(gòu) 在閱讀第三章關(guān)于 DeepSeek 的模型架構(gòu)部分時,我仿佛打開了一扇通往人工智能核心構(gòu)造的大門。從架構(gòu)圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡(luò)、注意力
    發(fā)表于 07-20 15:07

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1233次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1463次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>概述

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    億個參數(shù)的混合專家模型(MoE) ,每個token(模型處理文本的基本單位)激活 370 億個參數(shù)。該模型在 14.8 萬億個高質(zhì)量 token上進(jìn)行預(yù)訓(xùn)練,采用 MLA 和 MoE 架構(gòu)
    發(fā)表于 06-09 14:38

    HarmonyOS5云服務(wù)技術(shù)分享--應(yīng)用預(yù)加載提速指南

    手把手教你用預(yù)加載優(yōu)化應(yīng)用啟動速度 Hi,開發(fā)者朋友們!今天我們來聊聊如何通過預(yù)加載技術(shù)讓應(yīng)用啟動快人一步。在用戶體驗(yàn)至上的時代,首屏加載速度直接關(guān)系到用戶留存率,快來掌握這個提升性能的利器吧! 一
    發(fā)表于 05-22 20:39
    准格尔旗| 海丰县| 湘潭县| 长丰县| 宜昌市| 临海市| 垣曲县| 东山县| 镇远县| 汨罗市| 兴海县| 永川市| 太白县| 山丹县| 锦屏县| 体育| 威宁| 绥芬河市| 读书| 盱眙县| 普定县| 孝昌县| 枣阳市| 炉霍县| 南皮县| 洞口县| 中西区| 鄂托克前旗| 霸州市| 离岛区| 石首市| 湘乡市| 特克斯县| 惠安县| 雷山县| 湘潭县| 泾阳县| 云梦县| 临漳县| 武定县| 台中市|