日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

CVer ? 來(lái)源:CVer ? 2023-08-31 15:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這篇文章是由中科大和字節(jié)跳動(dòng)合作,在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc,一個(gè)統(tǒng)一的多模態(tài)大模型(LMM)。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務(wù)。相比于以往的多模態(tài)大模型,UniDoc具備它們所不具備的文字檢測(cè)、識(shí)別、spotting(端到端OCR)的能力。此外,文章中實(shí)驗(yàn)表明,這些能力的學(xué)習(xí)能夠彼此促進(jìn)。

方法框架

7fd66038-47c5-11ee-97a6-92fbcf53809c.png

如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語(yǔ)言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫出)、多模態(tài)理解等四個(gè)任務(wù),通過(guò)多模態(tài)指令微調(diào)的方式,統(tǒng)一到一個(gè)框架中。具體地,輸入一張圖像以及一條指令(可以是檢測(cè)、識(shí)別、spotting、語(yǔ)義理解),UniDoc提取圖像中的視覺信息和文字信息,結(jié)合自然語(yǔ)言指令以及大語(yǔ)言模型的世界知識(shí),做出相應(yīng)回答。

訓(xùn)練數(shù)據(jù)采集

7ff0ca86-47c5-11ee-97a6-92fbcf53809c.png

作者團(tuán)隊(duì)收集了大量的PPT圖像,并提取其中文字實(shí)例和對(duì)應(yīng)的bbox。在此基礎(chǔ)上構(gòu)建多任務(wù)的指令微調(diào)數(shù)據(jù)集。文章認(rèn)為,PPT圖片中文字具有各種各樣的大小、字體、顏色、風(fēng)格等,且PPT中視覺元素豐富多樣,適合用于構(gòu)建涉及文字圖像的多模態(tài)任務(wù)的訓(xùn)練。以spotting任務(wù)為例,其指令如下圖所示。其中的 term 表示”imgae“,”photo“等隨機(jī)名詞,以增加指令多樣性。

8092f2c0-47c5-11ee-97a6-92fbcf53809c.png

實(shí)驗(yàn)結(jié)果

多模態(tài)理解

80ab866e-47c5-11ee-97a6-92fbcf53809c.png

80c91328-47c5-11ee-97a6-92fbcf53809c.png

從上述六個(gè)例子可以看到,UniDoc不僅可以有效提取圖像中的視覺信息、文字信息,更可以結(jié)合其豐富的世界知識(shí)進(jìn)行合理地回答。

80effd58-47c5-11ee-97a6-92fbcf53809c.png

對(duì)于無(wú)文字的圖像,UniDoc同樣可以準(zhǔn)確地進(jìn)行問(wèn)答。

81128e04-47c5-11ee-97a6-92fbcf53809c.png

在多個(gè)多模態(tài)問(wèn)答基準(zhǔn)數(shù)據(jù)集上,UniDoc實(shí)現(xiàn)了優(yōu)越的性能。

文字檢測(cè)、識(shí)別、spotting

81326094-47c5-11ee-97a6-92fbcf53809c.png

上圖中,第一行的四個(gè)case來(lái)自于WordArt數(shù)據(jù)集,第二行的四個(gè)case來(lái)自于TotalText數(shù)據(jù)集。可以看到,雖然這些行級(jí)別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布,UniDoc仍然能夠進(jìn)行準(zhǔn)確地識(shí)別。

815f6df0-47c5-11ee-97a6-92fbcf53809c.png

上圖中六個(gè)case中,文字存在部分的缺失,UniDoc仍然能夠進(jìn)行準(zhǔn)確地識(shí)別。

81779934-47c5-11ee-97a6-92fbcf53809c.png

上圖中四個(gè)case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測(cè)效果。

818baf5a-47c5-11ee-97a6-92fbcf53809c.png

在多個(gè)文字識(shí)別基準(zhǔn)數(shù)據(jù)集上,UniDoc實(shí)現(xiàn)了優(yōu)越的性能。

消融實(shí)驗(yàn)

81a99e2a-47c5-11ee-97a6-92fbcf53809c.png

有趣的消融實(shí)驗(yàn):對(duì)于同一張輸入圖像,spotting指令(右)規(guī)避了識(shí)別指令(左)的識(shí)別遺漏現(xiàn)象。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    575

    瀏覽量

    11345
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26264
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3797

    瀏覽量

    5279

原文標(biāo)題:中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第季》精品課程簡(jiǎn)介

    算法原理出發(fā),結(jié)合典型項(xiàng)目場(chǎng)景,解析模態(tài)系統(tǒng)的全棧實(shí)現(xiàn)路徑。 模態(tài)算法的三大技術(shù)支柱 1
    發(fā)表于 05-01 17:46

    中科大人口模型講義

    中科大人口模型講義[hide] [/hide]
    發(fā)表于 09-15 12:01

    微機(jī)原理與接口技術(shù) 中科大教材

    微機(jī)原理與接口技術(shù) 中科大教材[/hide]
    發(fā)表于 12-07 11:15

    中科大發(fā)的論文《新代TSC2046觸摸屏控制器》

    中科大發(fā)的論文《新代TSC2046觸摸屏控制器》
    發(fā)表于 08-03 08:12

    51單片機(jī)C語(yǔ)言編程入門(中科大)

    51單片機(jī)C語(yǔ)言編程入門(中科大)
    發(fā)表于 08-06 12:20

    中科大嵌入式課件全集

    本帖最后由 eehome 于 2013-1-5 09:46 編輯 中科大嵌入式課件全集
    發(fā)表于 08-14 21:52

    溷沌數(shù)字通信(中科大出版的)

    溷沌數(shù)字通信(中科大出版的)
    發(fā)表于 08-16 16:49

    光電信號(hào)處理?。?!(何兆湘 華中科大)

    光電信號(hào)處理?。?!(何兆湘 華中科大)
    發(fā)表于 08-16 19:47

    51單片機(jī)C語(yǔ)言編程入門(中科大)

    51單片機(jī)C語(yǔ)言編程入門(中科大)
    發(fā)表于 08-17 16:02

    51單片機(jī)資料(中科大

    51單片機(jī)資料(中科大),超高新掃描版,上傳給初學(xué)者{:7:}
    發(fā)表于 06-23 12:51

    中科院中科大2003年量子力學(xué)考研試題答案

    中科院—中科大2003年量子力學(xué)考研試題答案
    發(fā)表于 11-25 16:05 ?0次下載
    <b class='flag-5'>中科院中科大</b>2003年量子力學(xué)考研試題答案

    人口模型講義 (中科大課程)

    人口模型課件 (中科大課程講義)
    發(fā)表于 09-15 11:59 ?24次下載

    在醫(yī)療AI領(lǐng)域砥礪前行的中科大學(xué)子

    作為國(guó)字號(hào)的科研基石,中科大依靠學(xué)術(shù)層面的踏實(shí)耕耘,很大程度上影響了中國(guó)的醫(yī)療科技風(fēng)向。 談?wù)?b class='flag-5'>一所大學(xué)撐起個(gè)城市的代表,中科大和合肥的CP組合,
    的頭像 發(fā)表于 05-10 09:36 ?6003次閱讀

    《51單片機(jī)C語(yǔ)言編程入門》(中科大編著)

    《51單片機(jī)C語(yǔ)言編程入門》(中科大編著)
    發(fā)表于 01-04 17:54 ?0次下載

    北大&amp;amp;華為提出模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來(lái)臨,越來(lái)越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯
    的頭像 發(fā)表于 11-08 16:20 ?2541次閱讀
    北大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;華為<b class='flag-5'>提出</b>:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>基礎(chǔ)大<b class='flag-5'>模型</b>的高效微調(diào)
    泽普县| 建湖县| 湘西| 丰台区| 巴林右旗| 象山县| 察哈| 和政县| 兖州市| 德庆县| 眉山市| 平谷区| 陆河县| 如东县| 阳春市| 潞西市| 凤阳县| 淄博市| 仙桃市| 永州市| 大同市| 孝义市| 新建县| 灌南县| 秦皇岛市| 永吉县| 阜平县| 福海县| 永济市| 博客| 景谷| 彩票| 车致| 凤山县| 利川市| 怀来县| 获嘉县| 阿坝县| 黄浦区| 嘉义市| 正蓝旗|