日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

小模型也能進(jìn)行上下文學(xué)習(xí)!字節(jié)&華東師大聯(lián)合提出自進(jìn)化文本識(shí)別器

CVer ? 來源:CVer ? 2023-11-27 16:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大語(yǔ)言模型(LLM)能夠以一種無(wú)需微調(diào)的方式從少量示例中學(xué)習(xí),這種方式被稱為 "上下文學(xué)習(xí)"(In-context Learning)。目前只在大模型上觀察到上下文學(xué)習(xí)現(xiàn)象,那么,常規(guī)大小的模型是否具備類似的能力呢?GPT4、Llama等大模型在非常多的領(lǐng)域中都表現(xiàn)出了杰出的性能,但很多場(chǎng)景受限于資源或者實(shí)時(shí)性要求較高,無(wú)法使用大模型。為了探索小模型的上下文學(xué)習(xí)能力,字節(jié)和華東師大的研究團(tuán)隊(duì)在場(chǎng)景文本識(shí)別任務(wù)上進(jìn)行了研究。

場(chǎng)景文本識(shí)別(Scene Text Recognition)的目標(biāo)是將圖像中的文本內(nèi)容提取出來。實(shí)際應(yīng)用場(chǎng)景中,場(chǎng)景文本識(shí)別面臨著多種挑戰(zhàn):不同的場(chǎng)景、文字排版、形變、光照變化、字跡模糊、字體多樣性等,因此很難訓(xùn)練一個(gè)能應(yīng)對(duì)所有場(chǎng)景的統(tǒng)一的文本識(shí)別模型。一個(gè)直接的解決辦法是收集相應(yīng)的數(shù)據(jù),然后在特定場(chǎng)景下對(duì)模型進(jìn)行微調(diào)。但是這一過程需要重新訓(xùn)練模型,當(dāng)場(chǎng)景變多、領(lǐng)域任務(wù)變得復(fù)雜時(shí),實(shí)際的訓(xùn)練、存儲(chǔ)、維護(hù)資源則呈幾何倍增長(zhǎng)。如果文本識(shí)別模型也能具備上下文學(xué)習(xí)能力,面對(duì)新的場(chǎng)景,只需少量標(biāo)注數(shù)據(jù)作為提示,就能提升在新場(chǎng)景上的性能,那么上面的問題就迎刃而解。然而,場(chǎng)景文本識(shí)別是一個(gè)資源敏感型任務(wù),將大模型當(dāng)作文本識(shí)別器非常耗費(fèi)資源,并且通過初步的實(shí)驗(yàn),研究人員發(fā)現(xiàn)傳統(tǒng)的訓(xùn)練大模型的方法在場(chǎng)景文本識(shí)別任務(wù)上并不適用。

為了解決這個(gè)問題,來自字節(jié)和華東師大的研究團(tuán)隊(duì)提出了自進(jìn)化文本識(shí)別器,ESTR(Ego-Evolving Scene Text Recognizer),一個(gè)融合了上下文學(xué)習(xí)能力的常規(guī)大小文本識(shí)別器,無(wú)需微調(diào)即可快速適應(yīng)不同的文本識(shí)別場(chǎng)景。ESTR配備了一種上下文訓(xùn)練和上下文推理模式,不僅在常規(guī)數(shù)據(jù)集上達(dá)到了SOTA的水平,而且可以使用單一模型提升在各個(gè)場(chǎng)景中的識(shí)別性能,實(shí)現(xiàn)對(duì)新場(chǎng)景的快速適應(yīng),甚至超過了經(jīng)過微調(diào)后專用模型的識(shí)別性能。ESTR證明,常規(guī)大小的模型足以在文本識(shí)別任務(wù)中實(shí)現(xiàn)有效的上下文學(xué)習(xí)能力。ESTR在各種場(chǎng)景中無(wú)需微調(diào)即可表現(xiàn)出卓越的適應(yīng)性,甚至超過了經(jīng)過微調(diào)后的識(shí)別性能。

8e61a640-8c75-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/pdf/2311.13120

方法

圖1介紹了ESTR的訓(xùn)練和推理流程。

8e777d4e-8c75-11ee-939d-92fbcf53809c.png

1.基礎(chǔ)文本識(shí)別訓(xùn)練

基礎(chǔ)文本識(shí)別訓(xùn)練階段采用自回歸框架訓(xùn)練視覺編碼器和語(yǔ)言解碼器:

8e992818-8c75-11ee-939d-92fbcf53809c.png

2.上下文訓(xùn)練

上下文訓(xùn)練階段ESTR 將根據(jù)文中提出的上下文訓(xùn)練范式進(jìn)行進(jìn)一步訓(xùn)練。在這一階段,ESTR 會(huì)學(xué)習(xí)理解不同樣本之間的聯(lián)系,從而從上下文提示中獲益。

8ea68454-8c75-11ee-939d-92fbcf53809c.png

如圖2所示,這篇文章提出 ST 策略,在場(chǎng)景文本數(shù)據(jù)中進(jìn)行隨機(jī)的分割和轉(zhuǎn)換,從而生成一組 "子樣本"。子樣本在視覺和語(yǔ)言方面都是內(nèi)在聯(lián)系的。這些內(nèi)在聯(lián)系的樣本被拼接成一個(gè)序列,模型從這些語(yǔ)義豐富的序列中學(xué)習(xí)上下文知識(shí),從而獲取上下文學(xué)習(xí)的能力。這一階段同樣采用自回歸框架進(jìn)行訓(xùn)練:

8eb82718-8c75-11ee-939d-92fbcf53809c.png

3.上下文推理

針對(duì)一個(gè)測(cè)試樣本,該框架會(huì)從上下文提示池中選擇 個(gè)樣本,這些樣本在視覺隱空間與測(cè)試樣本具有最高的相似度。具體來說,這篇文章通過對(duì)視覺token序列做平均池化,計(jì)算出圖像embedding 。然后,從上下文池中選擇圖像嵌入與 的余弦相似度最高的前 N 個(gè)樣本,從而形成上下文提示。

8ec51a9a-8c75-11ee-939d-92fbcf53809c.png

上下文提示和測(cè)試樣本拼接在一起送入模型,ESTR便會(huì)以一種無(wú)訓(xùn)練的方式從上下文提示中學(xué)得新知識(shí),提升測(cè)試樣本的識(shí)別準(zhǔn)確率。值得注意的是,上下文提示池只保留了視覺編碼器輸出的token,使得上下文提示的選擇過程非常高效。此外,由于上下文提示池很小,而且ESTR不需要訓(xùn)練就能直接進(jìn)行推理,因此額外的消耗也降到了最低限度。

實(shí)驗(yàn)

實(shí)驗(yàn)從三個(gè)角度進(jìn)行:

1.傳統(tǒng)數(shù)據(jù)集

從訓(xùn)練集中隨機(jī)抽取很少的樣本(1000個(gè),訓(xùn)練集 0.025% 的樣本數(shù)量)組成上下文提示池,在12個(gè)常見的場(chǎng)景文本識(shí)別測(cè)試集中進(jìn)行的測(cè)試,結(jié)果如下:

8eef0760-8c75-11ee-939d-92fbcf53809c.png

2.跨域場(chǎng)景

跨域場(chǎng)景下每個(gè)測(cè)試集僅提供100個(gè)域內(nèi)訓(xùn)練樣本,無(wú)訓(xùn)練和微調(diào)對(duì)比結(jié)果如下。ESTR甚至超過了SOTA方法的微調(diào)結(jié)果。

8f0ad454-8c75-11ee-939d-92fbcf53809c.png

3.困難樣本修正

研究人員收集了一批困難樣本,對(duì)這些樣本提供了10%~20%的標(biāo)注,對(duì)比ESTR的無(wú)訓(xùn)練學(xué)習(xí)方法和SOTA方法的微調(diào)學(xué)習(xí)方法,結(jié)果如下:

8f2a9f82-8c75-11ee-939d-92fbcf53809c.png

可以發(fā)現(xiàn),ESTR-ICL大大降低了困難樣本的錯(cuò)誤率。

未來展望

ESTR證明了使用合適的訓(xùn)練和推理策略,小模型也可以擁有和LLM類似的In-context Learning的能力。在一些實(shí)時(shí)性要求比較強(qiáng)的任務(wù)中,使用小模型也可以對(duì)新場(chǎng)景進(jìn)行快速的適應(yīng)。更重要的是,這種使用單一模型來實(shí)現(xiàn)對(duì)新場(chǎng)景快速適應(yīng)的方法使得構(gòu)建統(tǒng)一高效的小模型更近了一步。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52287
  • 識(shí)別器
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    7873
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3797

    瀏覽量

    5280

原文標(biāo)題:小模型也能進(jìn)行上下文學(xué)習(xí)!字節(jié)&華東師大聯(lián)合提出自進(jìn)化文本識(shí)別器

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    《多模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡(jiǎn)介

    為512維向量。 語(yǔ)言模態(tài) :BERT、GPT等預(yù)訓(xùn)練模型文本轉(zhuǎn)換為上下文相關(guān)的詞嵌入。例如\"蘋果\"在\"水果\"語(yǔ)境和\"科技公司\"
    發(fā)表于 05-01 17:46

    寧暢AI服務(wù)全棧適配DeepSeek V4大模型

    4月24日,國(guó)產(chǎn)大模型領(lǐng)域迎來重磅發(fā)布——DeepSeekV4系列正式亮相。這款新一代旗艦大模型,以雙版本MoE架構(gòu)、百萬(wàn)Token超長(zhǎng)上下文、純文本超強(qiáng)推理能力,以及極致的算力效率,
    的頭像 發(fā)表于 04-29 11:11 ?515次閱讀

    安信可AI語(yǔ)音模組支持MCP模型上下文協(xié)議

    安信可 PalChat 系列(V1/V2)支持 MCP(模型上下文協(xié)議),工程師只需寫幾十行 C 代碼,就能讓 AI 模型直接控制硬件設(shè)備。V1 基于 Ai-WB2-12F,適合快速驗(yàn)證;V2
    的頭像 發(fā)表于 04-15 09:54 ?517次閱讀

    工作流大模型節(jié)點(diǎn)說明

    推薦。 輸入 模型的輸入可以選取前面節(jié)點(diǎn)的輸入和輸出的參數(shù),可以手動(dòng)輸入具體的值。 模型根據(jù)輸入的參數(shù),以及提示詞,生成回復(fù)。 會(huì)話上下文 開關(guān)控制是否將會(huì)話
    發(fā)表于 03-19 14:56

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語(yǔ)言。大語(yǔ)言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁(yè)、文章等)進(jìn)行預(yù)訓(xùn)練,學(xué)會(huì)語(yǔ)言的模式、知識(shí)和
    的頭像 發(fā)表于 02-02 16:36 ?1154次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    NVIDIA BlueField-4為推理上下文記憶存儲(chǔ)平臺(tái)提供強(qiáng)大支持

    隨著代理式 AI 工作流將上下文窗口擴(kuò)展到數(shù)百萬(wàn)個(gè) token,并將模型規(guī)模擴(kuò)展到數(shù)百萬(wàn)億個(gè)參數(shù),AI 原生企業(yè)正面臨著越來越多的擴(kuò)展挑戰(zhàn)。這些系統(tǒng)目前依賴于智能體長(zhǎng)期記憶來存儲(chǔ)跨多輪、工具和會(huì)話持續(xù)保存的上下文,以便智能體能夠
    的頭像 發(fā)表于 02-02 10:29 ?1328次閱讀
    NVIDIA BlueField-4為推理<b class='flag-5'>上下文</b>記憶存儲(chǔ)平臺(tái)提供強(qiáng)大支持

    深入解析NVIDIA Nemotron 3系列開放模型

    這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE 架構(gòu),使多智能體系統(tǒng)能夠進(jìn)行快速長(zhǎng)上下文推理。
    的頭像 發(fā)表于 12-24 10:34 ?4373次閱讀
    深入解析NVIDIA Nemotron 3系列開放<b class='flag-5'>模型</b>

    大語(yǔ)言模型如何處理上下文窗口中的輸入

    本博客介紹了五個(gè)基本概念,闡述了大語(yǔ)言模型如何處理上下文窗口中的輸入。通過明確的例子和實(shí)踐中獲得的見解,本文介紹了多個(gè)與上下文窗口有關(guān)的基本概念,如詞元化、序列長(zhǎng)度和注意力等。
    的頭像 發(fā)表于 12-03 13:48 ?789次閱讀
    大語(yǔ)言<b class='flag-5'>模型</b>如何處理<b class='flag-5'>上下文</b>窗口中的輸入

    請(qǐng)問riscv中斷還需要軟件保存上下文和恢復(fù)嗎?

    的處理在進(jìn)入和退出中斷處理模式時(shí)沒有硬件自動(dòng)保存和恢復(fù)上下文(通用寄存)的操作,因此需要軟件明確地使用(匯編語(yǔ)言編寫的)指令進(jìn)行上下文
    發(fā)表于 10-20 09:56

    米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    配置模型路徑、max_new_tokens(生成內(nèi)容最大 token 數(shù))、max_context_len(最大上下文長(zhǎng)度)、top_k、特殊 token 等關(guān)鍵參數(shù);隨后加載視覺編碼模型
    發(fā)表于 09-05 17:25

    HarmonyOSAI編程編輯區(qū)代碼續(xù)寫

    場(chǎng)景),便于模型能理解代碼上下文。 代碼生成設(shè)置 進(jìn)入File &amp;gt; Settings &amp;gt; CodeGenie &amp
    發(fā)表于 08-21 15:43

    HarmonyOS AI輔助編程工具(CodeGenie)代碼續(xù)寫

    注釋行場(chǎng)景),便于模型能理解代碼上下文。 二、代碼生成設(shè)置 進(jìn)入File &amp;gt; Settings &amp;gt; CodeGenie &
    發(fā)表于 07-15 16:15

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版

    摘要:隨著鴻蒙系統(tǒng)API升級(jí)至16版本(modelVersion5.1.1),多項(xiàng)API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發(fā)表于 07-01 10:57 ?919次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版

    新知|Verizon與AT&amp;amp;amp;T可以手機(jī)直接連接衛(wèi)星了

    近日,Verizon與AT&amp;T宣布,手機(jī)直連衛(wèi)星方面取得重要進(jìn)展,使用普通手機(jī)實(shí)現(xiàn)了通過衛(wèi)星的視頻通話。很顯然,Verizon與AT&amp;T的這一舉措是針對(duì)此前T-Mobile
    的頭像 發(fā)表于 06-19 07:07 ?1410次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T<b class='flag-5'>也</b>可以手機(jī)直接連接衛(wèi)星了

    Transformer架構(gòu)中編碼的工作流程

    編碼是Transformer體系結(jié)構(gòu)的基本組件。編碼的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼
    的頭像 發(fā)表于 06-10 14:27 ?1233次閱讀
    Transformer架構(gòu)中編碼<b class='flag-5'>器</b>的工作流程
    蓬莱市| 利辛县| 鱼台县| 海安县| 宜黄县| 乌审旗| 鹤庆县| 小金县| 郎溪县| 红原县| 长治市| 错那县| 滨海县| 尉犁县| 东海县| 盐亭县| 万全县| 合阳县| 鹿邑县| 白玉县| 韩城市| 深水埗区| 荆州市| 龙州县| 宾川县| 江安县| 福贡县| 加查县| 惠州市| 宣城市| 乐清市| 巴林右旗| 芦溪县| 枣阳市| 四平市| 宁南县| 香河县| 诏安县| 凭祥市| 平谷区| 开远市|