日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OCR終結(jié)了?曠視提出可以文檔級OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-12-24 21:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式?以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟——

這一次,只需一句話命令,多模態(tài)大模型 Vary 直接端到端輸出結(jié)果:

無論是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

還是包含了公式的文檔圖片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手機頁面截圖:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

當然,作為多模大模型,通用能力的保持也是必須的:

Vary 表現(xiàn)出了很大的潛力和極高的上限,OCR 可以不再需要冗長的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強的語言先驗,這種架構(gòu)還可以避免 OCR 中的易錯字,比如“杠桿”和“杜桿”等, 對于模糊文檔,也有望在語言先驗的幫助下實現(xiàn)更強的 OCR 效果。

項目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么這樣的效果,是如何做到的呢?

背后原理

目前的多模態(tài)大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實,在 400M 圖像文本對訓練的 CLIP 有很強的視覺文本對齊能力,可以覆蓋多數(shù)日常任務下的圖像編碼。但是對于密集和細粒度感知任務,比如文檔級別的 OCR、Chart 理解,特別是在非英文場景,CLIP 表現(xiàn)出了明顯的編碼低效和 out-of-vocabulary問題。

受語言的 LLMs 啟發(fā),純 NLP 大模型(如 LLaMA)從英文到中文(外語)時因為原始詞表編碼中文效率低,必須要擴大 text 詞表。那么對于現(xiàn)在基于 CLIP 視覺詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問題,在不 overwrite 原有詞表前提下,高效擴充視覺詞表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于現(xiàn)有方法直接用現(xiàn)成的 CLIP 詞表,Vary 分兩個階段:第一階段先用一個很小的 Decoder-only 網(wǎng)絡用自回歸方式幫助產(chǎn)生一個強大的新視覺詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓練多模大模型擁有新 feature。Vary 的訓練方法和模型結(jié)構(gòu)如下圖:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通過在公開數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓練,Vary 極大增強了細粒度的視覺感知能力。在保持 Vanilla 多模態(tài)能力的同時,激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,原本可能需要幾千 tokens 的頁面內(nèi)容,通過文檔圖片輸入,信息被Vary壓縮在了 256 個圖像 tokens 中。這也為進一步的頁面分析和總結(jié)提供了更多的想象空間。

目前,Vary 的代碼和模型均已開源,還給出了供大家試玩的網(wǎng)頁 demo。感興趣的小伙伴可以去試試了~

項目主頁:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

參考鏈接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg ?

https://zhuanlan.zhihu.com/p/671420712

· ·


原文標題:OCR終結(jié)了?曠視提出可以文檔級OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:OCR終結(jié)了?曠視提出可以文檔級OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    云知聲Unisound U1-OCR系列模型架構(gòu)升級

    2026年2月26日,我們正式發(fā)布首個工業(yè)級文檔智能基礎大模型 Unisound U1-OCR,以“性能SOTA、可信可驗、開箱即用、高效部署、強適配”五大核心優(yōu)勢,重塑傳統(tǒng)文檔處理邊
    的頭像 發(fā)表于 04-23 10:40 ?294次閱讀
    云知聲Unisound U1-<b class='flag-5'>OCR</b>系列<b class='flag-5'>模型</b>架構(gòu)升級

    百度文心衍生模型PaddleOCR登頂GitHub Star OCR全球第一

    3月30日,百度文心衍生模型PaddleOCR在GitHub上的Star數(shù)突破73.3K,超越谷歌Tesseract OCR,成為全球Star數(shù)最高的OCR項目。
    的頭像 發(fā)表于 03-31 11:40 ?499次閱讀

    云知聲正式推出Unisound U1-OCR文檔智能基礎大模型

    就在剛剛,云知聲正式推出 Unisound U1-OCR 文檔智能基礎大模型。作為首個工業(yè)級文檔智能基座,該模型憑借 “性能 SOTA、可信
    的頭像 發(fā)表于 02-26 17:28 ?917次閱讀
    云知聲正式推出Unisound U1-<b class='flag-5'>OCR</b><b class='flag-5'>文檔</b>智能基礎大<b class='flag-5'>模型</b>

    智能顯示模塊可以實現(xiàn)中英文界面顯示嗎?

    智能顯示模塊可以實現(xiàn)中英文界面顯示嗎?
    發(fā)表于 02-26 10:22

    工業(yè)級OCR手持終端怎么選?國產(chǎn)OCR智能識別pda實測

    工業(yè)環(huán)境專用OCR智能PDA怎么選?鳥鳥科技N70Socr具備IP67防塵防水+1.5米抗跌落,5000mAh可拆卸電池支持24小時輪班作業(yè)。專業(yè)OCR掃描頭+斑馬/霍尼二維碼引擎雙模組,285g人體工學設計,讓高強度數(shù)據(jù)采集更
    的頭像 發(fā)表于 02-07 17:45 ?517次閱讀
    工業(yè)級<b class='flag-5'>OCR</b>手持終端怎么選?國產(chǎn)<b class='flag-5'>OCR</b>智能識別pda實測

    系統(tǒng)寄存器的應用?如何實現(xiàn)中英文模式下的不同屏保頁功能?定時功能?背光等級查看?

    系統(tǒng)寄存器的應用?如何實現(xiàn)中英文模式下的不同屏保頁功能?定時功能?背光等級查看?
    發(fā)表于 02-03 14:20

    沐曦曦云C500/C550 GPU產(chǎn)品適配智譜GLM-OCR模型

    今天,智譜AI正式發(fā)布并開源GLM-OCR,以 “小尺寸、高精度” 實現(xiàn)文檔解析能力新標桿。沐曦股份曦云C500/C550 GPU充分發(fā)揮高生態(tài)兼容性、軟硬協(xié)同能力優(yōu)勢,高效完成與智譜GLM-
    的頭像 發(fā)表于 02-03 11:36 ?966次閱讀
    沐曦曦云C500/C550 GPU產(chǎn)品適配智譜GLM-<b class='flag-5'>OCR</b><b class='flag-5'>模型</b>

    百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發(fā)布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數(shù)的輕量架構(gòu),在全球權(quán)威文檔
    的頭像 發(fā)表于 01-30 10:03 ?841次閱讀
    百度正式發(fā)布并<b class='flag-5'>開源</b>新一代<b class='flag-5'>文檔</b>解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規(guī)?;母咝阅?OCR 能力

    一、行業(yè)背景與核心挑戰(zhàn):OCR 規(guī)?;瘧玫年P(guān)鍵瓶頸 **隨著文檔識別技術(shù)的不斷成熟,OCR 技術(shù)已從實驗性階段逐步走向?qū)嶋H業(yè)務場景,在政務、金融、制造、物流等多個行業(yè)中得到廣泛應用。然而,在規(guī)?;?/div>
    的頭像 發(fā)表于 01-22 21:02 ?360次閱讀
    DeepX <b class='flag-5'>OCR</b>:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規(guī)?;母咝阅?<b class='flag-5'>OCR</b> 能力

    商湯科技正式發(fā)布并開源全新模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學S-Lab合作研發(fā)的全新模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova
    的頭像 發(fā)表于 12-08 11:19 ?1203次閱讀
    商湯科技正式發(fā)布并<b class='flag-5'>開源</b>全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>模型</b>架構(gòu)NEO

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?395次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰(zhàn)解析

    與一致性校驗,實現(xiàn)高精度、低成本的小語種OCR訓練數(shù)據(jù)生成。該方案將數(shù)據(jù)準備周期 從數(shù)周縮短至數(shù)小時 ,為小語種模型的快速迭代與冷啟動提供了全新范式 一、引言:小語種OCR的“數(shù)據(jù)之困” 在跨境支付、多語言
    的頭像 發(fā)表于 08-29 11:26 ?3892次閱讀
    小語種<b class='flag-5'>OCR</b>標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰(zhàn)解析

    【嘉楠堪智K230開發(fā)板試用體驗】+OCR實現(xiàn)

    匹配等步驟,將掃描文檔、照片或截圖中的文字準確識別并數(shù)字化。OCR廣泛應用于文檔電子化、車牌識別、票據(jù)處理、歷史檔案保存等領(lǐng)域,極大地提升了信息處理的效率與準確性。隨著深度學習的發(fā)展,現(xiàn)代OC
    發(fā)表于 08-23 18:53

    端側(cè)OCR文字識別實現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##

    ,使用場景中就包括了“通用文字識別”,即我們前文中所說的ocr功能。 其整體流程概括為: 首先通過各種方法得到一張圖片,例如拍照、從相冊中選擇、甚至你也可以通過canvas畫布生成的圖片或者通過組件
    發(fā)表于 06-30 18:07

    OCR識別訓練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄了26張圖片,都標注好了,點擊開始訓練,顯示訓練成功了,也將壓縮包發(fā)到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您添加點,參考我們的ocr
    發(fā)表于 05-28 06:46
    荆门市| 名山县| 巫溪县| 清河县| 始兴县| 耿马| 鹤庆县| 新宁县| 安阳市| 盐津县| 鄂尔多斯市| 江城| 鸡泽县| 双江| 湖州市| 淅川县| 平江县| 怀远县| 胶南市| 无极县| 张家界市| 岐山县| 苏州市| 自治县| 金溪县| 建瓯市| 宜昌市| 泸西县| 吉林市| 河南省| 习水县| 扶风县| 旬阳县| 志丹县| 常州市| 阿拉尔市| 马鞍山市| 柳林县| 岫岩| 新丰县| 巴林左旗|