日韩一区久久久久久久,亚洲成色乱码精品一区

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式？以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟——

這一次，只需一句話命令，多模態(tài)大模型 Vary 直接端到端輸出結(jié)果：

無論是中英文的大段文字：

還是包含了公式的文檔圖片：

又或是手機頁面截圖：

甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式：

當然，作為多模大模型，通用能力的保持也是必須的：

Vary 表現(xiàn)出了很大的潛力和極高的上限，OCR 可以不再需要冗長的 pipline，直接端到端輸出，且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強的語言先驗，這種架構(gòu)還可以避免 OCR 中的易錯字，比如“杠桿”和“杜桿”等，對于模糊文檔，也有望在語言先驗的幫助下實現(xiàn)更強的 OCR 效果。

項目一出，引發(fā)了不少網(wǎng)友的關(guān)注，有網(wǎng)友看后直呼 “kill the game！”

那么這樣的效果，是如何做到的呢？

背后原理

目前的多模態(tài)大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實，在 400M 圖像文本對訓練的 CLIP 有很強的視覺文本對齊能力，可以覆蓋多數(shù)日常任務下的圖像編碼。但是對于密集和細粒度感知任務，比如文檔級別的 OCR、Chart 理解，特別是在非英文場景，CLIP 表現(xiàn)出了明顯的編碼低效和 out-of-vocabulary問題。

受語言的 LLMs 啟發(fā)，純 NLP 大模型（如 LLaMA）從英文到中文（外語）時因為原始詞表編碼中文效率低，必須要擴大 text 詞表。那么對于現(xiàn)在基于 CLIP 視覺詞表的多模大模型也是一樣的，遇到 “foreign language image”，如一頁論文密密麻麻的文字，很難高效地將圖片 token 化，Vary 提出就是解決這一問題，在不 overwrite 原有詞表前提下，高效擴充視覺詞表。

不同于現(xiàn)有方法直接用現(xiàn)成的 CLIP 詞表，Vary 分兩個階段：第一階段先用一個很小的 Decoder-only 網(wǎng)絡用自回歸方式幫助產(chǎn)生一個強大的新視覺詞表；然后在第二階段融合新詞表和 CLIP 詞表，從而高效的訓練多模大模型擁有新 feature。Vary 的訓練方法和模型結(jié)構(gòu)如下圖：

通過在公開數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓練，Vary 極大增強了細粒度的視覺感知能力。在保持 Vanilla 多模態(tài)能力的同時，激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外，原本可能需要幾千 tokens 的頁面內(nèi)容，通過文檔圖片輸入，信息被Vary壓縮在了 256 個圖像 tokens 中。這也為進一步的頁面分析和總結(jié)提供了更多的想象空間。

目前，Vary 的代碼和模型均已開源，還給出了供大家試玩的網(wǎng)頁 demo。感興趣的小伙伴可以去試試了～

項目主頁：

https://varybase.github.io/

參考鏈接

https://zhuanlan.zhihu.com/p/671420712

· ·

原文標題：OCR終結(jié)了？曠視提出可以文檔級OCR的多模態(tài)大模型框架Vary，支持中英文，已開源！

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴