1 月 29 日,百度正式發(fā)布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數(shù)的輕量架構(gòu),在全球權(quán)威文檔解析評測榜單 OmniDocBench V1.5 中取得全球綜合性能第一成績,整體精度達(dá)到 94.5%,超過 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2 等模型。
值得關(guān)注的是,PaddleOCR-VL-1.5 全球首次實現(xiàn) OCR 模型的“異形框定位”能力,使機器能夠精準(zhǔn)識別傾斜、彎折、拍照畸變等非規(guī)則文檔形態(tài),首次讓“歪文檔”實現(xiàn)穩(wěn)定、可規(guī)?;馕?。該技術(shù)解決了傳統(tǒng) OCR 模型在移動拍照、掃描件變形、復(fù)雜光照等真實場景中因文檔形變導(dǎo)致的識別失敗問題,可廣泛應(yīng)用于金融票據(jù)處理、檔案數(shù)字化、政務(wù)文檔流轉(zhuǎn)等場景。
PaddleOCR-VL-1.5 基于文心大模型進(jìn)行開發(fā),在 OmniDocBench V1.5 多個關(guān)鍵指標(biāo)上取得領(lǐng)先表現(xiàn)。其中,表格結(jié)構(gòu)理解(92.8 分)和閱讀順序預(yù)測(95.8 分)兩項核心指標(biāo)上均位列第一,分別領(lǐng)先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文檔閱讀順序預(yù)測任務(wù)中,其版面邏輯解析錯誤率僅為同類其他模型約一半。這表明,PaddleOCR-VL-1.5 在復(fù)雜文檔結(jié)構(gòu)還原與版面邏輯理解方面具備更高穩(wěn)定性,在合同、財報等高復(fù)雜度業(yè)務(wù)場景中擁有更高可用性。

2025 年 10 月 16 日,百度首次發(fā)布并開源 PaddleOCR-VL 模型,在 OmniDocBench V1.5 榜單中取得全球 SOTA 成績,并連續(xù)五天登頂 HuggingFace 全球模型總趨勢榜與 ModelScope 全球模型總趨勢榜雙榜第一。
相比于上代,在功能層面,PaddleOCR-VL-1.5 進(jìn)一步集成印章識別、文本檢測與識別等任務(wù)能力,關(guān)鍵指標(biāo)持續(xù)領(lǐng)跑;同時針對特殊場景與多語種識別進(jìn)行系統(tǒng)優(yōu)化,在生僻字、古籍文獻(xiàn)、多語種表格、下劃線與復(fù)選框等復(fù)雜結(jié)構(gòu)識別方面顯著提升,并新增對藏語、孟加拉語等語種的支持。模型還支持跨頁表格自動合并與跨頁段落標(biāo)題識別,有效解決長文檔解析中的結(jié)構(gòu)斷裂問題。
近半年來,全球主流模型廠商密集布局 OCR 領(lǐng)域。1 月 27 日,深度求索發(fā)布新一代 OCR 模型 DeepSeek-OCR-2,引入“因果流查詢”機制,并將語言模型融入視覺編碼,在 OmniDocBench V1.5 中實現(xiàn) 91.09% 精度。與此同時,Mistral AI、字節(jié)跳動、騰訊等企業(yè)也相繼推出新一代 OCR 模型,行業(yè)競爭持續(xù)加劇。
業(yè)內(nèi)分析認(rèn)為,隨著大模型加速進(jìn)入金融、政務(wù)、制造等高復(fù)雜度業(yè)務(wù)流程,文檔解析能力正從“能用”走向“穩(wěn)定可規(guī)?;涞亍?。PaddleOCR-VL-1.5 在精度、復(fù)雜場景適應(yīng)性與工程化能力上的系統(tǒng)突破,有望進(jìn)一步降低產(chǎn)業(yè)應(yīng)用門檻,推動 OCR 技術(shù)在真實生產(chǎn)環(huán)境中的深度落地。
目前,PaddleOCR-VL-1.5 已全面開源,開發(fā)者可通過 GitHub、Hugging Face 獲取,并在 PaddleOCR 官網(wǎng)進(jìn)行在線體驗或通過百度智能云千帆平臺調(diào)用 API 接口。
在線使用/API:
https://www.paddleocr.com
開源項目地址
https://github.com/PaddlePaddle/PaddleOCR
模型下載地址:
https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
-
百度
+關(guān)注
關(guān)注
9文章
2389瀏覽量
95246 -
開源
+關(guān)注
關(guān)注
3文章
4368瀏覽量
46464 -
模型
+關(guān)注
關(guān)注
1文章
3831瀏覽量
52287
原文標(biāo)題:性能超越DeepSeek-OCR2,百度發(fā)布并開源新一代SOTA OCR模型
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
海光DCU Day0適配百度文心ERNIE-Image文生圖模型
瀚博半導(dǎo)體宣布深度參與百度飛槳黑客松生態(tài)活動
百度地圖與NIMO眼鏡達(dá)成深度合作
百度文心衍生模型PaddleOCR登頂GitHub Star OCR全球第一
智譜AI正式上線并開源全新一代大模型GLM-5
沐曦曦云C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型
使用 Docker 一鍵部署 PaddleOCR-VL: 新手保姆級教程
商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO
新一代AtomGit平臺暨人工智能開源社區(qū)發(fā)布
65%央企大模型落地首選百度智能云
百度地圖重磅發(fā)布地圖AI開放平臺
百度文心大模型X1 Turbo獲得信通院當(dāng)前大模型最高評級證書
百度發(fā)布2025年Q1財報 蘿卜快跑一季度全球訂單超140萬
百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5
評論