人妻久久精品成人电影,伊在人线综合网

導(dǎo)讀

OCR中的研究，工具和挑戰(zhàn)，都在這兒了。

介紹

我喜歡OCR(光學(xué)字符識(shí)別)。對(duì)我來(lái)說(shuō)，它代表了數(shù)據(jù)科學(xué)，尤其是計(jì)算機(jī)視覺的真正挑戰(zhàn)。這是一個(gè)現(xiàn)實(shí)世界的問(wèn)題，它有很多方法，包括計(jì)算機(jī)視覺，pipeline調(diào)整，甚至一些自然語(yǔ)言處理。它也需要大量的工程設(shè)計(jì)。它概括了數(shù)據(jù)科學(xué)中的許多問(wèn)題：破壞了強(qiáng)大的基準(zhǔn)，過(guò)分強(qiáng)調(diào)方法的復(fù)雜性和“新穎性”，而不是關(guān)注現(xiàn)實(shí)世界的進(jìn)步。

兩年前，我發(fā)表了一篇關(guān)于OCR的文章。像我的大多數(shù)文章一樣，這篇文章意在回顧這個(gè)領(lǐng)域的研究和實(shí)踐，闡明你能做什么，不能做什么，如何做，為什么做，并提供實(shí)用的例子。

它的本質(zhì)是，當(dāng)時(shí)的深度學(xué)習(xí)OCR是好的，但還不夠好?，F(xiàn)在，OCR要好得多。但還是不太好。

但是，考慮到深度學(xué)習(xí)領(lǐng)域的活力，在我看來(lái)，它需要一個(gè)更新，甚至是完全重寫。就是這樣。如果你來(lái)到這里，你可能對(duì)OCR感興趣。你要么是一名學(xué)生，要么是一名想要研究這個(gè)領(lǐng)域的研究員，要么你有商業(yè)興趣。不管怎樣，這篇文章應(yīng)該能讓你跟上進(jìn)度。

開始

首先，讓我們理清我們的概念:

OCR- 光學(xué)字符識(shí)別。這是一個(gè)常見的術(shù)語(yǔ)，主要指文檔上的結(jié)構(gòu)化文本。

STR- 場(chǎng)景文本識(shí)別。大多指的是在野外場(chǎng)景中更具有挑戰(zhàn)性的文本。為了簡(jiǎn)單起見，我們將它們都稱為OCR。

如前所述，OCR描述了深度學(xué)習(xí)和一般數(shù)據(jù)科學(xué)領(lǐng)域的許多成就，但也面臨著挑戰(zhàn)。一方面，這是我們之前的巨大進(jìn)步。同樣是令人印象深刻的同比進(jìn)步。然而，OCR仍然沒有解決。

還有一些非常惱人的失敗案例，原因各不相同，大部分都是源于標(biāo)準(zhǔn)深度學(xué)習(xí)的根本原因 —— 缺乏泛化、易受噪聲影響等。因此，即使模型可以處理許多情況(不同的字體、方向、角度、曲線、背景)，也有一些偏差是不能工作的(只要它們不是手動(dòng)引入到訓(xùn)練集中)：不流行的字體、符號(hào)、背景等等。

任意形狀的文本 — 來(lái)自ICDAR 2019數(shù)據(jù)集

此外，還出現(xiàn)了一個(gè)偉大而有用的庫(kù)Easy OCR：https://github.com/JaidedAI/EasyOCR，它的目標(biāo)是使最先進(jìn)的OCR方法在開源中易于訪問(wèn)和使用。作為額外的好處，這個(gè)庫(kù)還解決了OCR中的多語(yǔ)言問(wèn)題(目前包括大約80種語(yǔ)言和更多的語(yǔ)言)和模型的速度(仍處于早期階段)。這個(gè)庫(kù)并不完美，但它確實(shí)是一個(gè)很好的解決方案。稍后再詳細(xì)介紹。

因此，廢話不多說(shuō)，讓我們看一下OCR當(dāng)前的狀態(tài)。

值得注意的研究

一如既往，數(shù)據(jù)科學(xué)任務(wù)的邊界被研究擴(kuò)展，而實(shí)踐在創(chuàng)新方面落后，但在穩(wěn)健性方面領(lǐng)先。

在我之前的文章中，我回顧了3種方：

當(dāng)時(shí)流行的經(jīng)典計(jì)算機(jī)視覺方法

一般深度學(xué)習(xí)方法，檢測(cè)和識(shí)別，效率高，易于使用。

特定的深度學(xué)習(xí)方法，如CRNN和STN能取得良好的結(jié)果，但“太新，不能信任”。

在這篇文章中，我們可以說(shuō)，特定的深度學(xué)習(xí)方法已經(jīng)成熟，并且在研究和實(shí)踐中都占據(jù)主導(dǎo)地位。

任務(wù)

在上一篇文章中，我們使用了一些例子，它們?cè)诋?dāng)前狀態(tài)下看起來(lái)可能很簡(jiǎn)單：車牌識(shí)別，驗(yàn)證碼識(shí)別等等。今天的模型更有效，我們可以討論更困難的任務(wù)，例如：

解析截圖

解析商業(yè)手冊(cè)

數(shù)字媒體解析

街道文本檢測(cè)

Pipeline

在OCR上應(yīng)用標(biāo)準(zhǔn)的目標(biāo)檢測(cè)和分割方法后，方法開始變得更加具體，并針對(duì)文本屬性：

文本是同構(gòu)的，文本的每個(gè)子部分仍然是文本

文本可能在不同的層次上被檢測(cè)到，字符，單詞，句子，段落等。

因此，現(xiàn)代的OCR方法“隔離”特定的文本特征，并使用不同模型的“pipeline”來(lái)處理它們。

在這里，我們將專注于一個(gè)特定的設(shè)置，實(shí)際上是一個(gè)模型pipeline，除了視覺模型(特征提取器)，還有一些更有用的組件：

Pipeline的圖

Pipeline的第一個(gè)部分是文本檢測(cè)。顯然，如果要使用不同的部分的文本，在識(shí)別實(shí)際字符之前檢測(cè)文本的位置可能是個(gè)好主意。這部分是與其他部分分開訓(xùn)練的。

Pipeline的第二個(gè)部分是可選的：轉(zhuǎn)換層。它的目標(biāo)是處理各種扭曲的文本，并將其轉(zhuǎn)換為更“常規(guī)”的格式(參見pipeline圖)。

第三部分是視覺特征提取器，它可以是你最喜歡的深度模型。

Pipeline的第四個(gè)部分是RNN，它的目的是學(xué)習(xí)重復(fù)的文本序列。

第五部分也就是最后一部分是CTC的損失。最近的文章用注意機(jī)制取代了它。

該pipeline除了檢測(cè)部分外，大多是端到端訓(xùn)練，以減少?gòu)?fù)雜性。

Pipeline的問(wèn)題

Pipeline中有不同的組件是很好的，但是它有一些缺點(diǎn)。每個(gè)組件都有它自己的偏差和超參數(shù)集，這導(dǎo)致了另一個(gè)層次的復(fù)雜性。

數(shù)據(jù)集

眾所周知，所有好的數(shù)據(jù)科學(xué)工作的基礎(chǔ)都是數(shù)據(jù)集，而在OCR中，數(shù)據(jù)集是至關(guān)重要的：選擇的訓(xùn)練和測(cè)試數(shù)據(jù)集對(duì)結(jié)果有重要的影響。多年來(lái)，OCR任務(wù)在十幾種不同的數(shù)據(jù)集中進(jìn)行了磨礪。然而，它們中的大多數(shù)并沒有包含超過(guò)幾千張帶標(biāo)注的圖像，這對(duì)于擴(kuò)展來(lái)說(shuō)似乎不夠。另一方面，OCR任務(wù)是最容易使用合成數(shù)據(jù)的任務(wù)之一。

讓我們看看有哪些重要的數(shù)據(jù)集可用：

“真實(shí)” 數(shù)據(jù)集

一些數(shù)據(jù)集利用了谷歌街景。這些數(shù)據(jù)集可以被劃分為規(guī)則或不規(guī)則(扭曲的、有角度的、圓角的)文本。

SVHN— 街景編號(hào)，我們?cè)谏弦黄恼碌睦又惺褂眠^(guò)。

SVT— 街景文字，文字圖像來(lái)自谷歌街景。

ICDAR(2003, 2013,2015, 2019) — 為ICDAR和競(jìng)賽創(chuàng)建的一些數(shù)據(jù)集，具有不同的重點(diǎn)。例如，2019年的數(shù)據(jù)集被稱為“任意形狀的文本”，這意味著，無(wú)論它變得多么不規(guī)則都有可能。

生成數(shù)據(jù)集

目前流行的合成數(shù)據(jù)集有兩種，它們?cè)诖蠖鄶?shù)OCR工作中被使用。不一致的使用使得作品之間的比較具有挑戰(zhàn)性。

MJ Synth— 包括相對(duì)簡(jiǎn)單的單詞組成。數(shù)據(jù)集本身包括~9M的圖像。

Synthtext— 具有更復(fù)雜的機(jī)制，它在第一階段應(yīng)用分割和圖像深度估計(jì)，然后在推斷的表面上“種出”文本。數(shù)據(jù)集本身包含約5.5M的圖像。

DALL-E — 這有點(diǎn)不確定，但是文本圖像生成(可能還有OCR)的未來(lái)似乎更加趨向于無(wú)監(jiān)督。

這些合成數(shù)據(jù)集還擅長(zhǎng)生成不同的語(yǔ)言，甚至是比較難的語(yǔ)言，比如漢語(yǔ)、希伯來(lái)語(yǔ)和阿拉伯語(yǔ)。

度量

在討論具體的研究論文之前，我們需要確定成功的標(biāo)準(zhǔn)。顯然有不止一種選擇。

首先，讓我們考慮一下文本檢測(cè)的方式，它可以使用標(biāo)準(zhǔn)的目標(biāo)檢測(cè)指標(biāo)，如平均平均精度，甚至標(biāo)準(zhǔn)精度和召回。

現(xiàn)在到了有趣的部分：識(shí)別。有兩個(gè)主要的指標(biāo)：?jiǎn)卧~級(jí)別的準(zhǔn)確性和字符級(jí)別的準(zhǔn)確性。特定的任務(wù)可能需要更高的準(zhǔn)確性(例如文本塊的準(zhǔn)確性)。目前最先進(jìn)的方法在具有挑戰(zhàn)性的數(shù)據(jù)集上顯示了80%的準(zhǔn)確性(我們將在后面討論)。

字符級(jí)別本身用“歸一化編輯距離”來(lái)封裝，該距離度量單詞之間相似字符的比例。

研究論文

在這篇文章中，我們關(guān)注的是最佳實(shí)踐，而不是構(gòu)想。我建議你去看看篇綜述：https://arxiv.org/pdf/1811.04256.pdf，你會(huì)發(fā)現(xiàn)有很多方法讓你很難做出選擇。

場(chǎng)景文本識(shí)別的問(wèn)題是什么？

這個(gè)工作名字很不一樣，文章https://arxiv.org/abs/1904.01906本身也很出色。這是一種前瞻性的調(diào)研，內(nèi)容有：

定義統(tǒng)一的訓(xùn)練和測(cè)試集(經(jīng)過(guò)一些優(yōu)化后)。

在數(shù)據(jù)集上測(cè)試基準(zhǔn)的最佳實(shí)踐。

對(duì)方法進(jìn)行邏輯結(jié)構(gòu)的整理，并“幫助”讀者理解使用什么方法。

固定測(cè)試集上OCR pipeline的分類

所以本文的重點(diǎn)是：

對(duì)于OCR來(lái)說(shuō)，訓(xùn)練數(shù)據(jù)集(可能被認(rèn)為是“最好的”)是兩個(gè)合成數(shù)據(jù)集：MJ和Synthtext。此外，重要的特征不是數(shù)量而是多樣性(減少數(shù)據(jù)量不會(huì)對(duì)模型的性能造成太大的影響，但刪除一個(gè)數(shù)據(jù)集卻會(huì)造成太大的影響)

測(cè)試數(shù)據(jù)集約為5個(gè)真實(shí)世界數(shù)據(jù)集。

論文論證了隨著每次pipeline的更新，結(jié)果逐漸改善。最顯著的改進(jìn)是從VGG到ResNet特征提取器的改動(dòng)，精度從60%提高到80%。RNN和歸一化的補(bǔ)充將模型推高到了83%。CTC到注意力更新增加了1%的準(zhǔn)確性，但推理時(shí)間增加了三倍。

文本檢測(cè)

在本文的大部分內(nèi)容中，我們將討論文本識(shí)別，但你可能還記得，pipeline的第一部分是文本檢測(cè)。實(shí)現(xiàn)當(dāng)前這一代的文本檢測(cè)模型有點(diǎn)棘手。以前，文本檢測(cè)作為目標(biāo)檢測(cè)的一個(gè)分支。然而，目標(biāo)檢測(cè)有一些設(shè)置是通用的目標(biāo)，如汽車，人臉等。當(dāng)引入文本檢測(cè)時(shí)，需要進(jìn)行一些重要的更新。

其實(shí)質(zhì)是文本既具有同質(zhì)性，又具有局部性。這意味著，一方面，文本的每個(gè)部分都是文本本身，另一方面，文本的子集應(yīng)該統(tǒng)一到更大的類別上(如把字符統(tǒng)一為單詞)。因此，基于分割的方法比基于目標(biāo)檢測(cè)的方法更適合于文本檢測(cè)。

CRAFT

我們最喜歡的目標(biāo)檢測(cè)方法被稱為CRAFT — Character Region Awareness for Text Detection，它也被集成到easy OCR中。該方法應(yīng)用了一個(gè)簡(jiǎn)單的分割網(wǎng)絡(luò)，很好地使用了真實(shí)圖像和合成圖像，以及字符級(jí)和單詞級(jí)的標(biāo)注。

CRAFT模型概要

該模型在P和R上的h均值約為80%，在大多數(shù)數(shù)據(jù)集上也有很好的分詞效果，使模型的識(shí)別更加容易。

實(shí)際的例子

我們已經(jīng)到了實(shí)際應(yīng)用的階段。你應(yīng)該用什么?所以我們已經(jīng)在前面回答了這個(gè)問(wèn)題(Easy OCR…)，但是讓我們查看一些流行的解決方案。

開源

需要注意的一件非常重要的事情是，盡管OCR受到學(xué)術(shù)界缺乏健壯性的影響，但它卻享受著開源軟件的繁榮，它允許研究人員和實(shí)踐者在彼此的工作基礎(chǔ)上進(jìn)行構(gòu)建。以前的開源工具(如Tesseract，見下文)在數(shù)據(jù)收集和從頭開始的開發(fā)中遇到了困難。最近的庫(kù)，比如Easy OCR，通過(guò)一組構(gòu)建塊，從數(shù)據(jù)生成到所有pipeline模型上可以有更多的調(diào)整。

工具

Tesseract

在很長(zhǎng)一段時(shí)間里，Tesseract OCR是領(lǐng)先的開源OCR工具(不考慮偶爾與論文相關(guān)的庫(kù))。然而，這個(gè)工具是作為一個(gè)經(jīng)典的計(jì)算機(jī)視覺工具構(gòu)建的，并沒有很好地過(guò)渡到深度學(xué)習(xí)。

APIs

OCR是大型云提供商谷歌、亞馬遜和微軟的一些早期計(jì)算機(jī)視覺API。這些API并不共享它們的能力基準(zhǔn)，所以測(cè)試成為了我們的責(zé)任。

Easy OCR

在某種程度上，Easy OCR包是這篇文章的驅(qū)動(dòng)。從不同的構(gòu)建塊構(gòu)建一個(gè)開源的、最先進(jìn)的工具的能力是很厲害的。

下面是它的工作原理：

使用MJ-Synth包生成數(shù)據(jù)。

用于檢測(cè)的CRAFT模型(見上圖)。

根據(jù)“what is wrong”的論文(見上文)訓(xùn)練一個(gè)調(diào)整后的pipeline，用于文本識(shí)別。

其他優(yōu)化。

多語(yǔ)言：如上所述，OCR包含一些NLP元素。因此，處理不同的語(yǔ)言有不同之處，但我們也可以從工藝模型(可能還有其他檢測(cè)模型)的多語(yǔ)言中受益。識(shí)別模型是特定于語(yǔ)言的，但訓(xùn)練過(guò)程是相同的。

最后一個(gè)問(wèn)題是性能，這使得它在這個(gè)階段成為“go to OCR tech” 。你可以從下面看到，它們甚至比付費(fèi)API結(jié)果還要好。

在Easy OCR中需要改進(jìn)的一點(diǎn)是調(diào)整能力：雖然語(yǔ)言選擇很容易，但是可以根據(jù)不同的目的改變模型和再訓(xùn)練。在下一篇文章中，我們將展示如何做到這一點(diǎn)。

運(yùn)行時(shí)間怎么樣？

OCR的推斷可能會(huì)很慢，這并不奇怪。檢測(cè)模型是一個(gè)標(biāo)準(zhǔn)的深度學(xué)習(xí)模型，在GPU上運(yùn)行約1秒(每張圖像)，而識(shí)別模型需要一遍又一遍的運(yùn)行檢測(cè)。在GPU上，一個(gè)包含許多目標(biāo)的圖像可能需要幾十秒，更不用說(shuō)CPU了。如果你想在你的手機(jī)或PC應(yīng)用程序上運(yùn)行OCR，使用較弱的硬件呢?

Easy OCR可以讓你學(xué)到：首先，這個(gè)庫(kù)引入了一些技巧，使推理更快(例如更緊湊的圖像切片形狀用于目標(biāo)識(shí)別)。此外，由于是模塊化的，你可以(目前需要一些代碼調(diào)整)集成你自己的模型，這樣就可以更小更快。

代碼樣例

因此，在討論了不同的包和模型之后，是時(shí)候見證實(shí)際的結(jié)果了。這個(gè)notebook：https://colab.research.google.com/drive/1kNwHLmAtvwQjesqNZ9BenzRzXT9_S80W嘗試了Easy OCR vs Google OCR vs Tesseract的對(duì)比，我選擇了2張圖像：

一種是常見的OCR case —— 來(lái)自文檔的標(biāo)準(zhǔn)結(jié)構(gòu)化文本，另一種是具有挑戰(zhàn)性的書籍封面集合：多種字體、背景、朝向(不是很多)等等。

我們將嘗試三種不同的方法：Easy OCR、Google OCR API(在大型技術(shù)云API中被認(rèn)為是最好的)和古老的Tesseract。

PDF

在這類文本上，Tesseract和Google OCR的性能是完美的。這是有意義的，因?yàn)镚oogle OCR可能在某種程度上基于Tesseract。

注意Google OCR對(duì)于這種文本有一個(gè)特殊的模式 — DOCUMENT_TEXT_DETECTION，應(yīng)該用這個(gè)，而不是標(biāo)準(zhǔn)的TEXT_DETECTION。

Easy OCR的準(zhǔn)確率約為95%。

有挑戰(zhàn)的圖像

左：Google OCR，右：Easy OCR

總體而言，Easy OCR效果最好。具體來(lái)說(shuō)，檢測(cè)部分捕獲了大約80%的目標(biāo)，包括非常具有挑戰(zhàn)性的對(duì)角線目標(biāo)。

Google OCR更糟，大約60%。

在識(shí)別方面，他們?cè)谧址?jí)別上的識(shí)別率約為70%，這使得他們?cè)趩卧~或書的級(jí)別上識(shí)別率不高?？雌饋?lái)，Google OCR在單本書上沒有100%正確的，而Easy OCR有一些可以。

我注意到的另外一件事是，Easy OCR在字符級(jí)別上表現(xiàn)更好，Google OCR在單詞級(jí)別上更好 —— 這讓我認(rèn)為它可能在后臺(tái)使用了字典。

英文原文：https://towardsdatascience.com/ocr-101-all-you-need-to-know-e6a5c5d5875b

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴