日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OCR如何自動(dòng)識(shí)別圖片文字

科技綠洲 ? 來(lái)源:Python實(shí)用寶典 ? 作者:Python實(shí)用寶典 ? 2023-10-31 16:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OCR 是光學(xué)字符識(shí)別(英語(yǔ):Optical Character Recognition,OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過(guò)程。

很早之前就有同學(xué)在公眾號(hào)后臺(tái)回復(fù)希望出一篇 OCR 相關(guān)的文章,今天嘗試了一下 cnocr 和 tesseract 兩個(gè) Python 開(kāi)源識(shí)別工具的效果,給大家分別講講兩個(gè)工具的使用方法和對(duì)比效果。

1.準(zhǔn)備

開(kāi)始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒(méi)有,可以訪問(wèn)這篇文章:超詳細(xì)Python安裝指南 進(jìn)行安裝。

(可選1) 如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.

(可選2) 此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點(diǎn):Python 編程的最好搭檔—VSCode 詳細(xì)指南

請(qǐng)選擇以下任一種方式輸入命令安裝依賴(lài)

  1. Windows 環(huán)境 打開(kāi) Cmd (開(kāi)始-運(yùn)行-CMD)。
  2. MacOS 環(huán)境 打開(kāi) Terminal (command+空格輸入Terminal)。
  3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.

(選擇一)安裝 cnocr:

pip install cnocr

看到 Successfully installed xxx 則說(shuō)明安裝成功。

如果你只想對(duì)圖片中的中文進(jìn)行識(shí)別,那么 cnocr 是一個(gè)不錯(cuò)的選擇,你只需要安裝 cnocr 包即可。

但如果你想試試其他語(yǔ)言的OCR識(shí)別,Tesseract 是更好的選擇。

(選擇二)安裝 pytesseract:

首先,無(wú)論是Windows還是macOS,你都需要安裝 pytesseract:

pip install pytesseract

其次,還需要安裝Tesseract.

(macOS) Tesseract 在macOS下可以使用brew安裝:

brew install tesseract

非常方便,一條命令即可完成安裝。

(Windows )**** 安裝Tesseract

需要先下載安裝tesseract的程序,然后下載中文簡(jiǎn)體字預(yù)訓(xùn)練好的模型包(盡管本教程不會(huì)用tesseract,但還是給大家提供了)。

下載完成后,將 tesseract-ocr-setup-4.00.00dev.exe 安裝到 Tesseract-OCR 指定目錄下,復(fù)制該目錄路徑增加到Path中:

圖片

并將訓(xùn)練好的模型文件 chi_sim.traineddata 放入該目錄中,這樣安裝就完成了。

2.cnocr 識(shí)別圖片的中文

cnocr 主要針對(duì)的是排版簡(jiǎn)單的印刷體文字圖片,如截圖圖片,掃描件等。目前內(nèi)置的文字檢測(cè)和分行模塊無(wú)法處理復(fù)雜的文字排版定位。

盡管它分別提供了單行識(shí)別函數(shù)和多行識(shí)別函數(shù),但在本人實(shí)測(cè)下,單行識(shí)別函數(shù)的效果非常糟糕,或者說(shuō)要求的條件十分苛刻,基本上連截圖的文字都識(shí)別不出來(lái)。

不過(guò)多行識(shí)別函數(shù)還不錯(cuò),使用該函數(shù)識(shí)別的代碼如下:

from cnocr import CnOcr
ocr = CnOcr()
res = ocr.ocr('test.png')
print("Predicted Chars:", res)

用于識(shí)別這個(gè)圖片里的文字:

圖片

效果如下:

圖片

如果不是很吹毛求疵,這樣的效果已經(jīng)很不錯(cuò)了。

3.pytesseract 識(shí)別圖片的英文

如果你的OCR目的不是中文而是英文,是需要?jiǎng)e的模型的。這里給大家分享Tesseract-OCR,它是一款由HP實(shí)驗(yàn)室開(kāi)發(fā),由Google維護(hù)的開(kāi)源OCR引擎。

Tesseract-OCR 可擴(kuò)展性很強(qiáng),你可以基于它訓(xùn)練屬于自己的OCR模型。

現(xiàn)在給大家看看它分類(lèi)英文的效果,代碼如下:

import pytesseract
from PIL import Image

image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='eng')
print(code)

識(shí)別的圖片:

圖片

效果如下:

圖片

Tesseract 識(shí)別英文的效果真的很不錯(cuò),中文效果就比較一般了。

如果你想試試Tesseract識(shí)別中文,只需要將代碼中的eng改為chi_sim即可,不過(guò)相信我,效果不忍直視。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編輯器
    +關(guān)注

    關(guān)注

    1

    文章

    829

    瀏覽量

    33076
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1523

    瀏覽量

    36369
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    176

    瀏覽量

    17280
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    瑞芯微(EASY EAI)RV1126B OCR文字識(shí)別

    1.OCR文字識(shí)別簡(jiǎn)介文字識(shí)別也是圖像領(lǐng)域一個(gè)常見(jiàn)問(wèn)題。然而,對(duì)于自然場(chǎng)景圖像,首先要定位圖像中的文字
    的頭像 發(fā)表于 01-12 10:19 ?7228次閱讀
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>OCR</b><b class='flag-5'>文字</b><b class='flag-5'>識(shí)別</b>

    說(shuō)說(shuō)利用vision assitant實(shí)現(xiàn)數(shù)字的自動(dòng)識(shí)別。

    最近一周無(wú)聊試下vision assitant里面的OCR功能,因?yàn)橹白龅囊粋€(gè)機(jī)械零件編號(hào)檢測(cè)需要識(shí)別上面的數(shù)字。簡(jiǎn)單介紹一下如何做到自動(dòng)識(shí)別。1.查找范例OCR,里面有個(gè)
    發(fā)表于 03-18 10:39

    [求助] 關(guān)于OCR識(shí)別后文字定位的問(wèn)題

    你好,我最近在用NI視覺(jué)助手做這么一個(gè)工作,自動(dòng)識(shí)別一個(gè)字符并計(jì)算中心點(diǎn)到某一條已知線段的距離(即求點(diǎn)到直線的距離),我想請(qǐng)教一下,在OCR識(shí)別出字符后,給出的結(jié)果為:匹配分?jǐn)?shù),紅色框到綠色框左邊
    發(fā)表于 06-20 22:28

    圖片文字轉(zhuǎn)換成word真的只需要這四步

    了方法,就和添加文字一樣簡(jiǎn)單了。 這里向大家推薦一款捷速OCR文字識(shí)別軟件。這是一款識(shí)別效果十分好的文字
    發(fā)表于 07-26 10:40

    首發(fā) | 告別手動(dòng)錄入,開(kāi)放平臺(tái)OCR上線印刷文字識(shí)別!

    識(shí)別中文、英文、中英文混合的文字內(nèi)容的識(shí)別。在中文人工智能助手咪咕靈犀的翻譯功能模塊,接入訊飛開(kāi)放平臺(tái)的OCR與翻譯能力,提供圖片中文字
    發(fā)表于 05-17 15:18

    什么是OCR

    什么是OCR OCR的英文全稱(chēng): OCR是英文Optical Character Recognition的縮寫(xiě),意思是光學(xué)字符識(shí)別,也可簡(jiǎn)單地稱(chēng)為
    發(fā)表于 04-10 12:55 ?8775次閱讀

    TH-OCR文字識(shí)別系統(tǒng)介紹

    TH-OCR文字識(shí)別系統(tǒng)的工作原理為通過(guò)掃描儀或數(shù)碼相機(jī)等光學(xué)輸入設(shè)備獲取紙張上的文字圖片信息,OCR
    發(fā)表于 12-27 16:04 ?2609次閱讀

    基于FPGA的OCR文字識(shí)別技術(shù)的深度解析

    識(shí)別整體性能為GPU P4 130%,處理延時(shí)僅為P4的1/10,CPU的1/30。 1.文字識(shí)別技術(shù)- OCR OCR技術(shù),通俗來(lái)講就是從
    發(fā)表于 01-26 12:19 ?4610次閱讀

    如何在電腦中對(duì)圖片文字進(jìn)行局部識(shí)別

    ?? ? 步驟一、圖片文字局部識(shí)別需要使用到工具,這時(shí)候你可以打開(kāi)電腦中的瀏覽器,搜索迅捷辦公找到迅捷OCR文字
    發(fā)表于 11-13 14:07 ?914次閱讀

    怎樣簡(jiǎn)單識(shí)別圖片文字轉(zhuǎn)換到Word

      工作中我們經(jīng)常會(huì)處理到各種各樣的圖片文件,有時(shí)候還需要將圖片文件上的信息整理到Word一類(lèi)的文檔中,這樣編輯起來(lái)就很方便,那怎樣簡(jiǎn)單識(shí)別圖片文字
    發(fā)表于 03-27 13:50 ?1311次閱讀

    OCR文字識(shí)別視覺(jué)檢測(cè)系統(tǒng)應(yīng)用程序免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是OCR文字識(shí)別視覺(jué)檢測(cè)系統(tǒng)應(yīng)用程序免費(fèi)下載。
    發(fā)表于 05-28 17:31 ?27次下載

    OCR識(shí)別技術(shù)

    在爬蟲(chóng)對(duì)驗(yàn)證碼進(jìn)行破解時(shí),經(jīng)常需要對(duì)圖片中的文字內(nèi)容進(jìn)行識(shí)別,這時(shí)就需要用到OCR技術(shù)了,那么 OCR識(shí)
    的頭像 發(fā)表于 03-12 09:07 ?6503次閱讀

    淺析HarmonyOS基于AI的通用文字識(shí)別技術(shù)

    在資訊大爆炸的時(shí)代,我們經(jīng)常面臨文件、圖片找不到的情況,HarmonyOS基于AI的通用文字識(shí)別技術(shù),可以有效幫助我們解決這些難題。 基于AI的通用文字
    的頭像 發(fā)表于 08-20 10:42 ?4405次閱讀

    圖片文字識(shí)別:揭開(kāi)數(shù)字世界的神秘面紗

    隨著數(shù)字化時(shí)代的到來(lái),我們生活中的大部分?jǐn)?shù)據(jù)都以圖片的形式存在。然而,這些圖片中蘊(yùn)含的信息往往比文字更豐富,如何從這些圖片中提取有價(jià)值的信息,是數(shù)字世界中一個(gè)十分重要的問(wèn)題。這時(shí),
    的頭像 發(fā)表于 05-11 18:20 ?1768次閱讀

    光學(xué)識(shí)別字符是自動(dòng)識(shí)別技術(shù)嗎

    光學(xué)識(shí)別字符(Optical Character Recognition,簡(jiǎn)稱(chēng)OCR)是一種自動(dòng)識(shí)別技術(shù),它能夠?qū)⒏鞣N類(lèi)型文檔(如掃描的紙質(zhì)文檔、PDF文件或數(shù)字相機(jī)拍攝的圖片)中的
    的頭像 發(fā)表于 09-10 15:43 ?1481次閱讀
    惠州市| 屯门区| 鄂伦春自治旗| 安顺市| 渑池县| 卓尼县| 苍南县| 永昌县| 特克斯县| 宁远县| 全州县| 长治市| 故城县| 思南县| 石家庄市| 华池县| 绿春县| 普洱| 阿尔山市| 工布江达县| 鄱阳县| 万源市| 青神县| 商洛市| 榆社县| 达州市| 炉霍县| 嘉善县| 竹北市| 宿松县| 尼木县| 桂林市| 墨江| 迁西县| 开封县| 德保县| 嵊州市| 子长县| 林甸县| 定陶县| 高安市|