日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

破解“豎排文本”魔咒:在 RTX 3060 上微調(diào) PaddleOCR-VL 以識別日本漫畫

jf_23871869 ? 來源:劉力 ? 作者:劉力 ? 2025-12-11 17:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:飛槳開發(fā)者技術(shù)專家 劉力

| 僅需一張消費(fèi)級顯卡,教你利用多模態(tài)大模型打造專屬的日本漫畫翻譯神器。

一,引言:當(dāng)AI遇上二次元

如果你曾嘗試使用傳統(tǒng)的 OCR 工具直接翻譯一本未漢化的日本漫畫(Manga),你可能會遇到令人抓狂的體驗(yàn):文字識別亂碼、氣泡順序錯亂,尤其是那些 豎排(Vertical) 且字體夸張的擬聲詞,AI 往往視而不見。

wKgZO2k6lO6ARgqFAAB71gCbpBY220.jpg

通用的 OCR 模型大多是針對文檔、路牌或水平文本訓(xùn)練的。面對漫畫中復(fù)雜的背景、垂直的閱讀順序以及手寫體,標(biāo)準(zhǔn)模型往往顯得力不從心。今天,我們將解決這個問題。我們不再使用傳統(tǒng)的檢測+識別架構(gòu),而是使用更前沿的 Vision-Language (VL) 模型——PaddleOCR-VL。我們將展示如何在僅有 12GB 顯存的 NVIDIA RTX 3060 上,利用 BF16 精度和梯度累積技術(shù),對這個強(qiáng)大的多模態(tài)模型進(jìn)行監(jiān)督微調(diào)(SFT)。

項(xiàng)目源碼參考:https://github.com/openvino-book/PaddleOCR-VL-SFT-for-Japanese-Manga-on-RTX-3060

二,為什么選擇 PaddleOCR-VL?

1,多模態(tài)理解能力:傳統(tǒng)的 OCR 將圖片切分為小塊進(jìn)行識別,容易丟失上下文。PaddleOCR-VL 是一種視覺-語言模型,它能“看”懂整張圖的語義,這對于理解漫畫中氣泡的閱讀順序(從右向左、從上向下)至關(guān)重要。

2,驚人的效果提升:根據(jù)我們的實(shí)測,在 RTX 3060 上微調(diào)后,精確匹配率 (Exact Match) 從基礎(chǔ)模型的 9.0% 飆升至 64.4%,字符錯誤率 (CER) 降低了 80%。

指標(biāo) 原始模型 微調(diào)后 變化
完全匹配率 9.0% 64.4% +55.4%??
字符錯誤率(CER) 55.41% 10.88% -80%??

三,核心挑戰(zhàn):如何在 12GB 顯存上訓(xùn)練大模型?

微調(diào) VL 模型通常需要昂貴的 A100 顯卡,但本教程的目標(biāo)是讓每個擁有 RTX 3060 (12GB) 的開發(fā)者都能跑通。

我們采用了一下技術(shù)組合來降低顯存占用:

BF16 混合精度:使用 BF16Trainer 配合 torch.amp.autocast,在保持精度的同時大幅減少顯存占用。

梯度累積 (Gradient Accumulation):將 Batch Size 設(shè)為 1,但設(shè)置梯度累積步數(shù)為 16,從而模擬 Batch Size = 16 的訓(xùn)練效果。

梯度檢查點(diǎn) (Gradient Checkpointing):以計算換顯存,進(jìn)一步壓縮內(nèi)存需求。

四,實(shí)戰(zhàn)指南:從零開始微調(diào)

第一步:環(huán)境搭建

1,克隆項(xiàng)目

git clone https://github.com/openvino-book/PaddleOCR-VL-SFT-for-Japanese-Manga-on-RTX-3060.git

2,創(chuàng)建 conda 環(huán)境 (Python 3.11)

conda create -n manga-ocr python=3.11 -y
conda activate manga-ocr

3,安裝項(xiàng)目依賴

# 注意:我們需要安裝支持 CUDA 的 PyTorch 版本

pip install torch torchvision --index-url [https://download.pytorch.org/whl/cu118](https://download.pytorch.org/whl/cu118)
pip install -r requirements.txt

第二步:數(shù)據(jù)準(zhǔn)備 (Manga109s)

我們需要高質(zhì)量的漫畫數(shù)據(jù)集。Manga109s 是學(xué)術(shù)界公認(rèn)的日本漫畫數(shù)據(jù)集,包含精確的文本框標(biāo)注。

1,下載數(shù)據(jù)集:訪問https://huggingface.co/datasets/hal-utokyo/Manga109-s 申請并下載 Manga109s_released_2023_12_07.zip。

2,解壓與配置:

# 解壓到項(xiàng)目根目錄
unzip Manga109s_released_2023_12_07.zip -d .
# 配置環(huán)境變量
cp .env.example .env
# 確保 .env 文件中的 MANGA109_ROOT 指向解壓后的文件夾

3,運(yùn)行數(shù)據(jù)處理腳本: 該腳本會自動解析 XML 標(biāo)注,裁剪出文本區(qū)域,生成適合 VL 模型訓(xùn)練的格式。

python prepare_manga109_data.py

第三步:開啟訓(xùn)練 (SFT)

一切準(zhǔn)備就緒。我們提供了一個一鍵啟動腳本 train.sh,其中已經(jīng)預(yù)設(shè)了適合 RTX 3060 的參數(shù)。

bash train.sh
wKgZO2k6lO6AIgKNAABtZC7Ese012.webp

第四步:模型評估

訓(xùn)練完成后,我們需要驗(yàn)證模型是否真的學(xué)會了讀漫畫。

# 評估微調(diào)后的模型 (SFT Output)
python evaluate_model.py --model_path ./sft_output --num_samples 500
# (可選) 對比原始模型
python evaluate_model.py --model_path PaddlePaddle/PaddleOCR-VL --num_samples 500

你將看到類似這樣的巨大提升:

Base Model:經(jīng)常輸出亂碼,無法理解豎排。

Fine-tuned Model:準(zhǔn)確識別 "あとは『メルニィ宇宙鉄道』とか..." 等復(fù)雜句式。

視頻鏈接:https://live.csdn.net/v/505182

五,結(jié)語

通過這個項(xiàng)目,我們證明了即使是在消費(fèi)級顯卡 RTX 3060 上,通過合理的技術(shù)優(yōu)化(BF16、梯度累積),我們也完全有能力微調(diào)先進(jìn)的 Vision-Language 模型。

PaddleOCR-VL 的微調(diào)版本不僅解決了豎排文本識別的難題,更為構(gòu)建自動化的漫畫翻譯/漢化工具鋪平了道路。

如果你對這個項(xiàng)目感興趣,或者想獲取詳細(xì)的代碼,請?jiān)L問我們的 GitHub 倉庫:

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41326

    瀏覽量

    302731
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    176

    瀏覽量

    17281
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI大模型微調(diào)企業(yè)項(xiàng)目實(shí)戰(zhàn)課

    從零開始預(yù)訓(xùn)練。事實(shí),微調(diào)技術(shù)的成熟,徹底打破了這一門檻。 微調(diào)的本質(zhì),是“舉一反三”的遷移學(xué)習(xí)。就好比一個已經(jīng)大學(xué)畢業(yè)的通用人才(基礎(chǔ)大模型),只需企業(yè)內(nèi)部經(jīng)過幾個月的崗前培訓(xùn)(
    發(fā)表于 04-16 18:48

    沐曦股份與百度飛槳黑客松硬核賽題來襲

    沐曦股份作為飛槳黑客松第十期文心合作伙伴賽道核心出題方之一,攜專屬賽題「優(yōu)化 PaddleOCR-VL-1.5+MetaX GPU」重磅來襲,邀全球開發(fā)者共探深度學(xué)習(xí)框架與國產(chǎn)GPU的軟硬協(xié)同優(yōu)化之道,用代碼解鎖智能文字識別的性能極限!
    的頭像 發(fā)表于 04-02 09:20 ?463次閱讀
    沐曦股份與百度飛槳黑客松硬核賽題來襲

    百度文心衍生模型PaddleOCR登頂GitHub Star OCR全球第一

    3月30日,百度文心衍生模型PaddleOCRGitHub的Star數(shù)突破73.3K,超越谷歌Tesseract OCR,成為全球Star數(shù)最高的OCR項(xiàng)目。
    的頭像 發(fā)表于 03-31 11:40 ?494次閱讀

    沐曦曦云C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上線,沐曦曦云C500/C550 Day 0 適配PaddleOCR-VL-1.5模型,助力PaddleOC
    的頭像 發(fā)表于 01-30 10:19 ?1427次閱讀
    沐曦曦云C500/C550 GPU產(chǎn)品適配<b class='flag-5'>PaddleOCR-VL</b>-1.5模型

    百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發(fā)布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型僅 0.9B 參數(shù)的輕量架構(gòu),全球權(quán)威文檔解析評測榜單 OmniDocBench V1.5 中取得
    的頭像 發(fā)表于 01-30 10:03 ?841次閱讀
    百度正式發(fā)布并開源新一代文檔解析模型<b class='flag-5'>PaddleOCR-VL</b>-1.5

    使用 Docker 一鍵部署 PaddleOCR-VL: 新手保姆級教程

    PaddleOCR-VL 是基于輕量級視覺語言模型(VLM)的文檔解析解決方案,核心模型為 PaddleOCR-VL-0.9B,支持多語言文本、表格、公式、圖表等元素級識別,并能以
    的頭像 發(fā)表于 12-18 18:26 ?6856次閱讀
    使用 Docker 一鍵部署 <b class='flag-5'>PaddleOCR-VL</b>: 新手保姆級教程

    解密 IXE 離子捕捉劑:日本東亞合成如何破解電子行業(yè)的 “離子魔咒”?

    電子技術(shù)向高密度、高可靠性升級的過程中,“離子魔咒” 始終如影隨形 —— 銀離子遷移導(dǎo)致 PCB 短路、氯離子腐蝕芯片布線、鈉離子影響材料穩(wěn)定性,這些隱形故障讓無數(shù)電子工程師頭疼不已。而日本東亞
    的頭像 發(fā)表于 11-12 16:12 ?743次閱讀
    解密 IXE 離子捕捉劑:<b class='flag-5'>日本</b>東亞合成如何<b class='flag-5'>破解</b>電子行業(yè)的 “離子<b class='flag-5'>魔咒</b>”?

    VL53L4CD小板開發(fā)(2)----修改測量頻率

    VL53L4CD是一款高度集成的飛行時間(ToF)傳感器,廣泛應(yīng)用于距離測量和接近檢測。為了滿足不同應(yīng)用場景的需求,合理調(diào)整傳感器的測量頻率至關(guān)重要。本文旨在介紹如何在VL53L4CD傳感器修改
    的頭像 發(fā)表于 11-05 10:19 ?5168次閱讀
    <b class='flag-5'>VL</b>53L4CD小板開發(fā)(2)----修改測量頻率

    PP-OCRv5 MCP服務(wù)器海光主板的部署與實(shí)戰(zhàn)

    在當(dāng)今數(shù)字化快速發(fā)展的時代,OCR(光學(xué)字符識別)技術(shù)已經(jīng)成為從圖像中提取文本信息的重要工具。無論是自動化辦公、智能文檔處理還是在內(nèi)容創(chuàng)作領(lǐng)域,OCR 技術(shù)的應(yīng)用都極大地提高了工作效率和準(zhǔn)確性
    的頭像 發(fā)表于 10-15 17:04 ?1010次閱讀
    PP-OCRv5 MCP服務(wù)器<b class='flag-5'>在</b>海光主板的部署與實(shí)戰(zhàn)

    ?VL53L7系列ToF傳感器分線板技術(shù)解析與應(yīng)用指南

    STMicroelectronics SATEL-VL53L7分線板板載了VL53L7系列飛行時間傳感器模塊。該套裝包含兩塊分線板,每塊分線板均配備了帶有穿孔設(shè)計的
    的頭像 發(fā)表于 10-15 11:55 ?920次閱讀
    ?<b class='flag-5'>VL</b>53L7系列ToF傳感器分線板技術(shù)解析與應(yīng)用指南

    精準(zhǔn)定位性能瓶頸:深入解析 PaddleOCR v3.2 全新 Benchmark 功能

    飛槳技術(shù)生態(tài)伙伴 算力魔方 | 摘要:實(shí)際落地OCR和文檔解析項(xiàng)目時,大家常常會遇到一個棘手問題:模型跑得不夠快,但到底是檢測太慢、識別耗時,還是模塊之間的數(shù)據(jù)流轉(zhuǎn)不高效?PaddleOCR
    的頭像 發(fā)表于 09-05 16:02 ?1453次閱讀
    精準(zhǔn)定位性能瓶頸:深入解析 <b class='flag-5'>PaddleOCR</b> v3.2 全新 Benchmark 功能

    小語種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標(biāo)注實(shí)戰(zhàn)解析

    摘要 :小語種OCR研發(fā)的核心瓶頸在于高質(zhì)量標(biāo)注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動化標(biāo)注方案,利用 PaddleOCR 進(jìn)行文本檢測與裁剪,并調(diào)用 ERNIE 4.5 大模型進(jìn)行雙重預(yù)測
    的頭像 發(fā)表于 08-29 11:26 ?3892次閱讀
    小語種OCR標(biāo)注效率提升10+倍:<b class='flag-5'>PaddleOCR</b>+ERNIE 4.5自動標(biāo)注實(shí)戰(zhàn)解析

    【EASY EAI Orin Nano開發(fā)板試用體驗(yàn)】PP-OCRV5文字識別實(shí)例搭建與移植

    文字類型方面,PP-OCRv5支持簡體中文、中文拼音、繁體中文、英文、日文5大主流文字類型,在場景方面, PP-OCRv5升級了中英復(fù)雜手寫體、豎排文本、生僻字等多種挑戰(zhàn)性場景的識別能力。 在內(nèi)部多場景
    發(fā)表于 08-18 16:57

    無法使用OpenVINO? GPU 設(shè)備運(yùn)行穩(wěn)定擴(kuò)散文本到圖像的原因?

    OpenVINO? GPU 設(shè)備使用圖像大小 (1024X576) 運(yùn)行穩(wěn)定擴(kuò)散文本到圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    阿里云PAI快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發(fā)布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態(tài)大語言模型 (MLLM),它們經(jīng)過了“物理 AI 監(jiān)督微調(diào)”和“物理 AI 強(qiáng)化學(xué)習(xí)”兩個階段的訓(xùn)練。其中
    的頭像 發(fā)表于 06-04 13:43 ?1224次閱讀
    盘锦市| 余庆县| 吴江市| 嘉黎县| 楚雄市| 平陆县| 新干县| 南雄市| 页游| 常宁市| 云和县| 郓城县| 德州市| 广元市| 诸城市| 宣恩县| 水城县| 乐业县| 青川县| 平遥县| 石首市| 大新县| 栖霞市| 海原县| 乌兰浩特市| 文成县| 通州区| 麻城市| 淮滨县| 什邡市| 八宿县| 镇坪县| 平顶山市| 班玛县| 福州市| 南汇区| 乌鲁木齐市| 东乡族自治县| 石屏县| 黑河市| 涪陵区|