日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于M55H的定制化backbone模型AxeraSpine

愛芯元智AXERA ? 來源:愛芯元智AXERA ? 2023-10-10 16:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景

Backbone模型是各種視覺任務(wù)訓(xùn)練的基石,視覺任務(wù)模型的性能和模型的速度都受backbone模型的影響,良好的backbone模型可以有效提高視覺任務(wù)模型的性能和精度。因此設(shè)計優(yōu)良的backbone模型對視覺任務(wù)模型的表現(xiàn)至關(guān)重要。目前存在低延遲且高性能的開源模型已經(jīng)有很多,但這些模型的設(shè)計往往只考慮到了理論計算量,并沒有和實際的硬件條件相結(jié)合,因此這些模型部署到實際的硬件上,并不能發(fā)揮最大的速度潛能。針對這個挑戰(zhàn),為了發(fā)揮backbone模型的最大潛力,我們在M55H平臺上,基于MobileNetV2模型定制了適用于M55H平臺的backbone模型AXSpine系列,相比于原始MobileNetV2模型,AXSpine-Middle在精度提升的同時,速度提升了50%,硬件的MAC利用率大幅提高,在多個具體任務(wù)上達(dá)到80%以上。另外還有多組通過裁剪或者擴(kuò)充的AXSpine系列模型提供,以供不同延遲和精度要求的視覺任務(wù)進(jìn)行選擇。

性能指標(biāo)

以下展示AXSpine-Middle模型和MobileNetV2模型在愛芯元智M55H平臺上不同分辨率的性能對比,數(shù)據(jù)集采用ImageNet數(shù)據(jù)集,精度均在224x224分辨率條件下進(jìn)行測試,更多AXSpine模型指標(biāo)在文章末尾表格中:

模型名稱 Input shape acc1(224 x 224 標(biāo)準(zhǔn)輸入條件下) M55H 幀率(@vnpu111)
MobileNetV2 1x3x576x320 71.88 124 fps
MobileNetV2 1x3x288x160 71.88 373.7 fps
AXSpine-Middle 1x3x576x320 72.87 186 fps
AXSpine-Middle 1x3x1280x720 72.87 36.5 fps
AXSpine-Middle 1x3x1920x1080 72.87 19.4 fps

相關(guān)模型介紹

3.1 MobileNetV2

MobileNetV2是google提出的用于移動端的backbone模型,具有精度高、計算量小的特點,在移動端設(shè)備上推理效果顯著。MobileNetV2模型的基本組成塊為倒置殘差卷積,由兩組1x1的卷積和一組3x3的depthwise卷積構(gòu)成。1x1卷積主要作用為對depthwise卷積做升/降維,3x3的depthwise卷積則在升維的空間上進(jìn)行卷積運算,這種架構(gòu)可以在保證表達(dá)能力的同時有效地增強(qiáng)計算效率。隨后,這種倒置殘差卷積結(jié)構(gòu)進(jìn)行若干次的堆疊,構(gòu)造成為MobileNetV2模型。

3.2 地平線相關(guān)模型

地平線公司也在自身平臺上專門對backbone模型進(jìn)行了優(yōu)化,并推出了VarGENet和MixVarGENet等系列模型,其基本塊如下圖所示:

8ea7a980-6743-11ee-939d-92fbcf53809c.png

8ebce9da-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

3.3 特斯拉相關(guān)模型

特斯拉相關(guān)模型為RegNet,RegNet為何凱明的相關(guān)工作,旨在用超參數(shù)搜索的方式,指導(dǎo)模型設(shè)計的相關(guān)工作,在低運算量的條件下,取得了相對優(yōu)良的精度,由于沒有用到depthwise卷積,在GPU模型上表現(xiàn)良好,被特斯拉硬件采用。其基本結(jié)構(gòu)與resnet等同,如下所示:

8ed53e2c-6743-11ee-939d-92fbcf53809c.jpg

模型優(yōu)化

相對于MobileNetV2官方實現(xiàn),AXSpine模型做了以下改動:

●將MobileNetV2的所有的depthwise卷積修改為小channel size的group卷積;

●將模型第二層的倒置殘差卷積替換為一個簡單的3x3 conv層;

●對不滿足硬件通道對齊的層進(jìn)行硬件通道對齊;

● 減小部分層的expand_ratio提高運算速度;

● 將原有的5層stage結(jié)構(gòu),仿照convnext修改為4層stage結(jié)構(gòu)3393,速度提升,精度降低。

改動詳細(xì)說明

5.1 depthwise卷積修改為group卷積

由于邊緣側(cè)芯片的depthwise卷積的支持往往比較低效,這導(dǎo)致使用depthwise卷積的MobileNetV2無法發(fā)揮理論計算效率,在這里將depthwise卷積修改為group卷積,增強(qiáng)模型的表達(dá)能力,由于芯片組卷積,在特定channel的情況最為高效,因此將所有的depthwise卷積修改為特定channel數(shù)的group卷積。

8edf7298-6743-11ee-939d-92fbcf53809c.png8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.2 替換第二層倒置殘差卷積

MobileNetV2的第一層為一個3x3的普通卷積,第二層為一個expand_ratio = 1 的倒置殘差卷積,在原有的MobileNetV2設(shè)計中,使用倒置殘差卷積的目的是為了減少計算量,然而當(dāng)修改為group卷積后,運算量反倒大幅增加,因此將第二層的倒置殘差卷積的兩個堆疊的卷積層,修改為單個普通的3x3卷積。

8ef5d358-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.3 對不滿通道對齊的卷積進(jìn)行對齊

硬件單元在計算的過程中,需要進(jìn)行數(shù)據(jù)對齊,如果不滿足數(shù)據(jù)對齊條件,就會降低運算效率,M55H硬件也是一樣。因此,為了充分利用硬件的計算能力,需要對不滿足channel對齊的層進(jìn)行對齊操作,MobileNetV2模型中,部分層不滿足硬件對齊條件,這里需要對不滿足硬件對齊的層進(jìn)行向上補(bǔ)齊操作,不影響性能,表達(dá)能力有所提升。

5.4 減小expand_ratio

由于原有的depthwise卷積被替換成了group卷積,模型的表達(dá)能力大幅增強(qiáng),而我們修改MobileNetV2模型的最終目的是為了在保證精度的情況下,提升速度,因此在此處對expand_ratio進(jìn)行消減,將expand_ratio從6修改為4,第二層的expand_ratio由4再消減為2,理論上模型的計算量減少約30%,這種expand_同時也考慮到了M55H的調(diào)度特性,在實際的調(diào)度過程中,由于各層特征圖的大小得到了均衡,整體調(diào)度效率也得到了提升。

8f092c6e-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.5 修改模型stage排布

借鑒convnext文章中的的思路,模型應(yīng)當(dāng)包含有4個stage,每個stage的比例大概為13:1較優(yōu),基于此判斷,對MobileNetV2模型的stage進(jìn)行重新劃分,將原有的stage排布按照39:3進(jìn)行排列,相比于直接削減channel數(shù)提升速度的方式,修改stage對模型精度的損傷較小,修改見下圖所示:

8f1adf4a-6743-11ee-939d-92fbcf53809c.jpg

總結(jié)

經(jīng)過對MobilenetV2模型的適應(yīng)性改動,愛芯元智發(fā)布了基于M55H芯片平臺的定制化模型AXSpine,相比于原版MobilenetV2模型,AXSpine-Middle模型具有更高的精度和達(dá)到50%提升的速度。得益于愛芯元智M55H平臺軟硬件聯(lián)合設(shè)計優(yōu)化,經(jīng)過改良后的AXSpine模型相較業(yè)界友商在單位算力情況下,展現(xiàn)出了強(qiáng)大的性能和延遲表現(xiàn)。此外除了AXSpine-Middle模型以外,還有若干組模型上架,以滿足不同的延遲和精度需求,總結(jié)表格如下,以下模型目前已應(yīng)用于多組視覺任務(wù)中,歡迎使用:

模型名稱 Input shape acc1(224 x 224 標(biāo)準(zhǔn)輸入條件下) M55H 幀率(@vnpu111)
MobileNetV2 1x3x576x320 71.88 124 fps
AXSpine-Small 1x3x576x320 71.59 227 fps
AXSpine-Middle 1x3x576x320 72.87 186 fps
AXSpine-Big 1x3x576x320 75.31 131 fps






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    307

    瀏覽量

    6562

原文標(biāo)題:愛芯分享 | 基于M55H的定制化backbone模型AxeraSpine

文章出處:【微信號:愛芯元智AXERA,微信公眾號:愛芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    SDIO 初始卡在帶有 IW610 模塊的定制板上,初始SDIO接口時,程序會陷入循環(huán),為什么?

    BLE。 我將預(yù)處理器部分中的宏更新為: wifi_iw610_board_murata_2ll_m2 當(dāng)嘗試初始 SDIO 接口時,程序會得到陷入循環(huán). 我附上了它掛起的代碼部分的屏幕截圖。 誰能提出導(dǎo)致此問題的原因,或提供有關(guān)在
    發(fā)表于 04-17 06:07

    2026年快速溫變箱采購趨勢:智能、定制、節(jié)能如何落地?

    廣東宏展推出2026版快速溫變箱,聚焦智能定制、節(jié)能,提升測試效率與自動水平,適配行業(yè)趨勢,助力企業(yè)降本增效。
    的頭像 發(fā)表于 02-26 09:20 ?566次閱讀
    2026年快速溫變箱采購趨勢:智能<b class='flag-5'>化</b>、<b class='flag-5'>定制</b><b class='flag-5'>化</b>、節(jié)能<b class='flag-5'>化</b>如何落地?

    愛芯元智高階智能駕駛芯片M97回片并成功點亮

    愛芯元智(股票代碼:0600.HK)智能汽車業(yè)務(wù)迎來全新進(jìn)展,公司自研的面向高階智能駕駛應(yīng)用的旗艦芯片產(chǎn)品 M97 已于近日回片并順利點亮。這顆芯片是公司智能汽車業(yè)務(wù)邁向高端的核心產(chǎn)品,也是繼 M55H、
    的頭像 發(fā)表于 02-11 16:53 ?1363次閱讀

    新唐科技推出基于Arm Cortex-M55內(nèi)核的NuMicro M5531系列微控制器

    Cortex-M55內(nèi)核的M5531系列高性能MCU,以“性能躍升+功耗優(yōu)化+安全加固+場景適配”全維優(yōu)勢,為各行業(yè)智能升級注入強(qiáng)勁動力,樹立MCU應(yīng)用新標(biāo)桿。
    的頭像 發(fā)表于 02-01 13:58 ?1344次閱讀
    新唐科技推出基于Arm Cortex-<b class='flag-5'>M55</b>內(nèi)核的NuMicro <b class='flag-5'>M</b>5531系列微控制器

    新唐科技基于端側(cè)AI MCU M55M1的智慧門禁解決方案介紹

    針對上述痛點,新唐科技推出基于端側(cè)AI MCU M55M1的智慧門禁解決方案,通過本地AI算力、無聯(lián)網(wǎng)設(shè)計及圖像識別技術(shù),實現(xiàn)更安全、高效的門禁控制。
    的頭像 發(fā)表于 11-25 07:43 ?1.5w次閱讀
    新唐科技基于端側(cè)AI MCU <b class='flag-5'>M55M</b>1的智慧門禁解決方案介紹

    定制灌封膠_特殊場景灌封膠定制服務(wù)流程與案例

    什么是灌封膠定制? 灌封膠定制是指根據(jù)客戶具體的應(yīng)用場景、工作環(huán)境、性能要求(如耐溫、耐腐蝕、耐老化、導(dǎo)熱、阻燃等)以及產(chǎn)品結(jié)構(gòu),量身研發(fā)和生產(chǎn)專屬配方的灌封膠產(chǎn)品。不同于通用型產(chǎn)
    的頭像 發(fā)表于 11-25 01:21 ?450次閱讀
    <b class='flag-5'>定制</b>灌封膠_特殊場景灌封膠<b class='flag-5'>定制</b><b class='flag-5'>化</b>服務(wù)流程與案例

    芯伯樂700mA線性穩(wěn)壓器XBLW L78M05H/L78M12H:穩(wěn)定可靠,簡化電源設(shè)計

    在各類電子設(shè)備中,線性穩(wěn)壓器因其結(jié)構(gòu)簡單、噪聲低、成本低廉而成為基礎(chǔ)電源方案的不二之選。芯伯樂(XBLW)的L78M05H/L78M12H系列是一款經(jīng)典的700mA三端固定正電壓穩(wěn)壓器,以其卓越
    的頭像 發(fā)表于 10-31 18:37 ?767次閱讀
    芯伯樂700mA線性穩(wěn)壓器XBLW L78<b class='flag-5'>M05H</b>/L78<b class='flag-5'>M12H</b>:穩(wěn)定可靠,簡化電源設(shè)計

    電能質(zhì)量在線監(jiān)測裝置如何進(jìn)行定制與聯(lián)動應(yīng)用?

    電能質(zhì)量在線監(jiān)測裝置的定制與聯(lián)動應(yīng)用,核心是 **“按需調(diào)整功能” 與 “數(shù)據(jù)驅(qū)動協(xié)同控制”**—— 定制針對不同行業(yè)(如新能源、工業(yè)、商業(yè))的特殊需求優(yōu)化硬件、軟件或數(shù)據(jù)采集;聯(lián)
    的頭像 發(fā)表于 10-23 09:23 ?533次閱讀

    如何使用rt-thread studio中,使用 定制的SDK建立工程?

    --target=eclipse生成 rt-thread studio 工程 在rt-thread studio中,使用sdk Manager 導(dǎo)入配置成功。 配置成功了, 問題: 我如何使用在 rt-thread studio 中,使用這個 自己的定制的 SDK
    發(fā)表于 09-26 06:16

    【內(nèi)測活動同步開啟】這么???這么強(qiáng)?新一代大模型MCP開發(fā)板來啦!

    噪,無懼嘈雜環(huán)境 云端接入小聆AI,輕松實現(xiàn)個性定制 搭載領(lǐng)先大模型全鏈路技術(shù):小聆AI 智能語音交互方案 集成情緒感知與表達(dá) :支持情感發(fā)音人;支持聲音復(fù)刻,實現(xiàn)個性
    發(fā)表于 09-25 11:47

    如何利用NuMicro? M55M1 ML MCU進(jìn)行面部標(biāo)志檢測應(yīng)用?

    如何利用NuMicro? M55M1 ML MCU進(jìn)行面部標(biāo)志檢測應(yīng)用?
    發(fā)表于 09-05 06:59

    M55M1如何通過 EBI 驅(qū)動同步信號 LCD 面板?

    [M55M1]通過 EBI 驅(qū)動同步信號 LCD 面板
    發(fā)表于 08-19 06:27

    DS-HR1M H00-CN-V2

    電流傳感器產(chǎn)品型號HR1M 100 H00HR1M 200 H00HR1M 300 H00HR1M 400 H00HR1M 500
    發(fā)表于 07-02 16:10 ?0次下載

    集成Docker,解鎖 HMI/網(wǎng)關(guān)的定制應(yīng)用

    工業(yè)自動領(lǐng)域?qū)?b class='flag-5'>定制HMI/網(wǎng)關(guān)的需求日益增長,而傳統(tǒng)設(shè)備因功能固化難以滿足快速迭代需求。宏集HMI&網(wǎng)關(guān)通過集成Docker技術(shù),賦予設(shè)備超強(qiáng)的靈活性和擴(kuò)展性,滿足企業(yè)的個性需求
    的頭像 發(fā)表于 05-22 11:06 ?667次閱讀
    集成Docker,解鎖 HMI/網(wǎng)關(guān)的<b class='flag-5'>定制</b><b class='flag-5'>化</b>應(yīng)用

    定制SoC陣列設(shè)計

    定制SoC陣列設(shè)計融合了多核異構(gòu)集成與分布式計算架構(gòu),其核心在于根據(jù)不同應(yīng)用場景的需求,通過硬件模塊設(shè)計和軟件定義能力實現(xiàn)算力密度與能效比的突破。以下是關(guān)鍵設(shè)計要素與技術(shù)特征: 一、架構(gòu)設(shè)計原則
    的頭像 發(fā)表于 05-19 07:28 ?664次閱讀
    <b class='flag-5'>定制</b><b class='flag-5'>化</b>SoC陣列設(shè)計
    上杭县| 桦甸市| 乐山市| 陆河县| 磐石市| 石景山区| 乌拉特后旗| 叙永县| 邯郸市| 永平县| 芦溪县| 彰化市| 曲麻莱县| 招远市| 乌鲁木齐县| 德化县| 华蓥市| 建德市| 金塔县| 黄浦区| 北安市| 宜州市| 会泽县| 泸定县| 溧水县| 农安县| 永和县| 嘉定区| 平塘县| 建德市| 科尔| 楚雄市| 大足县| 雅安市| 景宁| 沙河市| 新兴县| 永济市| 和硕县| 陕西省| 龙江县|