日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于RISC-V軟核CPU的國產(chǎn)FPGA CNN異構方案的實現(xiàn)

紫光同創(chuàng)官微 ? 來源:紫光同創(chuàng)官微 ? 作者:紫光同創(chuàng)官微 ? 2022-11-18 11:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:現(xiàn)場可編程門陣列(FPGA)具有低功耗、高性能和靈活性的特點。FPGA神經(jīng)網(wǎng)絡加速的研究正在興起,但大多數(shù)研究都基于國外的FPGA器件。為了改善國內FPGA的現(xiàn)狀,提出了一種新型的卷積神經(jīng)網(wǎng)絡加速器,用于配備輕量級RISC-V軟核的國產(chǎn)FPGA(紫光同創(chuàng)PG2L100H)。所提出的加速器的峰值性能達到153.6 GOP/s,僅占用14K LUT(查找表)、32個DRM(專用RAM模塊)和208個APM(算術處理模塊)。所提出的加速器對于大多數(shù)邊緣AI應用和嵌入式系統(tǒng)具有足夠的計算能力,為國內FPGA提供了可能的AI推理加速方案。

背景

卷積神經(jīng)網(wǎng)絡在機器視覺任務中越來越流行,包括圖像分類和目標檢測。如何在有限的條件下充分發(fā)揮FPGA的最大性能是各研究者的主要方向。如今,大多數(shù)CCN使用外國FPGA器件。由于國內FPGA起步較晚,其相關開發(fā)工具和設備落后于其他外國制造商。因此,在國內FPGA上構建高性能CNN并替換現(xiàn)有成熟的異構方案是一項具有挑戰(zhàn)性的任務。

Zhang[1]于2015年首次對卷積網(wǎng)絡推理中的數(shù)據(jù)共享和并行性進行了深入分析和探索。Guo[2]提出的加速器在214MHz下達到了84.3 GOP/s的峰值性能。2016年,Qiu[3]更深入地探索了使用行緩沖器的加速器。本文提出了一種更高效、更通用的卷積加速器。提出的加速器峰值性能達到153.6GOP/s,僅占用14K LUT、32個DRM和208個APM。本文的章節(jié)安排如下,第2節(jié)介紹了我們提出的加速器的詳細設計以及基于RISC-V的加速器實現(xiàn)的控制調度方案。第3節(jié)給出了實驗結果。

系統(tǒng)設計

整個RISC-V片上系統(tǒng)設計如圖1所示。該系統(tǒng)主要由RISC-V軟核CPU、指令/數(shù)據(jù)存儲器、總線橋、外圍設備、DMA(直接存儲器訪問)和卷積加速器組成。

bd2cb078-66ec-11ed-8abf-dac502259ad0.png

Fig. 1. 片上RISC-V系統(tǒng)設計圖

我們的工作主要在三個方面。首先,我們使用軟核CPU作為片上系統(tǒng)的主控,控制外設,DMA,CNN加速器來實現(xiàn)數(shù)據(jù)調度和操作。其次,1D(一維)加速器被設計用于改變緩沖機制。第三,為紫光同創(chuàng)的FPGA設備設計了一個DMA IP,用于卷積加速的應用。

A、RISC-V 軟核CPU 架構

軟核。使用RISC-V軟核VexRiscv代替Ibex[4]構建RISC-V的片上系統(tǒng)和面向軟件的方法可以使VexRiscv具有高度的靈活性和可擴展性。

接口。I2C和SPI等外圍設備通過APB3總線連接到RISC-V軟核。DMA和加速器通過PMB總線連接到RISC-V軟核。

指令與數(shù)據(jù)存儲。程序被交叉編譯以獲得一個特定的文件,該文件由JTAG燒錄到片上指令/數(shù)據(jù)存儲器中。

B、CNN 加速器結構

輸入緩存。使用乒乓緩存來實現(xiàn)緩沖區(qū),可以有效地提高吞吐量。

輸出緩存。權重緩存模塊由一系列分布式RAM和串行到并行單元組成。

卷積。圖2中的1D卷積模塊分為四組,其中包含四個1D卷曲單元。每個單元負責1D卷積的一個信道。

合并。積分模塊有四組加法器樹。每組加法器樹將每組卷積運算單元的結果相加,得到單向輸出結果。

累加。累加模塊中有四組FIFO和四個加法器。加速器一次只能接收四個通道的輸入特征圖數(shù)據(jù)。

量化。該量化模塊由乘法單元和移位單元組成。它通過比例變換將24位累加結果重新轉換為8位[5]。

激活。激活功能通過查找由一系列分布式RAM組成的表來實現(xiàn)。它存儲ReLu、Leaky ReLu和sigmoid函數(shù)的INT8函數(shù)表。

池化。確定當前卷積層是否與池化層級聯(lián),然后決定是否使用池化模塊來完成池化操作。

輸出緩存。輸出緩沖器由FIFO而不是乒乓緩存實現(xiàn)。輸出高速緩存FIFO將結果存儲回片外存儲器,作為下一卷積層的輸入。

bd469cd6-66ec-11ed-8abf-dac502259ad0.png

Fig. 2. CNN 加速器實現(xiàn)

C、DMA 結構

神經(jīng)網(wǎng)絡不僅對計算能力有很高的要求,而且對內存也有很大的需求。中低端FPGA通常需要DDR SRAM(雙數(shù)據(jù)速率同步動態(tài)隨機存取存儲器)來承載整個神經(jīng)網(wǎng)絡和所有中間運算結果的權重。紫光同創(chuàng)的FPGA的DDR3內存驅動器IP為用戶提供了簡化AXI4總線的內存訪問接口。

由于Simpled AXI和AXI之間的標準差異,需要新的DMA設計。DMA設計如下。讀和寫地址通道由RISC-V軟核直接控制。讀寫數(shù)據(jù)通道的FIFO用作卷積加速器和DDR3驅動器IP的緩沖器,以完成端口轉換。

D、實現(xiàn)細節(jié)

1、一維卷積單元陣列設計

神經(jīng)網(wǎng)絡不僅對計算能力有很高的要求,而且對內存也有很大的需求。中低端FPGA通常需要DDR SRAM(雙數(shù)據(jù)速率同步動態(tài)隨機存取存儲器)來承載整個神經(jīng)網(wǎng)絡和所有中間運算結果的權重。紫光同創(chuàng)的FPGA的DDR3內存驅動器IP為用戶提供了簡化AXI4總線的內存訪問接口。

由于Simpled AXI和AXI之間的標準差異,需要新的DMA設計。DMA設計如下。讀和寫地址通道由RISC-V軟核直接控制。讀寫數(shù)據(jù)通道的FIFO用作卷積加速器和DDR3驅動器IP的緩沖器,以完成端口轉換。

2、卷積加速器控制

本文提出了一種基于指令隊列的設計,以減少RISC-V軟核中DMA和加速器的響應延遲。RISC-V CPU可以連續(xù)發(fā)送多個存儲器讀寫請求指令和多個操作調度控制指令,而不用等待DMA和加速器的反饋。DMA和加速器從隊列中獲取指令,任務完成后直接從隊列中取出下一條指令,無需等待相應的CPU,從而實現(xiàn)低延遲調度。

bd61ff08-66ec-11ed-8abf-dac502259ad0.png

Fig. 3. 1X3 一維卷積原理圖

bd75d1c2-66ec-11ed-8abf-dac502259ad0.png

Fig. 4. 一維卷積單元硬件實現(xiàn)

實現(xiàn)結果和備注

通過在PG2L100H和X7Z020上實現(xiàn)相同配置的CNN加速器,完成了CNN加速器的性能測試,驗證了國產(chǎn)FPGA CNN加速方案的可行性。加速器的資源消耗和性能如表I和表II所示。

bd89414e-66ec-11ed-8abf-dac502259ad0.png

TABLE I 資源利用

PG2L100H和X7Z020的資源消耗相似。PG2L100H需要額外的邏輯資源來構建VexRiscv CPU,而X7Z020為AXI DMA IP使用更多的邏輯資源。就加速器性能而言,可從表II中看出。由于FPGA器件架構的差異,與X7Z020相比,加速器的卷積運算在PG2L100H上只能在200MHz下實現(xiàn)更好的收斂。RISC-V軟核只能在100MHz下實現(xiàn)定時收斂。

bda6cc50-66ec-11ed-8abf-dac502259ad0.png

TABLE II 性能對比

我們提出了一種基于RISC-V的一維卷積運算的新設計。該加速器在國內FPGA上的實現(xiàn)和部署已經(jīng)完成,其性能與具有相同規(guī)模硬件資源的國外FPGA相當。

本文論證了基于國產(chǎn)FPGA的CNN異構方案的可行性,該研究是國產(chǎn)FPGA應用生態(tài)中CNN加速領域的一次罕見嘗試。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1664

    文章

    22509

    瀏覽量

    639591
  • 存儲器
    +關注

    關注

    39

    文章

    7758

    瀏覽量

    172280
  • RISC-V
    +關注

    關注

    49

    文章

    2954

    瀏覽量

    53607
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    OpenHarmony與RISC-V的戰(zhàn)略融合與競賽

    ,旨在為參賽選手提供前沿技術指導。OR是一場聚焦于國產(chǎn)自主芯片架構與國產(chǎn)開源操作系統(tǒng)深度融合的系統(tǒng)級開發(fā)競賽。核心知識點——RISC-V體系架構詳解培訓詳細介紹了計
    的頭像 發(fā)表于 04-30 16:59 ?1491次閱讀
    OpenHarmony與<b class='flag-5'>RISC-V</b>的戰(zhàn)略融合與競賽

    直擊玄鐵RISC-V生態(tài)大會,看ALINX FPGA+RISC-V解決方案

    。這塊搭載玄鐵 E901 處理器的 FPGA 開發(fā)平臺,以精致的核心板+擴展板設計,展示了 RISC-V 架構在嵌入式領域的靈活性與潛力。
    的頭像 發(fā)表于 03-30 14:58 ?2372次閱讀

    OrangePi RV2 深度技術評測:RISC-V AI融合架構的先行者

    OrangePi RV2是香橙派推出的一款基于RISC-V架構的AI開發(fā)板,搭載KY X1八處理器。該板以“CPU 融合AI”為核心理念,內置2TOPS算力,并支持雙M.2 NVMe、雙千兆網(wǎng)口等
    發(fā)表于 03-03 20:19

    新思科技VC Formal解決方案RISC-V驗證中的應用

    從擁抱趨勢、暢想未來,到解決問題、交付產(chǎn)品,RISC-V 芯片已被廣泛使用。據(jù)咨詢機構 Semico Research 測算,截止 2024 年底全球 RISC-V 的累積使用量已達 500 億顆
    的頭像 發(fā)表于 02-24 16:38 ?835次閱讀

    高通收購Ventana Micro Systems,深化RISC-V CPU技術專長

    要點: 此次收購強化了高通在推動RISC-V標準和生態(tài)系統(tǒng)發(fā)展方面的承諾和領導地位。 Ventana在RISC-V指令集開發(fā)方面的技術專長將增強高通在CPU工程技術領域的實力。 Ventana團隊
    的頭像 發(fā)表于 12-11 14:08 ?780次閱讀

    銳能微RISC-VMCU芯片在智能電表中的應用

    上海貝嶺股份有限公司全資子公司深圳市銳能微科技有限公司近日推出了電表行業(yè)首顆RISC-VMCU芯片。該芯片主要面向出口電表市場,同時也為國網(wǎng)及南網(wǎng)下一步的國產(chǎn)化內核MCU做好了準備。
    的頭像 發(fā)表于 11-07 16:48 ?1688次閱讀
    銳能微<b class='flag-5'>RISC-V</b>雙<b class='flag-5'>核</b>MCU芯片在智能電表中的應用

    E203提高CPU時鐘頻率方法

    本文將分享我們團隊提高E203主頻的辦法。 查閱芯來科技官方出版的《手把手教你設計CPU——RISC-V處理器篇》教材,我們發(fā)現(xiàn),原本設計的E203主時鐘域應該是100MHZ
    發(fā)表于 10-29 06:19

    瑞芯微RISC-V芯片已量產(chǎn),性能、功耗平衡更佳

    作為瑞芯微一款集成RISC-V模塊的智能視覺芯片,采用四Arm Cortex-A7與RISC-V MCU的異構架構。該芯片內置2.
    的頭像 發(fā)表于 10-23 09:13 ?1.2w次閱讀
    瑞芯微<b class='flag-5'>RISC-V</b>芯片已量產(chǎn),性能、功耗平衡更佳

    RISC-V B擴展介紹及實現(xiàn)

    B擴展簡介 RISCV B擴展指的是RISCV用于位運算加速的一個擴展指令集,目的是使用一條指令實現(xiàn)原本需要2-3條指令才能實現(xiàn)的位操作指令。具體包含內容如下: B擴展就是RISC-V一個可選
    發(fā)表于 10-21 13:01

    【飛凌T527N開發(fā)板試用】異構RISC-V核心使用體驗

    、專門用于特定任務的“片上系統(tǒng)服務核心” 。這為整個SoC(系統(tǒng)級芯片)帶來了根本性的優(yōu)勢。 T527的異構RISC-V核心主要帶來三大層面的好處: 效率與功耗優(yōu)化 :實現(xiàn)任務分工,大幅提升能效比。如
    發(fā)表于 08-19 21:45

    賽昉科技聯(lián)合合見工實現(xiàn)國產(chǎn)一致性NoC IP與RISC-V在大規(guī)模網(wǎng)絡中的適配

    2025年7月24日——中國RISC-V軟硬件生態(tài)領導者賽昉科技與中國數(shù)字EDA/IP龍頭企業(yè)上海合見工業(yè)軟件集團有限公司(簡稱“合見工”)共同宣布雙方的突破性技術合作成果。賽昉科技自主研發(fā)
    的頭像 發(fā)表于 07-24 09:02 ?1495次閱讀
    賽昉科技聯(lián)合合見工<b class='flag-5'>軟</b><b class='flag-5'>實現(xiàn)</b><b class='flag-5'>國產(chǎn)</b>一致性NoC IP與<b class='flag-5'>RISC-V</b><b class='flag-5'>核</b>在大規(guī)模網(wǎng)絡中的適配

    智芯公司RISC-V高性能CPU芯片獲得權威認可

    近日,智芯公司自主研發(fā)的RISC-V高性能CPU芯片通過工信部直屬中國電子技術標準化研究院賽西實驗室檢測,標志著智芯公司在RISC-V高性能CPU芯片領域取得關鍵突破,自主研發(fā)實力獲得
    的頭像 發(fā)表于 06-16 17:32 ?1801次閱讀

    RISC-V架構CPU的RAS解決方案

    RISC-V架構以追趕者的姿態(tài)在多個應用領域與X86架構和ARM架構展開競爭。在服務器應用領域,RISC-V架構正在重新定義服務器芯片領域必備的安全、虛擬化和RAS等規(guī)格和規(guī)范。服務器CPU芯片作為
    的頭像 發(fā)表于 06-06 17:03 ?2021次閱讀
    <b class='flag-5'>RISC-V</b>架構<b class='flag-5'>CPU</b>的RAS解決<b class='flag-5'>方案</b>

    RISC-V架構下的編譯器自動向量化

    進迭時空專注于研發(fā)基于RISC-V的高性能新AICPU,對于充分發(fā)揮CPU的性能而言,編譯器是不可或缺的一環(huán),而在AI時代,毫無疑問向量算力將發(fā)揮越來越重要的作用。進迭時空非常重視RISC-
    的頭像 發(fā)表于 06-06 16:59 ?1458次閱讀
    <b class='flag-5'>RISC-V</b>架構下的編譯器自動向量化

    DC-ROMA RISC-V AI PC 正式發(fā)布!

    01RISC-V歷史進程的重要里程碑深度數(shù)智攜手Framework,并采用奕斯偉計算的先進RISC-V多功能智能計算SoC——EIC7702X(搭載8SiFive高性能P550CPU
    的頭像 發(fā)表于 05-13 08:03 ?1260次閱讀
    DC-ROMA <b class='flag-5'>RISC-V</b> AI PC 正式發(fā)布!
    东山县| 南和县| 长顺县| 宜州市| 裕民县| 巴里| 巫溪县| 邳州市| 玉山县| 莱芜市| 亚东县| 余姚市| 萨嘎县| 肥东县| 莲花县| 富川| 克山县| 广元市| 蒙自县| 普兰店市| 两当县| 溆浦县| 竹溪县| 夹江县| 新和县| 宁南县| 阳谷县| 灵山县| 昌江| 舟山市| 嘉禾县| 上饶县| 孟村| 霍州市| 鞍山市| 古田县| 正宁县| 新化县| 子长县| 大理市| 德保县|