日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于7nm工藝的FPGA加速芯片-ACAP

454398 ? 來(lái)源:AI加速微信公眾號(hào) ? 作者:AI加速微信公眾號(hào) ? 2020-11-05 14:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

隨著人工智能5G的興起,數(shù)據(jù)處理對(duì)芯片的算力和帶寬要求更高。為了布局未來(lái),助力人工智能和5G,賽靈思也推出了自己的FPGA加速芯片-ACAP。ACAP是一款基于7nm工藝,集成了通用處理器(PS),F(xiàn)PGA(PL),math engine以及network-on-chip的革命性芯片。特別是新增的ME結(jié)構(gòu),是一個(gè)類(lèi)似于GPU的多核并發(fā)計(jì)算單元,可以大大提高數(shù)據(jù)處理能力。同時(shí)ME支持軟件語(yǔ)言C,C++,這有利于擴(kuò)大FPGA的使用用戶,同時(shí)方便了設(shè)計(jì)開(kāi)發(fā)。

ME結(jié)構(gòu)簡(jiǎn)介

ME結(jié)構(gòu)由很多ME核組成的二維陣列結(jié)構(gòu),核之間可以實(shí)現(xiàn)數(shù)據(jù)通信。ME陣列通過(guò)NoC可以和PL以及PS端進(jìn)行通信,NoC是一種互聯(lián)總線,其提供了ME陣列到PL側(cè)的高帶寬通路。ME核包含了BRAM,DSP以及控制邏輯。ME具有以下特點(diǎn):

1) 有一個(gè)RISC處理器,能夠支持32bit標(biāo)量數(shù)據(jù)運(yùn)算,包括sin/cos,開(kāi)方,乘法等操作;

2) 向量乘法計(jì)算單元。這是一個(gè)由DSP組成的陣列,能夠支持32個(gè)16bitx8bit,64個(gè)16x8bit,128個(gè)8x8bit計(jì)算。還支持8個(gè)單精度乘法計(jì)算;

3) 指令控制結(jié)構(gòu)支持load和save,向量乘法等操作,這些操作統(tǒng)一用一個(gè)指令字段描述;

4) 含有多路AXI stream,可以實(shí)現(xiàn)高速數(shù)據(jù)通信;

5) 含有一個(gè)128bit寬1K深的程序存儲(chǔ)器,支持指令壓縮,可通過(guò)AXI-MM進(jìn)行配置;

6) 含有多個(gè)數(shù)據(jù)存儲(chǔ)器,分成多個(gè)bank,共有32KB容量;

7) 含有配置接口,用于ME核的配置和調(diào)試;

8) 含有debug/trace/profile功能,用于程序追蹤和調(diào)試;

ME核的工作頻率達(dá)到1GHz,電壓0.7V,具有較低功耗。ME支持多種形式的數(shù)據(jù)傳送,包括AXI-MM,AXI-stream,以及ME之間共享的bank進(jìn)行數(shù)據(jù)直接交互。

為了保證性能的可預(yù)測(cè)性,ME之間數(shù)據(jù)通信不存在緩存一致性。但是ME和PS之間通信是需要緩存一致性功能的,ME和PS端共享DDR中一段內(nèi)存。當(dāng)PS處理完數(shù)據(jù)發(fā)送給ME時(shí),是要保證處理的數(shù)據(jù)都已經(jīng)存儲(chǔ)到DDR中了。而ME處理完數(shù)據(jù)寫(xiě)到DDR中后,也要讓PS知道數(shù)據(jù)已經(jīng)寫(xiě)完。ME可以使用虛擬地址去訪問(wèn)PS的存儲(chǔ)或者DDR,ME地址會(huì)經(jīng)過(guò)PS端的MMU進(jìn)行解析。

為了保證某些過(guò)程的安全性(比如對(duì)TrustZone的保護(hù),或者防止ME陣列的重要信息被讀取),ME提供了一些保護(hù)措施。主要包括對(duì)ME訪問(wèn)的保護(hù),AXI-MM傳輸?shù)陌踩员Wo(hù),AXI-stream數(shù)據(jù)訪問(wèn)的保護(hù)等。

ME陣列可以在功能上被分割成多個(gè)子陣列使用,這可以用于一些需要ME陣列完成多種功能的任務(wù)。其中ME核,AXI-stream,數(shù)據(jù)存儲(chǔ)訪問(wèn)等模塊都可以被分割。只有AXI-MM不能被分割。NoC中可以支持對(duì)控制信息的修改,從而可以給不同子陣列發(fā)送不同的控制信息。每個(gè)ME核含有256Kb的數(shù)據(jù)存儲(chǔ)器和128Kb的程序存儲(chǔ)器,對(duì)于一個(gè)300個(gè)ME核的芯片就含有77Mb數(shù)據(jù)存儲(chǔ)和38Mb程序存儲(chǔ),這么大的空間,保證數(shù)據(jù)準(zhǔn)確性是很關(guān)鍵的。因此不論是數(shù)據(jù)存儲(chǔ)器還是程序存儲(chǔ)器都提供了ECC校驗(yàn),以防止軟件錯(cuò)誤產(chǎn)生的數(shù)據(jù)錯(cuò)誤問(wèn)題。程序存儲(chǔ)器每144bit包含128bit有效數(shù)據(jù)和8bitECC校驗(yàn)位。8bit校驗(yàn)位可以在每64bit數(shù)據(jù)中糾正1bit數(shù)據(jù)和檢測(cè)出2bit數(shù)據(jù)錯(cuò)誤。存儲(chǔ)數(shù)據(jù)出錯(cuò)會(huì)生成錯(cuò)誤事件,反饋給debug或者profile模塊報(bào)告這些錯(cuò)誤。

ME陣列被分配了4個(gè)1GB的地址映射區(qū)域,目前芯片只有一個(gè)ME陣列,所以只使用了1GB地址映射空間。ME的地址含有整體陣列的offset,陣列的行列編號(hào),以及ME核中存儲(chǔ)地址。這些信息可以確定往哪個(gè)ME中的存儲(chǔ)位置讀寫(xiě)數(shù)據(jù)。

ME中有4個(gè)時(shí)鐘:ME核時(shí)鐘,高頻,可到1GHz,用于ME中的數(shù)據(jù)傳輸和運(yùn)算。NoC時(shí)鐘,數(shù)據(jù)時(shí)鐘,用于從PL到ME的數(shù)據(jù)輸送。PL側(cè)時(shí)鐘以及NPI時(shí)鐘,NPI時(shí)鐘用于調(diào)試追蹤等。

數(shù)據(jù)傳輸結(jié)構(gòu)

為了保證不同設(shè)備之間的數(shù)據(jù)交換,我們需要滿足兩個(gè)條件:一個(gè)是數(shù)據(jù)實(shí)際的流通,這個(gè)包含數(shù)據(jù)傳輸通路和數(shù)據(jù)存儲(chǔ);當(dāng)然也不必包含有存儲(chǔ),流水線處理的數(shù)據(jù)只有數(shù)據(jù)流通;另外一個(gè)是發(fā)送者和收發(fā)者之間的同步。接受者接收數(shù)據(jù)只有在發(fā)送者發(fā)出數(shù)據(jù)之后,同時(shí)發(fā)送者發(fā)送數(shù)據(jù)必須等接受者準(zhǔn)備好接收數(shù)據(jù)。因此一些同步信號(hào)是必須的。

ME陣列中能夠?qū)崿F(xiàn)數(shù)據(jù)交互的設(shè)備有:

1) 本地存儲(chǔ)bank。每個(gè)ME包含8個(gè)bank,這些bank可以用于和周?chē)?個(gè)ME進(jìn)行數(shù)據(jù)通信。ME通過(guò)load和save指令來(lái)讀寫(xiě)本地存儲(chǔ)器。如果ME的寫(xiě)和另外一個(gè)ME的讀同時(shí)發(fā)生,可以通過(guò)ping/pong操作同步。

2) Stream-network可用于所有ME之間數(shù)據(jù)交互。而且stream本身是具有同步信號(hào)的,所以無(wú)需增加額外同步信號(hào)。

3) AXI-MM接口能夠用于ME和PL端甚至是外部存儲(chǔ)器進(jìn)行通信。

保證數(shù)據(jù)同步的裝置有:

1) ME本地原子鎖。這個(gè)鎖可以保證生產(chǎn)者和消費(fèi)者的數(shù)據(jù)訪問(wèn)沖突解決。如果鎖被置為1,表示可以被讀,如果為0表示可以寫(xiě)。

2) Shim-DMA鎖。用于同步不同DMA通道,或者DMA通道和AXI-MM通道;

3) 信號(hào)量機(jī)制。對(duì)于ME和PS端的數(shù)據(jù)通信,還可以通過(guò)軟件層次的信號(hào)量機(jī)制來(lái)進(jìn)行同步,因?yàn)镻S端可以通過(guò)AXI-MM接口實(shí)現(xiàn)和ME之間的數(shù)據(jù)同步;

4) Stream網(wǎng)絡(luò)自身附帶的同步特性,用于不同ME之間交換數(shù)據(jù)。

PL和ME由于處于不同時(shí)鐘區(qū)域,ME是高頻時(shí)鐘,而PL側(cè)時(shí)鐘頻率較低。為了實(shí)現(xiàn)數(shù)據(jù)跨時(shí)鐘域傳輸,芯片提供了shim接口,shim中含有異步FIFO。FPGA可以以64bit或者32bit將數(shù)據(jù)寫(xiě)入FIFO,而ME將FIFO中數(shù)據(jù)讀出進(jìn)行運(yùn)算。ME獲得數(shù)據(jù)有兩種方式,一種是通過(guò)DMA將數(shù)據(jù)讀出寫(xiě)入到ping/pong buffer,這樣可以實(shí)現(xiàn)ME核中兩個(gè)函數(shù)的計(jì)算任務(wù)。如果ME中不需要ping/pong操作,可以不同各國(guó)DMA將數(shù)據(jù)存儲(chǔ)到buffer。可以從stream直接獲得數(shù)據(jù)進(jìn)行計(jì)算。

接下來(lái)我們看看ME內(nèi)部數(shù)據(jù)如何通信:

1) ME內(nèi)部不同操作之間可以使用shared memory來(lái)進(jìn)行數(shù)據(jù)交互,但是每次只允許一個(gè)操作來(lái)訪問(wèn)shared memory,即讀寫(xiě)無(wú)法同時(shí)進(jìn)行;

2) 兩個(gè)相鄰ME可以通過(guò)shared memory來(lái)進(jìn)行數(shù)據(jù)交互,通過(guò)ping/pong buffer可以實(shí)現(xiàn)一個(gè)寫(xiě)一個(gè)讀;

3) 對(duì)于不相鄰的ME,也可以使用ping/pong buffer。但是這個(gè)時(shí)候ME無(wú)法直接去訪問(wèn)另外一個(gè)ME的存儲(chǔ),但是每個(gè)ME都可以建立自己的ping/pong buffer,這兩組buffer可以通過(guò)DMA進(jìn)行數(shù)據(jù)交互;

4) 不同的ME之間還可以通過(guò)AXI-stream接口進(jìn)行數(shù)據(jù)交互;

5) 有時(shí)候一個(gè)大型計(jì)算要在幾個(gè)ME之間完成,這就需要不同ME之間進(jìn)行高速數(shù)據(jù)通信,相鄰的ME之間還有級(jí)聯(lián)總線,可以實(shí)現(xiàn)兩個(gè)ME之間的累加運(yùn)算,這個(gè)總線位寬達(dá)到384bit;

6) ME還可以直接從外部存儲(chǔ)器中獲得數(shù)據(jù),它將數(shù)據(jù)請(qǐng)求包發(fā)送給ME-shim,這個(gè)請(qǐng)求包含有包頭和數(shù)據(jù)請(qǐng)求信息,包頭中有原和目的地址,數(shù)據(jù)請(qǐng)求中含有數(shù)據(jù)長(zhǎng)度信息。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1664

    文章

    22509

    瀏覽量

    639538
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136100
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50366

    瀏覽量

    267056
  • 數(shù)據(jù)存儲(chǔ)器

    關(guān)注

    1

    文章

    70

    瀏覽量

    18176
  • ACAP
    +關(guān)注

    關(guān)注

    1

    文章

    54

    瀏覽量

    8763
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    10AX022C3U19I2SG現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA芯片

    10AX022C3U19I2SG現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA芯片10AX022C3U19I2SG是英特爾(Intel)旗下Arria 10 GX系列的一款FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)器件,專為高性能
    發(fā)表于 02-27 09:31

    旋極星源基于22nm工藝完成關(guān)鍵IP發(fā)布與驗(yàn)證

    隨著物聯(lián)網(wǎng)、移動(dòng)通信、人工智能及汽車(chē)電子等應(yīng)用的快速發(fā)展,市場(chǎng)對(duì)芯片在算力、能效、集成度與成本等方面提出了更為嚴(yán)格的要求。22nm工藝節(jié)點(diǎn)憑借其在性能、功耗及成本之間的卓越平衡,已成為眾多中高端
    的頭像 發(fā)表于 01-30 16:15 ?455次閱讀
    旋極星源基于22<b class='flag-5'>nm</b><b class='flag-5'>工藝</b>完成關(guān)鍵IP發(fā)布與驗(yàn)證

    芯片封裝等領(lǐng)域清潔除塵工藝解決方案

    潔凈室,以此降低成本、縮短建廠周期,目標(biāo) 2027?年量產(chǎn) 2nm AI?芯片。 我們要知道2nm芯片的制造對(duì)工廠的要求極為嚴(yán)苛,它需要極致的環(huán)境控制。2
    的頭像 發(fā)表于 01-14 15:53 ?351次閱讀

    0.2nm工藝節(jié)點(diǎn)的背后需要“背面供電”支撐

    實(shí)現(xiàn)0.2nm工藝節(jié)點(diǎn)。 ? 而隨著芯片工藝節(jié)點(diǎn)的推進(jìn),芯片供電面臨越來(lái)越多問(wèn)題,所以近年英特爾、臺(tái)積電、三星等廠商相繼推出背面供電技術(shù),旨
    的頭像 發(fā)表于 01-03 05:58 ?1.3w次閱讀

    MT6789安卓核心板_MTK6789(Helio G99)小尺寸低功耗智能模塊

    和強(qiáng)大的計(jì)算能力,成為4G智能模塊領(lǐng)域的性能標(biāo)桿。MT6789安卓核心板的亮點(diǎn)在于其采用了臺(tái)積電6nm工藝,這種先進(jìn)的制程技術(shù)相比傳統(tǒng)12nm7nm
    的頭像 發(fā)表于 12-23 20:18 ?1062次閱讀
    MT6789安卓核心板_MTK6789(Helio G99)小尺寸低功耗智能模塊

    高云半導(dǎo)體22nm FPGA產(chǎn)品家族亮相ICCAD-Expo 2025

    2025年11月20日, 國(guó)內(nèi)領(lǐng)先的FPGA芯片供應(yīng)商廣東高云半導(dǎo)體科技股份有限公司(以下簡(jiǎn)稱“高云半導(dǎo)體”)隆重出席2025集成電路發(fā)展論壇(成渝)暨第31屆集成電路設(shè)計(jì)業(yè)展覽會(huì)(ICCAD 2025)。展會(huì)期間,高云半導(dǎo)體全面展示了其布局完善的22
    的頭像 發(fā)表于 11-27 11:10 ?2361次閱讀
    高云半導(dǎo)體22<b class='flag-5'>nm</b> <b class='flag-5'>FPGA</b>產(chǎn)品家族亮相ICCAD-Expo 2025

    “汽車(chē)智能化” 和 “家電高端化”

    ,對(duì)算力和穩(wěn)定性要求極高。而車(chē)規(guī)芯片要通過(guò) - 40℃~125℃的極端環(huán)境測(cè)試,7nm 工藝的低功耗、高可靠性剛好匹配需求。目前我國(guó)汽車(chē)芯片對(duì)外依賴度超 90%,高端計(jì)算
    發(fā)表于 10-28 20:46

    國(guó)產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?

    最近行業(yè)都在說(shuō)“算力是AI的命門(mén)”,但國(guó)產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實(shí)測(cè)下來(lái)有點(diǎn)超出預(yù)期——7nm工藝下算力直接拉到256 TFLOPS,比上一代提升了40%,但功耗
    發(fā)表于 10-27 13:12

    白光干涉儀在EUV光刻后的3D輪廓測(cè)量

    EUV(極紫外)光刻技術(shù)憑借 13.5nm 的短波長(zhǎng),成為 7nm 及以下節(jié)點(diǎn)集成電路制造的核心工藝,其光刻后形成的三維圖形(如鰭片、柵極、接觸孔等)尺寸通常在 5-50nm 范圍,高
    的頭像 發(fā)表于 09-20 09:16 ?1001次閱讀

    AMD 7nm Versal系列器件NoC的使用及注意事項(xiàng)

    AMD 7nm Versal系列器件引入了可編程片上網(wǎng)絡(luò)(NoC, Network on Chip),這是一個(gè)硬化的、高帶寬、低延遲互連結(jié)構(gòu),旨在實(shí)現(xiàn)可編程邏輯(PL)、處理系統(tǒng)(PS)、AI引擎(AIE)、DDR控制器(DDRMC)、CPM(PCIe/CXL)等模塊之間的高效數(shù)據(jù)交換。
    的頭像 發(fā)表于 09-19 15:15 ?3161次閱讀
    AMD <b class='flag-5'>7nm</b> Versal系列器件NoC的使用及注意事項(xiàng)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+工藝創(chuàng)新將繼續(xù)維持著摩爾神話

    。那該如何延續(xù)摩爾神話呢? 工藝創(chuàng)新將是其途徑之一,芯片中的晶體管結(jié)構(gòu)正沿著摩爾定律指出的方向一代代演進(jìn),本段加速半導(dǎo)體的微型化和進(jìn)一步集成,以滿足AI技術(shù)及高性能計(jì)算飛速發(fā)展的需求。 CMOS
    發(fā)表于 09-06 10:37

    今日看點(diǎn)丨芯原股份計(jì)劃收購(gòu)芯來(lái)智融;消息稱臺(tái)積電加速 1.4nm 先進(jìn)工藝

    智融的估值尚未最終確定。 ? 芯原股份目前持有芯來(lái)智融2.99%股權(quán),通過(guò)本次交易擬取得芯來(lái)智融全部股權(quán)或控股權(quán)。本次交易的具體交易方式、交易方案等內(nèi)容以后續(xù)披露的重組預(yù)案及公告信息為準(zhǔn)。 ? 消息稱臺(tái)積電加速 1.4nm 先進(jìn)工藝
    發(fā)表于 08-29 11:28 ?2335次閱讀

    中國(guó)芯片發(fā)展現(xiàn)狀和趨勢(shì)2025

    芯片)、紫光展銳(物聯(lián)網(wǎng)芯片)、寒武紀(jì)(AI芯片)等企業(yè)進(jìn)入全球TOP10設(shè)計(jì)公司榜單 國(guó)產(chǎn)EDA工具取得突破:華大九天實(shí)現(xiàn)28nm工藝全流
    的頭像 發(fā)表于 08-12 11:50 ?4.1w次閱讀
    中國(guó)<b class='flag-5'>芯片</b>發(fā)展現(xiàn)狀和趨勢(shì)2025

    主流汽車(chē)電子SoC芯片對(duì)比分析

    分析。 一、技術(shù)參數(shù)對(duì)比 芯片型號(hào) 制造商 制程工藝 CPU算力(DMIPS) GPU算力(GFLOPS) NPU算力(TOPS) 存儲(chǔ)帶寬(GB/s) 車(chē)規(guī)認(rèn)證 高通SA8295P 高通 5nm
    的頭像 發(fā)表于 05-23 15:33 ?6703次閱讀

    雷軍:小米自研芯片采用二代3nm工藝 雷軍分享小米芯片之路感慨

    Ultra,小米首款SUV小米yu7 等。 雷軍還透露,小米玄戒O1,采用第二代3nm工藝制程,力爭(zhēng)躋身第一梯隊(duì)旗艦體驗(yàn)。此次小米發(fā)布會(huì)的最大亮點(diǎn)之一肯定是小米自研手機(jī)SoC芯片「玄
    的頭像 發(fā)表于 05-19 16:52 ?1630次閱讀
    汶川县| 泊头市| 桦川县| 遵义市| 定边县| 西充县| 宜兰县| 铜梁县| 珲春市| 即墨市| 海丰县| 靖州| 鸡西市| 海宁市| 鱼台县| 都安| 德格县| 公安县| 太谷县| 从江县| 汨罗市| 贵德县| 文成县| 盐边县| 吉林市| 巢湖市| 汕头市| 长沙县| 铁岭县| 天门市| 合山市| 阳春市| 布拖县| 右玉县| 敖汉旗| 岑巩县| 岑溪市| 平昌县| 响水县| 阳西县| 丰台区|