日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

存算一體芯片如何支持Transformer等不同模型?

后摩智能 ? 來源:后摩智能 ? 2024-01-05 14:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

后摩智能致力于打造通用人工智能芯片,自主研發(fā)的存算一體芯片在支持各類模型方面表現(xiàn)突出,包括YOLO系列網(wǎng)絡、BEV系列網(wǎng)絡、點云系列網(wǎng)絡等。這一系列芯片不僅在性能上有著顯著的優(yōu)勢,而且特別針對目前自動駕駛領域的算法進行了專門的優(yōu)化。近期,后摩智能剛完成新一款技術驗證芯片的量產測試,屬于國內首款基于存算一體架構的7nm車規(guī)級技術驗證芯片,專為Transformer 等車端大模型設計。

當前,自動駕駛等領域中,Transformer模型的應用逐漸占據(jù)主導地位。這一架構的優(yōu)勢在于其能夠更好地捕捉長距離依賴關系,有助于提高模型對復雜場景的理解和處理能力。面對Transformer在自動駕駛中的日益增長的需求,一個關鍵的問題浮現(xiàn)出來:存算一體芯片是否能夠高效部署Transformer模型?

Q1?存算一體芯片能高效部署Transformer嗎?

Transformer架構是一種強大的神經(jīng)網(wǎng)絡架構,能夠實現(xiàn)高效的序列建模和復雜的任務處理,它的核心組成部分包括多層感知機(MLP)和多頭注意力(MHA)。MLP是一種前饋神經(jīng)網(wǎng)絡結構,由多個層次的神經(jīng)元組成,每一層都與上一層的所有神經(jīng)元相連。

這些神經(jīng)元通過權重進行連接。MLP在Transformer中負責對輸入特征進行變換和映射,幫助網(wǎng)絡捕捉不同層次的抽象特征;MHA允許網(wǎng)絡在不同位置對輸入序列的不同部分進行關注,從而提高模型的并行性和全局信息的捕捉能力。MHA的基本思想是通過多個注意力頭(Attention Head)并行處理輸入序列,每個頭都學習關注輸入的不同方面。

這種并行性有助于有效地處理長序列,并使網(wǎng)絡更具擴展性和泛化能力。在部署Transformer時,AI芯片的任務就是高效執(zhí)行網(wǎng)絡中的MLP和MHA結構。這需要AI芯片能對其中所有算子都有很高的并行執(zhí)行能力。

Q2?多層感知機如何高效部署在存算一體芯片上?

全連接層的本質是執(zhí)行兩個矩陣(輸入特征矩陣和權重矩陣)的矩陣乘法。我們將其中權重存放在存算單元上。將輸入的特征送入存算單元,由存算單元中的計算單元直接完成乘累加操作,輸出乘累加結果。由于存算單元的計算密度很高,執(zhí)行這種全連接層的并行度很高,因此效率很高。另一方面,權重被保持在存算單元上,不發(fā)生移動,從而大幅降低了搬移權重所帶來的能耗開銷。

多頭注意力是Transformer模型的一個關鍵組成部分,它有點像大腦的多個小模塊,每個模塊都負責關注輸入數(shù)據(jù)的不同方面。這個結構之所以特別,是因為它包含了多個小“頭”,每個“頭”都在關注輸入數(shù)據(jù)的不同部分。

在處理輸入數(shù)據(jù)時,每個“頭”都有三個關鍵矩陣,分別是查詢(Q)、鍵(K)、和值(V)。通過一系列數(shù)學運算,多頭注意力可以捕捉到輸入序列中不同位置之間的關系。

關系計算:首先,我們讓查詢(Q)和鍵(K)進行一種特殊的數(shù)學操作,就像在查找輸入數(shù)據(jù)中不同部分之間的聯(lián)系。這為模型提供了對輸入序列中不同位置的關注程度。

重要性映射:接著,我們通過一個函數(shù)(softmax)把剛才計算的結果映射到0到1之間,就好像在給不同位置分配注意力的“權重”,表示它們的相對重要性。

信息整合:最后,我們把剛才得到的歸一化的結果與值(V)進行另一次數(shù)學操作,這樣就得到了最終輸出。這一步把被注意到的值通過權重相加,得到多頭注意力的最終輸出。

雖然這里提到的數(shù)學操作和全連接層有點相似,但在多頭注意力中,查詢、鍵、和值這三個矩陣是動態(tài)生成的。這就意味著在執(zhí)行數(shù)學操作時,需要靈活的加載數(shù)據(jù)到存算單元上,這一過程的效率對于處理器性能非常關鍵。

為了解決這個問題,后摩智能設計了高效的存算單元數(shù)據(jù)加載硬件。這可以極大地提高存算單元中數(shù)據(jù)的替換效率,確保在多頭注意力的計算中,動態(tài)產生的矩陣K、V能夠快速而高效地加載到存算單元中。這種巧妙的設計使得存算一體芯片能夠在執(zhí)行多頭注意力結構時取得最佳性能,為Transformer模型的高效運行提供了強有力的支持。

除了計算密集型的全連接層和矩陣乘法之外,后摩智能的芯片還擁有大量的向量算力和標量算力來處理其它算子,例如softmax和layernorm算子。為了充分利用這些算力資源,后摩智能采用了先進的編譯優(yōu)化算法。這一算法的設計使得存算單元、向量單元和標量單元能夠被同時調度,實現(xiàn)并行執(zhí)行不同的計算任務。這種并行計算的優(yōu)勢不僅僅體現(xiàn)在同一算子的多個實例之間,更在于不同算子之間的并發(fā)執(zhí)行。通過同時處理各個算子,后摩智能的芯片在運行Transformer時能夠達到最高的效率,極大地提升了整個計算過程的速度和效能。

綜合而言,后摩智能芯片以其先進的設計理念和高效的存算一體架構,成功解決了對Transformer算法的高效支持問題。通過優(yōu)化全連接層、矩陣乘法和動態(tài)加載、向量和標量運算等關鍵環(huán)節(jié),后摩智能為Transformer運行的高效性和性能提供了強大的支持,為自動駕駛等領域的發(fā)展注入了新的動力。未來,后摩智能的存算一體架構芯片也將隨著算法與硬件的演進,不斷迭代,滿足萬物智能時代對算力的澎湃需求。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能芯片

    關注

    1

    文章

    124

    瀏覽量

    31109
  • 后摩智能
    +關注

    關注

    0

    文章

    57

    瀏覽量

    1761

原文標題:存算十問|(九):存算一體芯片如何支持Transformer等不同模型?

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    安克創(chuàng)新發(fā)布Thus?芯片一體架構重塑AI音頻新生態(tài)

    2026年4月22日,安克創(chuàng)新在深圳舉辦技術溝通會,正式推出全球首款基于NOR Flash技術的神經(jīng)網(wǎng)絡一體(CIM)AI音頻芯片Thus?。這款
    的頭像 發(fā)表于 04-23 09:59 ?1684次閱讀

    燧原科技訓推一體芯片L600適配階躍星辰基座模型Step 3.5 Flash

    ”的 Agent 底層模型選項,從而真正融入日常開發(fā)。燧原科技的新代訓推一體芯片L600已率先完成適配,成為國內首批適配該模型的國產
    的頭像 發(fā)表于 02-02 17:50 ?1599次閱讀
    燧原科技訓推<b class='flag-5'>一體</b><b class='flag-5'>芯片</b>L600適配階躍星辰基座<b class='flag-5'>模型</b>Step 3.5 Flash

    AI一體,這家ReRAM新型存儲受關注

    及相關芯片產品的研發(fā),涵蓋AI一體(Computing in Memory, CIM)IP及大模型加速方案、高性
    的頭像 發(fā)表于 12-25 09:43 ?2420次閱讀
    AI<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>,這家ReRAM新型存儲受關注

    科技王紹迪:AI可穿戴需求爆發(fā),一體成主流AI芯片架構

    集中在AI驅動的細分場景需求釋放,知科技聚焦的一體芯片具備高技術壁壘,同時在AI發(fā)展需求下具備天然的架構優(yōu)勢和發(fā)展前景。
    的頭像 發(fā)表于 12-23 09:34 ?1.1w次閱讀
    知<b class='flag-5'>存</b>科技王紹迪:AI可穿戴需求爆發(fā),<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>成主流AI<b class='flag-5'>芯片</b>架構

    載譽而歸 | 蘋芯科技斬獲AABI火炬技術轉移獎,一體技術探索跨境創(chuàng)新合作

    (PimchipTechnology)憑借在一體芯片領域的技術突破與跨境技術轉化成果,成功斬獲2025年AABI火炬技術轉移獎。這榮譽
    的頭像 發(fā)表于 11-04 10:03 ?938次閱讀
    載譽而歸 | 蘋芯科技斬獲AABI火炬技術轉移獎,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>技術探索跨境創(chuàng)新合作

    一體AI芯片公司九天睿芯完成超億元B輪融資

    全球領先的一體AI芯片公司九天睿芯(英文:Reexen Technology)近日宣布,公司已完成B輪融資,規(guī)模超億元人民幣。
    的頭像 發(fā)表于 10-10 11:41 ?1515次閱讀

    后摩爾定律時代,3D-CIM+RISC-V打造國產一體新范式

    ,力、能效與帶寬瓶頸成為行業(yè)前行的關鍵阻礙,而美西方的技術禁運更讓中國芯片產業(yè)面臨嚴峻挑戰(zhàn)。 ? 在這大背景下,
    發(fā)表于 09-17 09:31 ?6268次閱讀
    后摩爾定律時代,3D-CIM+RISC-V打造國產<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>新范式

    科技榮獲2025半導體市場創(chuàng)新表現(xiàn)獎

    8月26日,第22屆深圳國際電子展(elexcon2025)現(xiàn)場正式揭曉聚焦行業(yè)技術突破與價值創(chuàng)造的“2025半導體市場創(chuàng)新表現(xiàn)獎” ,知科技憑借WTM系列一體
    的頭像 發(fā)表于 08-28 17:09 ?1841次閱讀

    文看懂“一體

    今天這篇文章,我們來聊個最近幾年很火的概念——一體。為什么會提出“
    的頭像 發(fā)表于 08-18 12:15 ?1672次閱讀
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>”

    一體技術加持!后摩智能 160TOPS 端邊大模型AI芯片正式發(fā)布

    ,同步推出力擎?系列M.2卡、力謀?系列加速卡及計算盒子硬件組合,形成覆蓋移動終端與邊緣場景的完整產品矩陣。這系列動作標志著后摩智能在一體
    的頭像 發(fā)表于 07-30 07:57 ?8976次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>技術加持!后摩智能 160TOPS 端邊大<b class='flag-5'>模型</b>AI<b class='flag-5'>芯片</b>正式發(fā)布

    2025端側AI芯片爆發(fā):一體、非Transformer架構誰主浮沉?邊緣計算如何選型?

    各位技術大牛好!最近WAIC 2025上端側AI芯片密集發(fā)布,徹底打破傳統(tǒng)力困局。各位大佬在實際項目中都是如何選型的呢?
    發(fā)表于 07-28 14:40

    緩解高性能一體芯片IR-drop問題的軟硬件協(xié)同設計

    在高性能計算與AI芯片領域,基于SRAM的一體(Processing-In-Memory, PIM)架構因兼具計算密度、能效和精度優(yōu)勢成為主流方案。隨著
    的頭像 發(fā)表于 07-11 15:11 ?1637次閱讀
    緩解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>IR-drop問題的軟硬件協(xié)同設計

    國際首創(chuàng)新突破!中國團隊以一體排序架構攻克智能硬件加速難題

    2025 年 6 月 25 日,北京大學團隊在智能計算硬件方面取得領先突破,國際上首次實現(xiàn)了基于一體技術的高效排序硬件架構 (A fast and reconfigurable
    的頭像 發(fā)表于 07-02 16:50 ?1001次閱讀
    國際首創(chuàng)新突破!中國團隊以<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>排序架構攻克智能硬件加速難題

    開普云「開悟智核」:極致性價比的智能一體機,破局大模型應用難題

    當下,AI一體機憑借開箱即用、數(shù)據(jù)可控優(yōu)勢,成為行業(yè)大模型落地的重要載體之。然而實際應用時,用戶卻面臨諸多問題:力成本與性能難以平衡;
    的頭像 發(fā)表于 06-09 10:34 ?1332次閱讀
    開普云「開悟智核」:極致性價比的智能<b class='flag-5'>體</b><b class='flag-5'>一體</b>機,破局大<b class='flag-5'>模型</b>應用難題

    蘋芯科技 N300 一體 NPU,開啟端側 AI 新征程

    隨著端側人工智能技術的爆發(fā)式增長,智能設備對本地力與能效的需求日益提高。而傳統(tǒng)馮·諾依曼架構在數(shù)據(jù)處理效率上存在瓶頸,“內存墻”問題成為制約端側AI性能突破的關鍵掣肘。在這背景下,
    的頭像 發(fā)表于 05-06 17:01 ?1367次閱讀
    蘋芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b> NPU,開啟端側 AI 新征程
    陆良县| 吕梁市| 乌拉特后旗| 剑川县| 呈贡县| 金秀| 报价| 舒城县| 岳阳县| 平和县| 新宁县| 通州区| 麦盖提县| 健康| 辉县市| 灵石县| 富民县| 花莲县| 旬阳县| 新竹市| 望江县| 韶关市| 玉山县| 林周县| 屯门区| 金塔县| 北碚区| 芜湖市| 故城县| 广西| 新巴尔虎右旗| 中牟县| 东安县| 贵州省| 修武县| 从化市| 凤阳县| 鄂尔多斯市| 津南区| 马关县| 长丰县|