電子發(fā)燒友網(wǎng)報道(文 / 吳子鵬)當(dāng)前,AI 技術(shù)已深度融入生產(chǎn)生活,從 AI 手機、AI?PC 到云端大模型推理,再到未來的具身智能機器人,對算力的需求呈指數(shù)級增長。然而,在 AI 飛速發(fā)展的同時,算力、能效與帶寬瓶頸成為行業(yè)前行的關(guān)鍵阻礙,而美西方的技術(shù)禁運更讓中國芯片產(chǎn)業(yè)面臨嚴(yán)峻挑戰(zhàn)。
?
在這一大背景下,存算一體成為國產(chǎn)算力突破的重要手段。近日,在杭州舉辦的 RISC-V 存算一體產(chǎn)業(yè)論壇暨應(yīng)用組啟動大會上,微納核芯、浙江省北大信息技術(shù)高等研究院、知合計算、小米移動、浪潮計算機、紫光展銳、兆易創(chuàng)新、北京智芯、上海兆芯、安路信息、英韌科技、麒麟軟件、清微智能、進迭時空、算能科技、澎峰科技、希姆計算、千芯科技、雄安安算、元石智算、塵點科技、凌川科技、新華三等企業(yè)與機構(gòu)代表及行業(yè)專家齊聚一堂,共同確立了 “RISC-V + 存算一體” 技術(shù)的標(biāo)準(zhǔn)化路線圖,旨在為國產(chǎn)芯片應(yīng)對大模型時代的算力挑戰(zhàn)提供核心支撐。
?
?
會上,杭州微納核芯首席科學(xué)家葉樂教授作了題為《三維存算一體 3D-CIM:賦能 RISC-V AI 生態(tài)》的報告,分享了微納核芯在三維存算一體(3D-CIM)技術(shù)領(lǐng)域的探索與實踐,以及該技術(shù)如何為 RISC-V AI 生態(tài)注入新活力,助力我國芯片產(chǎn)業(yè)實現(xiàn)自主可控。
?
·算力密度瓶頸:摩爾定律逐漸逼近物理極限,傳統(tǒng)芯片依賴先進工藝提升算力的路徑愈發(fā)艱難。
·數(shù)據(jù)帶寬瓶頸:大模型參數(shù)量動輒達千億級別,在傳統(tǒng)馮?諾依曼架構(gòu)下,計算單元與存儲單元分離,數(shù)據(jù)搬運量遠超算力需求,數(shù)據(jù)通道如同 “交通堵塞”,嚴(yán)重制約大模型應(yīng)用效率。
?
·軟硬件生態(tài)瓶頸:現(xiàn)有 AI 硬件發(fā)展缺乏標(biāo)準(zhǔn)指令集與工具鏈,軟件生態(tài)多被美西方掌控,自主生態(tài)建設(shè)面臨高昂的遷移成本與兼容難題。
?
他認為,要克服這些挑戰(zhàn),急需發(fā)展 “基于現(xiàn)有國產(chǎn)工藝條件、突破上述關(guān)鍵挑戰(zhàn)的新架構(gòu)技術(shù)路線 + 開源自主可控生態(tài)” 的創(chuàng)新路徑。微納核芯團隊經(jīng)過多年深耕,提出了以三維存算一體為核心的創(chuàng)新技術(shù)路線,從存儲與計算的融合入手,結(jié)合 RISC-V 開源生態(tài)優(yōu)勢,構(gòu)建全棧自主可控的技術(shù)體系。
?
在存算一體技術(shù)路線選擇上,微納核芯堅定采用數(shù)字域路線。相較于模擬域存算,數(shù)字域存算具備計算精度高、可靠性強的優(yōu)勢,支持高精度浮點計算與軟件量化方式,更符合未來產(chǎn)業(yè)規(guī)?;瘧?yīng)用需求。通過在微觀層面將存儲單元與計算單元融合,存算一體技術(shù)可實現(xiàn)張量計算的原位高效處理。
?
在 AI 應(yīng)用中,無論是云端 AI 應(yīng)用、邊緣端應(yīng)用,還是輕量級 AI 應(yīng)用,張量計算占比均高達 99% 以上,行業(yè)急需針對張量計算的加速解決方案 —— 能高效處理張量計算的存算一體,成為破局路徑之一。存儲單元與計算單元的微觀融合,不僅大幅縮短數(shù)據(jù)路徑距離、緩解帶寬瓶頸,更能顯著提升算力密度與計算能效。
?
葉樂教授表示,存算一體的理想技術(shù)路線需考量四大因素:?
·大存儲容量:可存儲大模型所有參數(shù),并滿足模型規(guī)模增長的需求;
·高密度存儲:能在有限的面積資源下,存儲所有大模型參數(shù);
·高可擦寫次數(shù):大模型計算需頻繁更新 KV Cache,存儲器須具備高次數(shù)更新能力;
·快讀寫速度:高吞吐率的大模型推理對存儲器的讀寫速度提出較高要求。
?
綜合考量各項技術(shù)的優(yōu)劣勢后,微納核芯選擇基于 SRAM 實現(xiàn)數(shù)字域存算一體。據(jù)流片實測結(jié)果顯示,SRAM 存算一體在同工藝下的算力密度相比傳統(tǒng)架構(gòu)提升 4 倍;經(jīng)多次流片驗證,其在 22nm 工藝下可實現(xiàn)傳統(tǒng) NPU/GPU 路線在 7nm 工藝下相當(dāng)?shù)乃懔γ芏?;與傳統(tǒng) NPU/GPU 路線相比,計算能效提升 5-10 倍。此外,微納核芯的 SRAM 存算一體芯片基于全國產(chǎn)供應(yīng)鏈,且相比 7nm 芯片成本降低 4 倍。目前,微納核芯已完成 SRAM 存算一體全棧軟件棧的初版設(shè)計,涵蓋仿真器、指令集、算子庫、編譯器及軟件棧。
?
葉樂教授指出,微納核芯 SRAM 存算一體之所以能實現(xiàn)上述優(yōu)勢,離不開 3D-CIM 技術(shù)的支撐。為進一步突破帶寬瓶頸,微納核芯引入 3D 近存架構(gòu),構(gòu)建 3D-CIM。該架構(gòu)將存算一體計算芯片與 DRAM 存儲芯片進行三維堆疊,如同為數(shù)據(jù)搬運搭建 “專屬電梯”—— 大模型參數(shù)存儲在上層 DRAM 中,調(diào)用時可直接快速傳輸至下層計算芯片,大幅提升數(shù)據(jù)帶寬的同時降低傳輸功耗。這種創(chuàng)新架構(gòu)實現(xiàn)了存算一體與近存計算的完美融合。
?
?
?
當(dāng)然,RISC-V 架構(gòu)的價值遠不止于此。葉樂教授在演講中提到:“我們也清醒地認識到,單一存算一體技術(shù)無法解決所有問題。存算一體雖能高效處理張量計算,但在標(biāo)量計算與計算完備性上存在短板,且面臨編譯難題。而 RISC-V 作為開源、靈活的指令集架構(gòu),恰好能彌補這些不足?!?br /> ?
為此,微納核芯創(chuàng)新提出 RISC-V 與存算一體的異構(gòu)融合架構(gòu):用存算一體模塊處理 99% 的張量計算,充分發(fā)揮其高算力密度與高能效優(yōu)勢;用 RISC-V CPU 處理 1% 的標(biāo)量計算,保障計算完備性。在此基礎(chǔ)上,微納核芯還擴展了存算一體專用指令集,覆蓋卷積、全連接、Attention 等主流張量算子,兼容 INT4、FP8、BF16 等多種數(shù)據(jù)格式,實現(xiàn)與 RISC-V 標(biāo)準(zhǔn)指令集的協(xié)同。通過統(tǒng)一的抽象算子庫與擴展編譯器,微納核芯的 SRAM 存算一體芯片成功接入 RISC-V 開源生態(tài),解決了存算一體的軟件生態(tài)難題,為技術(shù)產(chǎn)業(yè)化掃清障礙。
?
在產(chǎn)品規(guī)劃上,葉樂教授透露,微納核芯計劃于 2026 年第一季度完成芯片流片,第三季度向手機、PC 等領(lǐng)域的頭部企業(yè)送樣,率先布局 AI 手機、AIPC 等端側(cè)大模型應(yīng)用;中期將聯(lián)合國產(chǎn)高性能 CPU,推出 3D-CIM 芯片解決方案,有望繞過甚至超越英偉達現(xiàn)有方案,進軍云端大模型市場;遠期則瞄準(zhǔn)具身智能領(lǐng)域,為 AI 機器人提供核心算力支撐。
?
在這一大背景下,存算一體成為國產(chǎn)算力突破的重要手段。近日,在杭州舉辦的 RISC-V 存算一體產(chǎn)業(yè)論壇暨應(yīng)用組啟動大會上,微納核芯、浙江省北大信息技術(shù)高等研究院、知合計算、小米移動、浪潮計算機、紫光展銳、兆易創(chuàng)新、北京智芯、上海兆芯、安路信息、英韌科技、麒麟軟件、清微智能、進迭時空、算能科技、澎峰科技、希姆計算、千芯科技、雄安安算、元石智算、塵點科技、凌川科技、新華三等企業(yè)與機構(gòu)代表及行業(yè)專家齊聚一堂,共同確立了 “RISC-V + 存算一體” 技術(shù)的標(biāo)準(zhǔn)化路線圖,旨在為國產(chǎn)芯片應(yīng)對大模型時代的算力挑戰(zhàn)提供核心支撐。
?

會上,杭州微納核芯首席科學(xué)家葉樂教授作了題為《三維存算一體 3D-CIM:賦能 RISC-V AI 生態(tài)》的報告,分享了微納核芯在三維存算一體(3D-CIM)技術(shù)領(lǐng)域的探索與實踐,以及該技術(shù)如何為 RISC-V AI 生態(tài)注入新活力,助力我國芯片產(chǎn)業(yè)實現(xiàn)自主可控。
?

杭州微納核芯首席科學(xué)家葉樂教授
3D-CIM 助力國產(chǎn)算力騰飛
如上所述,后摩爾定律時代,國產(chǎn)算力芯片發(fā)展面臨更為嚴(yán)峻的挑戰(zhàn),葉樂教授在此列舉了三點:?·算力密度瓶頸:摩爾定律逐漸逼近物理極限,傳統(tǒng)芯片依賴先進工藝提升算力的路徑愈發(fā)艱難。
·數(shù)據(jù)帶寬瓶頸:大模型參數(shù)量動輒達千億級別,在傳統(tǒng)馮?諾依曼架構(gòu)下,計算單元與存儲單元分離,數(shù)據(jù)搬運量遠超算力需求,數(shù)據(jù)通道如同 “交通堵塞”,嚴(yán)重制約大模型應(yīng)用效率。
?
·軟硬件生態(tài)瓶頸:現(xiàn)有 AI 硬件發(fā)展缺乏標(biāo)準(zhǔn)指令集與工具鏈,軟件生態(tài)多被美西方掌控,自主生態(tài)建設(shè)面臨高昂的遷移成本與兼容難題。
?
他認為,要克服這些挑戰(zhàn),急需發(fā)展 “基于現(xiàn)有國產(chǎn)工藝條件、突破上述關(guān)鍵挑戰(zhàn)的新架構(gòu)技術(shù)路線 + 開源自主可控生態(tài)” 的創(chuàng)新路徑。微納核芯團隊經(jīng)過多年深耕,提出了以三維存算一體為核心的創(chuàng)新技術(shù)路線,從存儲與計算的融合入手,結(jié)合 RISC-V 開源生態(tài)優(yōu)勢,構(gòu)建全棧自主可控的技術(shù)體系。
?
在存算一體技術(shù)路線選擇上,微納核芯堅定采用數(shù)字域路線。相較于模擬域存算,數(shù)字域存算具備計算精度高、可靠性強的優(yōu)勢,支持高精度浮點計算與軟件量化方式,更符合未來產(chǎn)業(yè)規(guī)?;瘧?yīng)用需求。通過在微觀層面將存儲單元與計算單元融合,存算一體技術(shù)可實現(xiàn)張量計算的原位高效處理。
?
在 AI 應(yīng)用中,無論是云端 AI 應(yīng)用、邊緣端應(yīng)用,還是輕量級 AI 應(yīng)用,張量計算占比均高達 99% 以上,行業(yè)急需針對張量計算的加速解決方案 —— 能高效處理張量計算的存算一體,成為破局路徑之一。存儲單元與計算單元的微觀融合,不僅大幅縮短數(shù)據(jù)路徑距離、緩解帶寬瓶頸,更能顯著提升算力密度與計算能效。
?
葉樂教授表示,存算一體的理想技術(shù)路線需考量四大因素:?
·大存儲容量:可存儲大模型所有參數(shù),并滿足模型規(guī)模增長的需求;
·高密度存儲:能在有限的面積資源下,存儲所有大模型參數(shù);
·高可擦寫次數(shù):大模型計算需頻繁更新 KV Cache,存儲器須具備高次數(shù)更新能力;
·快讀寫速度:高吞吐率的大模型推理對存儲器的讀寫速度提出較高要求。
?
綜合考量各項技術(shù)的優(yōu)劣勢后,微納核芯選擇基于 SRAM 實現(xiàn)數(shù)字域存算一體。據(jù)流片實測結(jié)果顯示,SRAM 存算一體在同工藝下的算力密度相比傳統(tǒng)架構(gòu)提升 4 倍;經(jīng)多次流片驗證,其在 22nm 工藝下可實現(xiàn)傳統(tǒng) NPU/GPU 路線在 7nm 工藝下相當(dāng)?shù)乃懔γ芏?;與傳統(tǒng) NPU/GPU 路線相比,計算能效提升 5-10 倍。此外,微納核芯的 SRAM 存算一體芯片基于全國產(chǎn)供應(yīng)鏈,且相比 7nm 芯片成本降低 4 倍。目前,微納核芯已完成 SRAM 存算一體全棧軟件棧的初版設(shè)計,涵蓋仿真器、指令集、算子庫、編譯器及軟件棧。
?
葉樂教授指出,微納核芯 SRAM 存算一體之所以能實現(xiàn)上述優(yōu)勢,離不開 3D-CIM 技術(shù)的支撐。為進一步突破帶寬瓶頸,微納核芯引入 3D 近存架構(gòu),構(gòu)建 3D-CIM。該架構(gòu)將存算一體計算芯片與 DRAM 存儲芯片進行三維堆疊,如同為數(shù)據(jù)搬運搭建 “專屬電梯”—— 大模型參數(shù)存儲在上層 DRAM 中,調(diào)用時可直接快速傳輸至下層計算芯片,大幅提升數(shù)據(jù)帶寬的同時降低傳輸功耗。這種創(chuàng)新架構(gòu)實現(xiàn)了存算一體與近存計算的完美融合。
?
?
RISC-V 與 3D-CIM 的融合
那么,在這一創(chuàng)新體系中,RISC-V 架構(gòu)的價值體現(xiàn)在何處?回歸前文提及的國產(chǎn)算力芯片挑戰(zhàn),在軟硬件生態(tài)瓶頸方面,國內(nèi)面臨的現(xiàn)實問題是:即便擁有先進芯片,編程與使用仍存在諸多困境,例如算子庫需持續(xù)演化、應(yīng)用遷移難度大等。而異構(gòu)融合 AI 計算借助 RISC-V 生態(tài)體系,通過標(biāo)準(zhǔn)架構(gòu)接口與編譯鏈開展軟件開發(fā),可有效克服這一難題。?
當(dāng)然,RISC-V 架構(gòu)的價值遠不止于此。葉樂教授在演講中提到:“我們也清醒地認識到,單一存算一體技術(shù)無法解決所有問題。存算一體雖能高效處理張量計算,但在標(biāo)量計算與計算完備性上存在短板,且面臨編譯難題。而 RISC-V 作為開源、靈活的指令集架構(gòu),恰好能彌補這些不足?!?br /> ?
為此,微納核芯創(chuàng)新提出 RISC-V 與存算一體的異構(gòu)融合架構(gòu):用存算一體模塊處理 99% 的張量計算,充分發(fā)揮其高算力密度與高能效優(yōu)勢;用 RISC-V CPU 處理 1% 的標(biāo)量計算,保障計算完備性。在此基礎(chǔ)上,微納核芯還擴展了存算一體專用指令集,覆蓋卷積、全連接、Attention 等主流張量算子,兼容 INT4、FP8、BF16 等多種數(shù)據(jù)格式,實現(xiàn)與 RISC-V 標(biāo)準(zhǔn)指令集的協(xié)同。通過統(tǒng)一的抽象算子庫與擴展編譯器,微納核芯的 SRAM 存算一體芯片成功接入 RISC-V 開源生態(tài),解決了存算一體的軟件生態(tài)難題,為技術(shù)產(chǎn)業(yè)化掃清障礙。
?
在產(chǎn)品規(guī)劃上,葉樂教授透露,微納核芯計劃于 2026 年第一季度完成芯片流片,第三季度向手機、PC 等領(lǐng)域的頭部企業(yè)送樣,率先布局 AI 手機、AIPC 等端側(cè)大模型應(yīng)用;中期將聯(lián)合國產(chǎn)高性能 CPU,推出 3D-CIM 芯片解決方案,有望繞過甚至超越英偉達現(xiàn)有方案,進軍云端大模型市場;遠期則瞄準(zhǔn)具身智能領(lǐng)域,為 AI 機器人提供核心算力支撐。
電子發(fā)燒友App






























評論