日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Triton-RISCV 完成 RISC-V 原生編譯適配,SG2044 平臺驗證 AI 算子 RVV 加速性能

算能開發(fā)者社區(qū) ? 2026-05-09 17:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在中國科學(xué)院軟件研究所智能軟件研究中心與如意 RISC-V 軟件生態(tài)的持續(xù)推動下,Triton-RISCV項目正式開源。該項目基于主流 AI 算子編譯框架 Triton,首次實現(xiàn)了在 RISC-V 平臺上的原生編譯與 RVV 向量加速,并在算能第二代服務(wù)器級 RISC-V 處理器 SG2044 平臺上完成了系統(tǒng)性性能驗證。

Triton-RISCV 項目已在如意社區(qū) GitHub 倉庫開源。這一成果標(biāo)志著 Triton 編譯生態(tài)正式延伸至 RISC-V 平臺,為 AI 算子開發(fā)、深度學(xué)習(xí)編譯優(yōu)化、大模型推理等關(guān)鍵應(yīng)用場景在 RISC-V 上的落地提供了堅實的軟件基礎(chǔ)。

這一進(jìn)展不僅是 RISC-V AI 編譯生態(tài)的重要里程碑,也充分驗證了算能 SG2044 在服務(wù)器級 AI 編譯與高性能向量計算場景下的平臺能力。

在 SG2044 單線程評測中,相比官方 triton-cpu 基線,Triton-RISCV 整體平均性能提升達(dá) 1.57x,峰值提升達(dá) 4.16x。

打通 Triton 到 RVV 的端到端編譯路徑

本次適配工作的核心,在于圍繞 triton-shared 與 buddy-mlir 兩大開源基礎(chǔ)設(shè)施,構(gòu)建了一條從 Triton 前端算子到 RISC-V 向量指令的完整編譯鏈路。

1. 首先將Triton算子轉(zhuǎn)換成Triton官方的TTIR層中間表示;

2. 然后通過triton-shared轉(zhuǎn)換到Linalg層中間表示;

3. 接下來在核心優(yōu)化階段接入buddy-mlir,基于自定義的VIR方言完成向量化;

4. 最后逐步下降到LLVM IR,最終完成RVV指令的代碼生成

該方案在保持 Triton 編程模型可移植性的同時,使 RISC-V 平臺能夠充分利用 RVV 的并行計算能力,為深度學(xué)習(xí)算子開發(fā)與大模型推理等典型負(fù)載提供穩(wěn)定且可持續(xù)的性能基礎(chǔ)。

e566b1ac-4b85-11f1-ab55-92fbcf53809c.png


與現(xiàn)有方案相比,Triton-RISCV 具備兩個核心特點:

原生支持 RVV 架構(gòu)。Triton-RISCV 可在 SG2044 平臺上直接完成原生構(gòu)建與原生運行,無需交叉編譯,顯著簡化了開發(fā)與調(diào)試流程,使 RISC-V 服務(wù)器具備作為完整 AI 算子開發(fā)平臺的工程能力。

復(fù)用 buddy-mlir 向量化能力。在 SG2044 單線程評測中,相比官方 triton-cpu 基線,Triton-RISCV 整體平均性能提升達(dá) 1.57x,峰值提升達(dá) 4.16x。

適配思路:面向 AI 編譯生態(tài)的分層遞進(jìn)

本次適配工作圍繞 Triton 編譯流程進(jìn)行了分層優(yōu)化,重點突破兩個關(guān)鍵層級,使 RISC-V 平臺對 Triton 算子的支持從"可運行"邁向"可向量化、可優(yōu)化、可工程化"的階段。

1. Triton → Linalg:訪存路徑優(yōu)化

針對原有 triton-shared 實現(xiàn)中存在的臨時數(shù)據(jù)搬運冗余(如 memref.copy、tensor.extract_slice、bufferization.materialize_in_destination 等),項目在該層級對訪存鏈路進(jìn)行了系統(tǒng)性精簡:輸入拷貝改為顯式向量循環(huán)并配合尾部標(biāo)量循環(huán)處理剩余元素;輸出寫回采用 vector.transfer_read 與 vector.store 組合,輔以尾部標(biāo)量處理。訪存路徑的簡化為后續(xù)向量化階段釋放出更大的優(yōu)化空間。

2. Linalg → VIR → LLVM IR:向量化覆蓋率提升

該階段復(fù)用 buddy-mlir 的向量化能力,針對兩類 Linalg 算子開展專項優(yōu)化。一類是 matmul、conv、reduce 等粗粒度算子;另一類是基于 linalg.generic 的細(xì)粒度算子,覆蓋 arith、cmp/select、min/max、位運算與移位等常見操作。上述算子在 VIR 中間表示層完成向量化改寫后,進(jìn)一步下降至 LLVM IR 并最終映射為 RVV 指令,整體向量化覆蓋率顯著提升。

系統(tǒng)性覆蓋率與性能驗證

為系統(tǒng)性驗證適配成果,項目從功能覆蓋率與性能兩個維度對 Triton-RISCV 進(jìn)行了評估。

功能覆蓋率層面,triton-shared 官方提供的 25 個 Triton 測例已在 SG2044 平臺上全部跑通,覆蓋矩陣計算、規(guī)約、索引、掩碼、訪存等典型場景。同時,項目從大模型算子庫 FlagGems 中挑選并改寫了 12 個代表性測例,涵蓋 attention、blas、norm 與 distributed 四類核心負(fù)載,亦全部驗證通過,具體如下表所示。

類別

算子示例

attention

attention_flash、attention_paged_varlen、attention_sdpa

blas

addmm、bmm、mm

norm

batch_norm、group_norm、layer_norm

distributed

exponential、normal、uniform


性能評估層面,以官方 triton-cpu為基線,在 SG2044 平臺單線程下采用 warmup=5、repeat=20 的標(biāo)準(zhǔn)化方法測量 Wall time。測試結(jié)果顯示,在納入統(tǒng)計的 15 個算子中,Triton-RISCV 整體平均加速達(dá)到 1.57x,峰值加速達(dá)到 4.16x(matmul 算子);mask、scalar_store、layernorm、tensor_index_iterargs 等典型算子均實現(xiàn)穩(wěn)定的性能提升。

e5794ae2-4b85-11f1-ab55-92fbcf53809c.png


測試結(jié)果表明,在 RVV 1.0 原生執(zhí)行環(huán)境下,Triton-RISCV 能夠?qū)⑸蠈泳幾g優(yōu)化與底層硬件向量化能力有效銜接,為 RISC-V AI 編譯棧在服務(wù)器級場景下的性能潛力提供了實證依據(jù)。

SG2044:服務(wù)器級 RVV 1.0 的關(guān)鍵載體

Triton-RISCV 端到端優(yōu)化路徑的性能落地,最終依賴于 RVV 1.0 指令在硬件平臺上的高效執(zhí)行。算能 SG2044 作為面向 AI 與高性能計算場景的 64 核服務(wù)器級 RISC-V 處理器,原生支持 RVV 1.0 擴展,并具備完整的 Linux 工具鏈與軟件支持,能夠原生承載大型基礎(chǔ)軟件項目的構(gòu)建與運行。

正是基于上述硬件與軟件基礎(chǔ)能力,本次 Triton-RISCV 適配工作選擇 SG2044 作為評測與開發(fā)平臺,并在該平臺上完成了從 Triton 前端到 RVV 指令的完整編譯路徑性能驗證。這一實踐也進(jìn)一步印證了 SG2044 在 AI 編譯、科研計算與服務(wù)器級智能計算等場景下的適用性。

SG2044 RISC-V 服務(wù)器處理器

●64 核 RISC-V,最高主頻 2.6GHz,支持 RVV 1.0 向量擴展

●片內(nèi)集成自研 TPU,支持 FP8 / BF16 / FP16 / FP32 等多精度計算

●128GB LPDDR5X,最高 8533 MT/s,帶寬最高 546GB/s

●40 lane PCIe 5.0,支持高性能外設(shè)擴展

●支持 8K 視頻編解碼(最高 128 路 1080P 解碼 / 64 路編碼)

●支持 AES、SM 系列加密算法與硬件安全模塊

●支持 SV48 大地址空間,滿足大規(guī)模應(yīng)用需求

e5888912-4b85-11f1-ab55-92fbcf53809c.png


SRA3-40 RISC-V 計算服務(wù)器

●基于算能第二代RISC-V服務(wù)器級處理器SG2044

●64核RISC-V核心,支持RVV1.0向量擴展

●片內(nèi)融合異構(gòu)TPU,內(nèi)置原生FP8算力

●128GB LPDDR5X統(tǒng)一高速內(nèi)存

●支持 4U 8 卡配置,可搭載多張智算加速卡

●支持 12 塊 SAS / SATA 硬盤 + NVMe SSD

●支持 openEuler / Ubuntu / deepin 等主流操作系統(tǒng)

e59cdbd8-4b85-11f1-ab55-92fbcf53809c.png


持續(xù)推進(jìn) RISC-V 生態(tài)建設(shè)

未來算能將持續(xù)攜手如意社區(qū)與生態(tài)伙伴,以 SG2044 為核心平臺載體,共同推動 RISC-V AI 編譯生態(tài)、高性能基礎(chǔ)軟件生態(tài)與服務(wù)器級智能計算生態(tài)的完善與成熟,加速 RISC-V 在 AI、科研計算與國產(chǎn)化替代等關(guān)鍵領(lǐng)域的規(guī)?;涞嘏c應(yīng)用。

Triton-RISCV 項目倉庫:

https://github.com/RuyiAI-Stack/triton-riscv

如果對 Triton-RISCV 項目、SG2044 服務(wù)器平臺、或如意 RISC-V 軟件生態(tài)感興趣,歡迎交流聯(lián)系,我們期待與您共同探討 RISC-V 在 AI 編譯、科研計算與服務(wù)器級智能計算場景的軟件適配、性能優(yōu)化與應(yīng)用解決方案。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41520

    瀏覽量

    302825
  • RVV
    RVV
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    7179
  • RISC-V
    +關(guān)注

    關(guān)注

    49

    文章

    2965

    瀏覽量

    53627
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    新思科技Synopsys.ai解決方案以AI驅(qū)動RISC-V創(chuàng)新

    RISC-V 作為開源開放的指令集架構(gòu),其具備的“開源可定制、高能效比、原生 AI 適配、模塊化擴展”四大核心特性,能快速響應(yīng) AIoT、智能汽車、高
    的頭像 發(fā)表于 04-10 14:48 ?575次閱讀

    OrangePi RV2 深度技術(shù)評測:RISC-V AI融合架構(gòu)的先行者

    3.2 開發(fā)工具與庫 編譯器 :支持GCC、LLVM(RISC-V 后端) AI 框架 :官方宣稱適配DeepSeek、TensorFlow Lite、PyTorch,但需
    發(fā)表于 03-03 20:19

    重磅合作!Quintauris 聯(lián)手 SiFive,加速 RISC-V 在嵌入式與 AI 領(lǐng)域落地

    據(jù)科技區(qū)角報道半導(dǎo)體解決方案提供商 Quintauris 最近宣布和 RISC-V 處理器 IP 領(lǐng)域的頭部廠商 SiFive 達(dá)成戰(zhàn)略合作,目標(biāo)直接瞄準(zhǔn)加速 RISC-V 在嵌入式、AI
    發(fā)表于 12-18 12:01

    探索RISC-V在機器人領(lǐng)域的潛力

    : 官方和社區(qū)對主流軟件(如Linux, ROS 2)的適配非常積極,降低了開發(fā)門檻。 3. 定位清晰: 精準(zhǔn)定位于高性能RISC-V應(yīng)用開發(fā)、AI和機器人領(lǐng)域,是學(xué)習(xí)和項目實踐的優(yōu)
    發(fā)表于 12-03 14:40

    芯華章GalaxEC HEC工具破解RISC-V驗證難題

    11月3日,由中國計算機學(xué)會主辦的年度盛會CCF DAC圓滿落幕。芯華章研發(fā)副總裁劉軍受邀致主題演講,系統(tǒng)分享了GalaxEC HEC工具從技術(shù)架構(gòu)到RISC-V算子完備驗證場景的精準(zhǔn)適配
    的頭像 發(fā)表于 11-13 11:04 ?632次閱讀
    芯華章GalaxEC HEC工具破解<b class='flag-5'>RISC-V</b><b class='flag-5'>驗證</b>難題

    【CIE全國RISC-V創(chuàng)新應(yīng)用大賽】+MUSE Pi Pro RiscV UEFI固件開發(fā)

    workspace for RISC-V project export WORKSPACE=$PWD #define RISCV project packages path export
    發(fā)表于 11-13 00:20

    RISC-V HPC新標(biāo)桿Sophon SG2044深度評估:支持RVV v1.0適配GCC 15.2,多核性能潛力巨大!

    RISC-V架構(gòu)的普及浪潮中,嵌入式領(lǐng)域的成功早已眾人皆知,但高性能計算(HPC)始終是其難以突破的“高地”。算能SOPHONSG2044的出現(xiàn)打破了僵局。國際權(quán)威技術(shù)媒體發(fā)布的深度評測《IsRISC-VreadyforHig
    的頭像 發(fā)表于 10-16 13:23 ?1931次閱讀
    <b class='flag-5'>RISC-V</b> HPC新標(biāo)桿Sophon <b class='flag-5'>SG2044</b>深度評估:支持<b class='flag-5'>RVV</b> <b class='flag-5'>v</b>1.0<b class='flag-5'>適配</b>GCC 15.2,多核<b class='flag-5'>性能</b>潛力巨大!

    十萬元獎金池!首屆全國RISC-V高水平創(chuàng)新及應(yīng)用大賽火熱進(jìn)行中

    RISC-V 應(yīng)用調(diào)試 用戶可以遠(yuǎn)程ssh、遠(yuǎn)程桌面,遠(yuǎn)程編譯,上傳文件等功能適配應(yīng)用到RISC-V平臺 遠(yuǎn)程驅(qū)動調(diào)試 用戶可以使用遠(yuǎn)程
    發(fā)表于 09-25 13:56

    強強聯(lián)手!愛丁堡大學(xué)與算能破局:RISC-V進(jìn)軍高性能計算,SG2044多核性能飆漲近5倍

    RISC-V架構(gòu)的普及浪潮中,嵌入式領(lǐng)域的成功早已眾人皆知,但高性能計算(HPC)始終是其難以突破的“高地”。算能SOPHONSG2044的出現(xiàn)打破了僵局,其64核高性能CPU不僅在
    的頭像 發(fā)表于 08-26 16:31 ?2187次閱讀
    強強聯(lián)手!愛丁堡大學(xué)與算能破局:<b class='flag-5'>RISC-V</b>進(jìn)軍高<b class='flag-5'>性能</b>計算,<b class='flag-5'>SG2044</b>多核<b class='flag-5'>性能</b>飆漲近5倍

    【Milk-V Duo S 開發(fā)板免費體驗】RISC-V核心NCNN基準(zhǔn)測試

    ncnn是騰訊優(yōu)圖實驗室推出的一個為移動端極致優(yōu)化的高性能神經(jīng)網(wǎng)絡(luò)前向計算框架,是目前同樣也比較罕見的為 RISC-V 架構(gòu)做過適配和優(yōu)化的神經(jīng)網(wǎng)絡(luò)框架。 本文是一份教程,步驟 (step
    發(fā)表于 08-24 23:46

    開芯院采用芯華章P2E硬件驗證平臺加速RISC-V驗證

    近日,系統(tǒng)級驗證 EDA 解決方案提供商芯華章科技與北京開源芯片研究院(以下簡稱 “開芯院”)宣布,雙方基于芯華章的P2E 硬件驗證系統(tǒng)雙模驗證平臺,共同探索適用于
    的頭像 發(fā)表于 07-18 10:08 ?2643次閱讀
    開芯院采用芯華章P2E硬件<b class='flag-5'>驗證</b><b class='flag-5'>平臺</b><b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b><b class='flag-5'>驗證</b>

    RISC-V平臺思維和生態(tài)思維

    RISC-V 的魅力在于以模塊化、開源、開放的指令集為底座,通過平臺化技術(shù)框架降低芯片與應(yīng)用開發(fā)門檻,并以協(xié)同共建的產(chǎn)業(yè)生態(tài)彌合碎片、加速落地。因此,高通高級副總裁 Leendert van
    發(fā)表于 07-17 14:04 ?4242次閱讀

    進(jìn)迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

    Triton是由OpenAI開發(fā)的一個開源編程語言和編譯器,旨在簡化高性能GPU內(nèi)核的編寫。它提供了類似Python的語法,并通過高級抽象降低了GPU編程的復(fù)雜性,同時保持了高性能。目
    的頭像 發(fā)表于 07-15 09:04 ?2284次閱讀
    進(jìn)迭時空同構(gòu)融合<b class='flag-5'>RISC-V</b> <b class='flag-5'>AI</b> CPU的<b class='flag-5'>Triton</b><b class='flag-5'>算子</b><b class='flag-5'>編譯</b>器實踐

    ROCm 6.2.4 成功移植至 SG2044: 大模型部署速率飆升,RISC-V + AI 新紀(jì)元!代碼已經(jīng)開源,一起來試試!

    AMDROCm6.2.4版本已成功移植到算能SG2044平臺!這一重大突破為SG2044帶來了強大的GPU計算能力,為高性能計算和人工智能應(yīng)用開啟了前所未有的新篇章
    的頭像 發(fā)表于 07-14 17:04 ?1405次閱讀
    ROCm 6.2.4 成功移植至 <b class='flag-5'>SG2044</b>: 大模型部署速率飆升,<b class='flag-5'>RISC-V</b> + <b class='flag-5'>AI</b> 新紀(jì)元!代碼已經(jīng)開源,一起來試試!

    RISC-V架構(gòu)下的編譯器自動向量化

    進(jìn)迭時空專注于研發(fā)基于RISC-V的高性能新AICPU,對于充分發(fā)揮CPU核的性能而言,編譯器是不可或缺的一環(huán),而在AI時代,毫無疑問向量算
    的頭像 發(fā)表于 06-06 16:59 ?1482次閱讀
    <b class='flag-5'>RISC-V</b>架構(gòu)下的<b class='flag-5'>編譯</b>器自動向量化
    安新县| 囊谦县| 麟游县| 繁峙县| 章丘市| 徐闻县| 深泽县| 望都县| 安宁市| 云霄县| 唐河县| 芦溪县| 元谋县| 砀山县| 北安市| 伊川县| 成安县| 富源县| 泾阳县| 泾阳县| 吐鲁番市| 乐清市| 台北县| 陆川县| 井陉县| 舞阳县| 甘谷县| 象州县| 嘉黎县| 广河县| 民丰县| 都江堰市| 镇康县| 仙游县| 青田县| 临江市| 巴青县| 祁连县| 东丰县| 洞口县| 镇安县|