日韩一级aaaaa,国产快猫成人,69pao高清

近日，上海人工智能實(shí)驗(yàn)室和沐曦股份聯(lián)合發(fā)布了高性能GPU算子生成系統(tǒng)—— Kernel-Smith。

Kernel-Smith創(chuàng)新性地將“穩(wěn)定評估驅(qū)動的進(jìn)化智能體”與“面向進(jìn)化的后訓(xùn)練范式”深度融合，依托上海人工智能實(shí)驗(yàn)室書生大模型Intern-S1-Pro的基座能力進(jìn)行深度定制化訓(xùn)練，讓大模型真正化身為“算子優(yōu)化大師”。

在雙方的合作中，沐曦團(tuán)隊(duì)全程深度參與。聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建、研發(fā)副總裁黃向軍、AI部門的武亞光、董華楠、謝佳形均參與了該項(xiàng)目并做出貢獻(xiàn)。

沐曦自研軟件棧MXMACA展現(xiàn)出了深度兼容能力。在MXMACA后端測試中，Kernel-Smith 表現(xiàn)出色。研究團(tuán)隊(duì)在四類常用算子上對比了不同模型生成高性能 MXMACA 算子的能力，結(jié)果顯示，Kernel-Smith-MACA-30B 的平均加速比超過了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大參數(shù)量的開源模型，而 Kernel-Smith-MACA-235B 取得了進(jìn)一步性能提升，驗(yàn)證了 Kernel-Smith 框架支持異構(gòu)平臺的能力。

沐曦MXMACA 平臺算子性能優(yōu)化任務(wù)評測結(jié)果

目前，Kernel-Smith 自動生成的高性能算子已在實(shí)際場景中得到應(yīng)用：不僅加速了 DeepSeek 新架構(gòu) Engram，并合入 DLBlas；還落地主流生產(chǎn)級推理引擎 SGLang 和 LMDeploy，實(shí)現(xiàn)了大模型自動生成算子從實(shí)驗(yàn)室受控評估，到前沿模型研發(fā)與生產(chǎn)級部署的雙重跨越。

技術(shù)報(bào)告鏈接：

https://arxiv.org/pdf/2603.28342

在線體驗(yàn)鏈接：

https://chat.intern-ai.org.cn/kernel-smith

算子開發(fā)的兩大挑戰(zhàn)

在當(dāng)今的大模型時(shí)代，高性能 GPU 算子（Kernel）是將硬件算力轉(zhuǎn)化為實(shí)際吞吐量的核心引擎。無論是支撐 Megatron、vLLM、LMDeploy 等底層系統(tǒng)，還是驅(qū)動 AI for Science (AI4S) 的復(fù)雜科學(xué)計(jì)算，高效的算子實(shí)現(xiàn)都是釋放硬件潛能的重中之重。

然而，盡管大模型的編程能力日益強(qiáng)大，但讓其自主生成高性能算子并穩(wěn)定應(yīng)用于真實(shí)生產(chǎn)環(huán)境，仍是一個(gè)未被全面攻克的行業(yè)難題。

當(dāng)前的算子開發(fā)高度依賴工程師的經(jīng)驗(yàn)。一個(gè)高效的算子往往需要在眾多融合模式、Tiling 策略等實(shí)現(xiàn)方案中反復(fù)搜索與調(diào)試，而現(xiàn)有基于 LLM 的算子生成系統(tǒng)，多依賴多輪對話或基于歷史的 Agent 循環(huán)，這帶來了兩大挑戰(zhàn)：

路徑依賴與試錯(cuò)成本高：傳統(tǒng)的 Debug 過程容易讓模型“錨定”在早期的錯(cuò)誤決策上，限制了探索的多樣性。

“寫對”不等于“跑得快”：功能上的正確性與極致的性能是兩種完全不同的能力。模型不僅需要一次性生成正確的代碼，更需要具備在測試階段通過持續(xù)迭代，不斷提升算子性能的能力。

兩大創(chuàng)新設(shè)計(jì)

為了解決這些問題，研究團(tuán)隊(duì)創(chuàng)新地提出一個(gè)統(tǒng)一的進(jìn)化智能體與強(qiáng)化訓(xùn)練框架。

核心設(shè)計(jì)一：構(gòu)建穩(wěn)定評估驅(qū)動的進(jìn)化智能體。

進(jìn)化搜索天然適合算子優(yōu)化，因?yàn)樗梢酝ㄟ^維護(hù)一個(gè)候選程序池，在多輪迭代中不斷累積性能增益。然而，這一過程對“評測方差”極其敏感：如果 GPU 運(yùn)行時(shí)間測量存在噪聲，智能體可能會誤刪極具潛力的算子，或者保留次優(yōu)解，這種錯(cuò)誤會在代際之間不斷放大。

為此，Kernel-Smith 在智能體設(shè)計(jì)上將“評測穩(wěn)定性”放在首位。通過固定計(jì)算圖、重復(fù)測量以及異常值剔除等機(jī)制，大幅抑制了計(jì)時(shí)噪聲，確保了進(jìn)化搜索動態(tài)的可靠性。同時(shí)，研究團(tuán)隊(duì)還為 NVIDIA Triton 和 MetaX Maca GPU 構(gòu)建了專屬的后端評估服務(wù)，提供編譯、正確性和加速比的結(jié)構(gòu)化執(zhí)行反饋。

核心設(shè)計(jì)二：化長為短，面向進(jìn)化的后訓(xùn)練策略。在模型訓(xùn)練層面，Kernel-Smith 將訓(xùn)練定義為進(jìn)化循環(huán)中的“局部優(yōu)化器（Local Improver）”。

具體而言，研究團(tuán)隊(duì)將長周期的進(jìn)化軌跡轉(zhuǎn)化為以“步驟”為中心的監(jiān)督與強(qiáng)化學(xué)習(xí)信號。算法只保留那些“在保證正確性的前提下，帶來了高收益性能提升”的修改步驟。通過這一設(shè)計(jì)，Kernel-Smith 不僅提升了單步修改的代碼質(zhì)量，更大幅提高了進(jìn)化搜索中性能增益的復(fù)合增長率。

顯著性能優(yōu)勢，超越頂尖閉源模型

得益于上述兩大核心設(shè)計(jì)，Kernel-Smith 在實(shí)戰(zhàn)中展現(xiàn)出了顯著的性能優(yōu)勢。在統(tǒng)一的進(jìn)化智能體協(xié)議下，Kernel-Smith-235B-RL 在 KernelBench（Nvidia Triton 后端）上實(shí)現(xiàn)了整體性能的 SOTA。在嚴(yán)格保證功能正確性的前提下，其平均加速比不僅優(yōu)于所有開源基線模型，還超越了 Gemini-3.0-pro 和 Claude-4.6-opus 等頂尖閉源大模型。

KernelBench-Triton 評測結(jié)果

更重要的是，評測曲線顯示，Kernel-Smith-235B-RL 的平均得分增長曲線在整個(gè)搜索過程中始終處于領(lǐng)先地位（如下圖所示），這充分證明了該模型能夠最有效地利用測試時(shí)算力（Test-time Compute）實(shí)現(xiàn)性能躍升。

不同模型使用同樣的 KernelSmith Agent Framework，在 KernelBench-Triton 上的迭代增長曲線圖

走出實(shí)驗(yàn)室，賦能前沿創(chuàng)新與生產(chǎn)級應(yīng)用

Kernel-Smith 生成的高性能優(yōu)化算子不僅成功賦能前沿架構(gòu)創(chuàng)新，加速了 DeepSeek 新架構(gòu) Engram 并合入 DLBlas 開源算子庫；更重要的是，它已順利落地主流生產(chǎn)級推理引擎，分別為 SGLang 優(yōu)化了 FlashAttention 后端的 normal_decode_set_metadata 算子，并為 LMDeploy 優(yōu)化了 DeepSeek MoE Routing 算子，真正實(shí)現(xiàn)了大模型自動生成算子從實(shí)驗(yàn)室受控評估，到前沿模型研發(fā)與生產(chǎn)級部署的雙重跨越。

相關(guān) Pull Request 鏈接：

https://github.com/DeepLink-org/DLBlas/pull/102

https://github.com/sgl-project/sglang/pull/20778

https://github.com/InternLM/lmdeploy/pull/4345

在 NV-H200 硬件環(huán)境下的算子隔離評測中，Kernel-Smith 展現(xiàn)出顯著的 Test-Time Scaling 效應(yīng)：隨著演化迭代的深入，算子性能實(shí)現(xiàn)持續(xù)增長。

算子進(jìn)化迭代曲線圖

在主流推理引擎的實(shí)際落地中，Kernel-Smith 自動生成的算子為 SGLang 和 LMDeploy 分別帶來了 4.78x 和 1.36x 的真實(shí)加速收益。在 DeepSeek Engram 復(fù)雜場景的深度探索中，模型成功跨越局部最優(yōu)解，觸發(fā)了從 5 倍到 12 倍以上的突破性性能躍升，最終達(dá)到 14.59x 加速。

算子隔離評測結(jié)果

同時(shí)，研究團(tuán)隊(duì)在社區(qū)率先將自動化算子評測擴(kuò)展至端到端模型吞吐。Kernel-Smith 生成的算子不僅穩(wěn)定提升了 LMDeploy 的端到端吞吐（最高約3%），還可靠地降低了 SGLang 的真實(shí)服務(wù)延遲。這驗(yàn)證了生成代碼在復(fù)雜系統(tǒng)中的魯棒性，也為自動化算子在生產(chǎn)級引擎中的端到端集成提供了可行的實(shí)踐參考。

LMDeploy 端到端模型吞吐評測

結(jié)語

沐曦股份堅(jiān)持“自主創(chuàng)新+開放兼容”的雙軌并行路線，在底層硬件完成突破的同時(shí)，致力于圍繞MXMACA軟件棧，打造一個(gè)開放、自主、全棧兼容的智能計(jì)算生態(tài)，公司的目標(biāo)是將建成人工智能時(shí)代的“Android”。

目前，MXMACA軟件棧不僅深度兼容主流GPU生態(tài)，還支持40多種AI框架，覆蓋訓(xùn)練、推理、科學(xué)計(jì)算全場景，可大福降低開發(fā)者的生態(tài)遷移成本。同時(shí)可支持500多款A(yù)I模型、4500多個(gè)開源項(xiàng)目軟件兼容測試，覆蓋95%的主流AI場景。此前已支持國內(nèi)多款A(yù)I模型的“Day0適配”、實(shí)現(xiàn)即插即用。MXMACA開源社區(qū)也于去年開放，截至2026年3月13日，軟件棧注冊用戶已超過30萬人。

此次合作，既是MXMACA軟件棧生態(tài)的價(jià)值體現(xiàn)，也為公司持續(xù)深耕AI算力基礎(chǔ)設(shè)施、推動高性能計(jì)算技術(shù)產(chǎn)業(yè)化升級奠定了堅(jiān)實(shí)基礎(chǔ)，未來雙方將繼續(xù)深化協(xié)同，依托Kernel-Smith與MXMACA的技術(shù)合力，為AI大模型、科學(xué)計(jì)算等領(lǐng)域提供更高效、更可靠的算力解決方案。

關(guān)于沐曦股份

沐曦股份致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺，為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐，助力數(shù)字經(jīng)濟(jì)發(fā)展。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
5283

瀏覽量
136096
人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50366

瀏覽量
267047
沐曦

沐曦

+關(guān)注

關(guān)注
1

文章
103

瀏覽量
1883

原文標(biāo)題：沐曦股份聯(lián)合上海人工智能實(shí)驗(yàn)室發(fā)布高性能GPU算子生成系統(tǒng)Kernel-Smith

文章出處：【微信號：沐曦MetaX，微信公眾號：沐曦MetaX】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

沐曦股份聯(lián)合上海人工智能實(shí)驗(yàn)室發(fā)布高性能GPU算子生成系統(tǒng)Kernel-Smith

評論