日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦加速DeepSeek滿血版單卡C500異構(gòu)推理

沐曦MetaX ? 來源:沐曦MetaX ? 2025-03-20 15:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,基于開源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力,沐曦在曦云C500單卡GPU上成功實(shí)現(xiàn)DeepSeek-R1-671B滿血版單并發(fā)解碼吞吐16.5 tokens/s的優(yōu)異成績,相比社區(qū)官方數(shù)據(jù)提升20%以上。

相比國際高端GPU八卡滿血版部署方案,本項(xiàng)目在單并發(fā)性能上具有極高的性價(jià)比。

KTransformers項(xiàng)目介紹

KTransformers (https://github.com/kvcache-ai/ktransformers)是由清華大學(xué) KVCache.AI 團(tuán)隊(duì)聯(lián)合趨境科技開源的一套輕量化高性能模型推理框架,能夠在計(jì)算資源受限的場景下,通過 CPU/GPU 異構(gòu)推理的方式更快速、更高效地實(shí)現(xiàn)大模型的本地推理。KTransformers旨在作為一個(gè)開放的平臺,用于試驗(yàn)創(chuàng)新的大型語言模型(LLM)推理優(yōu)化方案。同時(shí),KTransformers也計(jì)劃演進(jìn)成本地化中小并發(fā)場景下針對稀疏MoE模型最具性價(jià)比的開源推理引擎,以及成為一個(gè)算子級優(yōu)化的集成實(shí)驗(yàn)平臺。沐曦正在做的工作非常符合開源社區(qū)和KTransformers開源項(xiàng)目的發(fā)展。

開源合作內(nèi)容介紹

沐曦和KVCache.AI團(tuán)隊(duì)合作,通過對KTransformers模型框架進(jìn)行細(xì)致的分析和調(diào)整,團(tuán)隊(duì)成功達(dá)成了曦云C500與KTransformers的無縫對接,為進(jìn)一步性能優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。

完成基本功能適配后,沐曦研發(fā)團(tuán)隊(duì)繼續(xù)對整個(gè)框架進(jìn)行了優(yōu)化。在深入研究了DeepSeek R1滿血版模型的計(jì)算特點(diǎn)和性能瓶頸,結(jié)合曦云C500的優(yōu)勢,采用了一系列先進(jìn)的技術(shù)和算法,詳細(xì)如下:

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能;

2加入了GPU fused MoE功能,該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運(yùn)算能力,提升推理性能;

3配合自動/手工算子融合技術(shù),高效的FP16/BF16精度Marlin算子(W4A16),以及經(jīng)過深度優(yōu)化的mcBLAS、PyTorch庫、FlashInfer庫。

此次合作不僅為KTransformers帶來了性能上的提升,更體現(xiàn)了開源共創(chuàng)的價(jià)值:不同的團(tuán)隊(duì)和開發(fā)者通過資源共享、經(jīng)驗(yàn)交流,共同推動技術(shù)的進(jìn)步。沐曦和清華大學(xué)KVCache.AI團(tuán)隊(duì)的合作就是很好的例子,通過開源倉庫匯聚了各自的優(yōu)勢,實(shí)現(xiàn)了技術(shù)上的突破,也為后續(xù)持續(xù)在開源社區(qū)推理優(yōu)化提供了合作基礎(chǔ)。

通過開源社區(qū)的共同努力,KTransformers將不斷提升其性能和功能,為更多的用戶提供優(yōu)質(zhì)的服務(wù)。同時(shí),這也將促進(jìn)整個(gè)人工智能行業(yè)的發(fā)展,推動技術(shù)的不斷創(chuàng)新。單卡打開DeepSeek R1滿血版并不斷地提升性能只是一個(gè)開始,在開源共創(chuàng)的道路上,我們將迎來更多的驚喜和突破,共同開創(chuàng)國產(chǎn)算力生態(tài)和人工智能的無限未來。

關(guān)于沐曦

沐曦致力于為異構(gòu)計(jì)算提供安全可靠的GPU芯片及解決方案,打造全棧GPU芯片產(chǎn)品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用計(jì)算,以及曦彩G系列GPU用于圖形渲染,滿足“高能效”及“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP,擁有完全自主的指令集和架構(gòu),配以兼容主流GPU生態(tài)的完整軟件棧(MXMACA),具備高能效和高通用性的天然優(yōu)勢,能夠?yàn)榭蛻魳?gòu)建軟硬件一體的全面生態(tài)解決方案,是“雙碳”背景下推動數(shù)字經(jīng)濟(jì)建設(shè)和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型升級的算力基石。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5289

    瀏覽量

    136110
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4375

    瀏覽量

    46478
  • 沐曦
    +關(guān)注

    關(guān)注

    1

    文章

    103

    瀏覽量

    1886
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    857

    瀏覽量

    3418

原文標(biāo)題:開源賦能:沐曦聯(lián)合清華大學(xué)KVCache.AI團(tuán)隊(duì)加速DeepSeek滿血版單卡C500異構(gòu)推理

文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    股份Day 0適配DeepSeek-V4-Flash模型

    4月24日,股份攜手FlagOS,已完對DeepSeek最新開源的DeepSeek-V4-Flash模型的Day 0適配。同日,
    的頭像 發(fā)表于 04-28 15:53 ?525次閱讀

    股份C系列GPU產(chǎn)品Day 0適配百度文心ERNIE-Image文生圖模型

    4月15日,百度文心大模型團(tuán)隊(duì)重磅推出ERNIE?Image文生圖模型,股份C 系列 GPU 已完成對 ERNIE?Image 的Day 0 深度適配,同步支持 ERNIE?
    的頭像 發(fā)表于 04-15 17:39 ?516次閱讀

    C500/C550 GPU產(chǎn)品深度適配MiniMax M2.5模型

    2月13日晚間,MiniMax正式開源MiniMax M2.5模型。技術(shù)團(tuán)隊(duì)依托MXMACA軟件棧,在24小時(shí)內(nèi)完成C500/C55
    的頭像 發(fā)表于 02-26 14:19 ?1189次閱讀

    C系列GPU Day 0 適配智譜全新一代大模型GLM-5

    智譜AI正式上線并開源全新一代大模型 GLM-5,股份實(shí)現(xiàn)?Day 0 深度適配。 GLM-5目前可于C 系列(C500/
    的頭像 發(fā)表于 02-12 10:53 ?1136次閱讀
    <b class='flag-5'>曦</b>云<b class='flag-5'>C</b>系列GPU Day 0 適配智譜全新一代大模型GLM-5

    C500/C550 GPU產(chǎn)品適配智譜GLM-OCR模型

    今天,智譜AI正式發(fā)布并開源GLM-OCR,以 “小尺寸、高精度” 實(shí)現(xiàn)文檔解析能力新標(biāo)桿。股份C500/C550 GPU充分發(fā)揮高
    的頭像 發(fā)表于 02-03 11:36 ?966次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C500</b>/<b class='flag-5'>C</b>550 GPU產(chǎn)品適配智譜GLM-OCR模型

    C500/C550 GPU產(chǎn)品適配騰訊混元圖像3.0圖生圖模型

    近日,騰訊混元團(tuán)隊(duì)宣布開源混元圖像3.0圖生圖版本(HunyuanImage 3.0-Instruct),股份C500/C550 2
    的頭像 發(fā)表于 02-02 14:43 ?584次閱讀

    C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上線,C500/C550 Day 0 適配Pad
    的頭像 發(fā)表于 01-30 10:19 ?1435次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C500</b>/<b class='flag-5'>C</b>550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型

    C500/C550 GPU產(chǎn)品適配騰訊混元開源翻譯模型1.5版本

    種民漢/方言,除了中文、英語、日語等常見語種,也包含捷克語、馬拉地語、愛沙尼亞語、冰島語等小語種。目前兩個(gè)模型均在騰訊混元官網(wǎng)上線,通過開源社區(qū)也可以直接下載使用。 C500/
    的頭像 發(fā)表于 01-06 14:13 ?616次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C500</b>/<b class='flag-5'>C</b>550 GPU產(chǎn)品適配騰訊混元開源翻譯模型1.5版本

    股份MXMACA軟件棧3.3.0.X版本技術(shù)解析

    近期,股份發(fā)布了MXMACA軟件棧(以下簡稱“MACA”)的3.3.0.X版本,MACA套件是面向
    的頭像 發(fā)表于 12-24 09:08 ?1215次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份MXMACA軟件棧3.3.0.X版本技術(shù)解析

    股份C系列GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型

    12月8日智譜AI發(fā)布并開源 GLM-4.6V 系列多模態(tài)大模型,股份C系列GPU完成Day 0適配。
    的頭像 發(fā)表于 12-17 14:28 ?868次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b>云<b class='flag-5'>C</b>系列GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型

    DLInfer聯(lián)手股份實(shí)現(xiàn)數(shù)據(jù)生成場景的實(shí)際落地

    近期,上海 AI 實(shí)驗(yàn)室 DeepLink 團(tuán)隊(duì)推出的 DLInfer 通過支持 LMDeploy 主流模型推理,助力股份C500
    的頭像 發(fā)表于 12-09 14:55 ?895次閱讀
    DLInfer聯(lián)手<b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份實(shí)現(xiàn)數(shù)據(jù)生成場景的實(shí)際落地

    首款全國產(chǎn)通用GPU芯片發(fā)布 集成推出C600

    集成電路(南京)有限公司近日正式發(fā)布了首款全國產(chǎn)通用GPU——C600,這標(biāo)志著國產(chǎn)高性能GPU實(shí)現(xiàn)歷史性突破。 據(jù)新華日報(bào)報(bào)道顯示,
    的頭像 發(fā)表于 10-19 20:04 ?4.7w次閱讀

    C系列產(chǎn)品已支持TileLang

    近日,DeepSeek宣布在其新版本中擁抱國產(chǎn)GPU語言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國產(chǎn)高性能GPU的代表,C系列產(chǎn)品已
    的頭像 發(fā)表于 10-14 09:25 ?1369次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C</b>系列產(chǎn)品已支持TileLang

    硅基流動攜手首發(fā)基于云的Kimi K2推理服務(wù)

    今天,硅基流動聯(lián)合集成電路(上海)股份有限公司(簡稱“”),全球首發(fā)基于
    的頭像 發(fā)表于 07-23 17:33 ?2192次閱讀

    潤和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例

    江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)自主研發(fā)的StackRUNS異構(gòu)分布式推理框架已在實(shí)際場景中取得顯著成效,成功應(yīng)用于大型園區(qū)多模態(tài)模型演練及高校滿血DeepSeek-
    的頭像 發(fā)表于 06-13 09:11 ?1472次閱讀
    潤和軟件StackRUNS<b class='flag-5'>異構(gòu)</b>分布式<b class='flag-5'>推理</b>框架的應(yīng)用案例
    东丽区| 芦溪县| 区。| 林甸县| 石河子市| 铅山县| 大竹县| 临邑县| 平邑县| 玉山县| 通化县| 贵溪市| 古交市| 扎兰屯市| 八宿县| 卫辉市| 达日县| 临泉县| 清新县| 中宁县| 西昌市| 绥滨县| 宽城| 桐庐县| 嘉禾县| 米脂县| 健康| 玉龙| 河东区| 西青区| 阿巴嘎旗| 大石桥市| 舞阳县| 凌海市| 宿州市| 突泉县| 鄯善县| 玛曲县| 威信县| 清流县| 玉树县|