日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

進(jìn)迭時(shí)空 Upstream|全球主流大模型開(kāi)源項(xiàng)目 llama.cpp

進(jìn)迭時(shí)空 ? 2026-05-18 18:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作為全球最火的本地大模型推理引擎 llama.cpp,進(jìn)迭時(shí)空(SpacemiT)基于 K3 芯片的 AI 擴(kuò)展指令集(IME2)成功合入全球主流開(kāi)源項(xiàng)目 llama.cpp 主線,為端側(cè)大模型推理提供了重要的技術(shù)支撐。這意味著進(jìn)迭時(shí)空的AI 軟件接口開(kāi)始全面對(duì)外開(kāi)放,為 RISC-V AI 生態(tài)提供了原生、可持續(xù)維護(hù)的加速基礎(chǔ)。

llama.cpp 簡(jiǎn)介

llama.cpp 是由 ggml-org 維護(hù)的開(kāi)源大模型推理項(xiàng)目,也是當(dāng)前端側(cè)和本地部署生態(tài)中最具影響力的基礎(chǔ)設(shè)施之一。它以純 C/C++ 實(shí)現(xiàn)為核心,強(qiáng)調(diào)少依賴、易部署、跨平臺(tái)和高性能,已覆蓋 CPUGPU 以及多種異構(gòu)后端,廣泛用于本地推理、邊緣設(shè)備、輕量化應(yīng)用和 GGUF 模型生態(tài)。


對(duì)開(kāi)發(fā)者而言,llama.cpp 不只是一個(gè)“跑模型的工具”,更像是端側(cè)大語(yǔ)言模型(LLM)的公共底座。大量模型適配、量化工具、上層應(yīng)用和設(shè)備方案都直接或間接建立在它之上。任何進(jìn)入 llama.cpp 主干的底層優(yōu)化,都會(huì)迅速輻射到整個(gè)產(chǎn)業(yè)鏈。進(jìn)迭時(shí)空正是瞄準(zhǔn)這一關(guān)鍵切入點(diǎn),確保 K3 的 AI 加速能力以官方主線支持的形式進(jìn)入 llama.cpp。


Upstream 內(nèi)容


ggml 是 llama.cpp 的計(jì)算后端,這次合入的主要內(nèi)容,是把基于 SpacemiT RISC-V AI 擴(kuò)展指令的一整套后端優(yōu)化能力接入到 ggml的 CPU 執(zhí)行路徑中,重點(diǎn)包括以下三個(gè)方面:


后端新增 IME2 指令支持

為 SpacemiT 后端新增 IME2 指令(針對(duì) SpacemiT K3)支持

多種量化格式原生支持

支持從 Q2_K、Q3_K、Q4_0 到 Q8_0 等多種量化格式,并通過(guò)原生 4bit 矩陣乘指令集實(shí)現(xiàn)對(duì) Q4 等量化格式的高效支持

開(kāi)放 TCM 訪問(wèn)接口及示例

首次開(kāi)放 TCM(緊耦合內(nèi)存)訪問(wèn)接口及在大模型上的應(yīng)用示例


端側(cè)推理的兩大核心瓶頸


FFN 訪存


吐字階段,F(xiàn)FN 及其 MoE 變體通常受限于訪存,因此業(yè)界普遍采用低 bit 量化來(lái)壓縮權(quán)重、降低帶寬開(kāi)銷。為兼顧壓縮率與精度,主流方案進(jìn)一步采用 block-wise 量化,即按小塊分別縮放,典型如 MXFP8、MXFP4 和 NVFP4。問(wèn)題在于,ggml 等主流 block-wise 量化格式雖然已將權(quán)重量化為 int4、int8 等低比特形式,但許多端側(cè)平臺(tái)既缺少原生 4bit 指令,也缺少直接匹配 BlockScale 格式的計(jì)算能力,導(dǎo)致低比特模型在執(zhí)行時(shí)仍常繞回通用路徑,量化收益難以充分落地。


進(jìn)迭時(shí)空 upstream 的這組 patch 基于 SpacemiT A100 支持的vmadot.i4、vmadot.hp.i4等原生4bit指令,將ggml中量化矩陣乘的關(guān)鍵路徑正式接入 SpacemiT Matrix/IME 能力范圍,解決了這一問(wèn)題。可以把 vmadot.i4 理解為承擔(dān) 4bit 點(diǎn)積計(jì)算的核心指令;而 vmadot.hp.i4 則是原生 int4 block-wise 量化指令,進(jìn)一步把點(diǎn)積結(jié)果與縮放、累加過(guò)程更緊密地銜接起來(lái),減少中間轉(zhuǎn)換和額外搬運(yùn)帶來(lái)的損耗。使得 FFN 這類推理過(guò)程中最重、最頻繁的負(fù)載,就有機(jī)會(huì)穩(wěn)定落到硬件原生低比特加速路徑上。詳細(xì)指令可參考:

https://github.com/spacemit-com/docs-ai/blob/main/zh/architecture/ime_extension.mdi


長(zhǎng)上下文下的 Attention 計(jì)算瓶頸


長(zhǎng)上下文對(duì)話中,每生成一個(gè)新 token 都要回看全部歷史 KV Cache。隨著上下文變長(zhǎng),Attention 涉及的 K/V 數(shù)據(jù)持續(xù)增長(zhǎng),而單步 FFN 規(guī)模并不會(huì)同步放大,因此在這個(gè)場(chǎng)景下,壓力會(huì)逐步集中到 KV Cache 即 Attention 計(jì)算路徑。


進(jìn)迭時(shí)空 upstream 的 patch 圍繞 1024-bit RVV 以及首次開(kāi)放的 TCM 訪問(wèn)接口,針對(duì) Attention 計(jì)算路徑進(jìn)行了專項(xiàng)優(yōu)化。在滿足對(duì)應(yīng)向量寬度條件時(shí),內(nèi)核會(huì)按照 1024 位 RVV 重新組織 Q、K、V 的分塊布局與訪存方式,使 QK 計(jì)算、softmax 后的權(quán)重累加以及 PV 更新都盡可能在寬向量路徑上完成,省去權(quán)重的重復(fù)讀入寄存器操作。同時(shí),每個(gè) A100 核獨(dú)享的 384KB TCM(類比于 GPU Shared Memory)將整個(gè) FlashAttention 計(jì)算中的高頻反復(fù)讀寫緩存區(qū)(如分塊后的 Q/K/V 數(shù)據(jù)、中間的 KQ 分?jǐn)?shù)、掩碼以及輸出累加區(qū))按固定的區(qū)塊大小存放,并逐塊進(jìn)行計(jì)算,從而降低 KV 相關(guān)計(jì)算的帶寬壓力,顯著提高長(zhǎng)上下文 token 吞吐。


為何本次 upstream 至關(guān)重要?

軟件接口全面開(kāi)放

進(jìn)迭時(shí)空面向 AI 計(jì)算的軟件接口開(kāi)始更完整地對(duì)外開(kāi)放。無(wú)論是 IME 指令能力,還是 TCM 在大模型場(chǎng)景中的使用方式,都不再只是平臺(tái)內(nèi)部能力,而是以官方代碼和優(yōu)化示例的形式進(jìn)入開(kāi)發(fā)者可直接參考、復(fù)用的范疇。

可持續(xù)維護(hù)的基礎(chǔ)

隨著本次 PR 正式進(jìn)入 llama.cpp 上游主干,平臺(tái)對(duì)各類大模型推理的支持開(kāi)始具備官方、原生、可持續(xù)維護(hù)的基礎(chǔ)。開(kāi)發(fā)者直接使用官方倉(cāng)庫(kù)和構(gòu)建流程,即可獲得對(duì)應(yīng)的平臺(tái)加速能力,不再需要長(zhǎng)期依賴廠商私有分支。

性能實(shí)測(cè)


以下模型性能均由 Upstream 版本構(gòu)建,且不在基于大模型推理調(diào)整的 Bianbu 內(nèi)核系統(tǒng)上運(yùn)行。若采用具備大頁(yè)內(nèi)存、Shared TCM 同步優(yōu)化的內(nèi)核系統(tǒng),Qwen3 - 30B - A3B 相同模型的性能可達(dá)到 14.5 token/s。


02828bb8-52a1-11f1-ab55-92fbcf53809c.png

開(kāi)源聚力前行


未來(lái),進(jìn)迭時(shí)空將持續(xù)開(kāi)放 AI 計(jì)算能力,陸續(xù)推出包括 K3 指令集詳解、A100 編程模型、Triton DSL 分享等系列文章與開(kāi)源工作,敬請(qǐng)期待。


我們堅(jiān)信,通過(guò)持續(xù)的 Upstream 深度開(kāi)源實(shí)踐,RISC - V 不僅能提供高性能的硬件算力,也能構(gòu)建一個(gè)比肩現(xiàn)有架構(gòu)的端側(cè) AI 軟件生態(tài)。進(jìn)迭時(shí)空將持續(xù)與全球開(kāi)發(fā)者同行,共同推動(dòng) AI 計(jì)算技術(shù)的創(chuàng)新與發(fā)展,也期望更多開(kāi)發(fā)者能夠一起參與到 RISC-V AI 建設(shè)中。

llama.cpp upstream 詳情及最新工作進(jìn)展見(jiàn):

https://github.com/ggml-org/llama.cpp/pull/22863


進(jìn)迭時(shí)空 Bianbu 系統(tǒng)預(yù)裝的 llama-server 工具包以 llama.cpp 上游為基礎(chǔ),增加了多模態(tài)大模型擴(kuò)展,也同步進(jìn)行了開(kāi)源,相關(guān)進(jìn)展見(jiàn):

https://github.com/spacemit-com/llama.cpp/tree/spacemit-mtmd


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    4413

    瀏覽量

    46557
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3850

    瀏覽量

    5289
  • 進(jìn)迭時(shí)空
    +關(guān)注

    關(guān)注

    0

    文章

    73

    瀏覽量

    658
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    進(jìn)時(shí)空 Upstream | K3 獲得 Linux 7.0 內(nèi)核原生支持

    2026年2月22日,隨著Linux內(nèi)核正式發(fā)布v7.0-rc1版本,全球開(kāi)源社區(qū)迎來(lái)了RISC-V生態(tài)的歷史性跨越。進(jìn)時(shí)空(Spacem
    的頭像 發(fā)表于 02-27 18:10 ?1.3w次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b> <b class='flag-5'>Upstream</b> | K3 獲得 Linux 7.0 內(nèi)核原生支持

    如何在Arm Neoverse N2平臺(tái)上提升llama.cpp擴(kuò)展性能

    跨 NUMA 內(nèi)存訪問(wèn)可能會(huì)限制 llama.cpp 在 Arm Neoverse 平臺(tái)上的擴(kuò)展能力。本文將為你詳細(xì)分析這一問(wèn)題,并通過(guò)引入原型驗(yàn)證補(bǔ)丁來(lái)加以解決。測(cè)試結(jié)果表明,在基于 Neoverse N2 平臺(tái)的系統(tǒng)上運(yùn)行 llama3_Q4_0
    的頭像 發(fā)表于 02-11 10:06 ?373次閱讀

    進(jìn)時(shí)空2025年度十大開(kāi)發(fā)者揭曉

    回顧2025,RISC-V與AI的融合持續(xù)深化,推動(dòng)智能計(jì)算進(jìn)入更開(kāi)放、更高效的新階段。在人工智能發(fā)展的浪潮中,廣大開(kāi)發(fā)者始終與進(jìn)時(shí)空并肩前行,共同探索技術(shù)前沿與實(shí)踐落地。進(jìn)
    的頭像 發(fā)表于 01-12 20:07 ?939次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>2025年度十大開(kāi)發(fā)者揭曉

    【CIE全國(guó)RISC-V創(chuàng)新應(yīng)用大賽】基于 K1 AI CPU 的大模型部署落地

    的 落地方案 : 1. 系統(tǒng)部署方案書 (System Proposal) 方案要點(diǎn) 部署工具 :使用官方提供的 spacemit-llama.cpp (v0.0.4) 二進(jìn)制包。 模型策略 :采用
    發(fā)表于 11-27 14:43

    進(jìn)時(shí)空 debug upstream | 取之于開(kāi)源,貢獻(xiàn)于開(kāi)源

    秉承“取之于開(kāi)源,貢獻(xiàn)于開(kāi)源”的理念,進(jìn)時(shí)空在Debug軟件的開(kāi)發(fā)與維護(hù)中,始終堅(jiān)持UpstreamFirst原則,積極將優(yōu)化與修復(fù)反饋至
    的頭像 發(fā)表于 11-17 09:33 ?5824次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b> debug <b class='flag-5'>upstream</b> | 取之于<b class='flag-5'>開(kāi)源</b>,貢獻(xiàn)于<b class='flag-5'>開(kāi)源</b>

    芯聚成都 | 進(jìn)時(shí)空邀您共赴 ICCAD-Expo 2025

    芯聚成都 | 進(jìn)時(shí)空邀您共赴 ICCAD-Expo 2025
    的頭像 發(fā)表于 11-14 18:02 ?3875次閱讀
    芯聚成都 | <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>邀您共赴 ICCAD-Expo 2025

    進(jìn)時(shí)空K1 Linux kernel upstream進(jìn)展 | 取之于開(kāi)源,貢獻(xiàn)于開(kāi)源

    秉承“取之于開(kāi)源,貢獻(xiàn)于開(kāi)源”的理念,進(jìn)時(shí)空堅(jiān)持在開(kāi)源協(xié)作的模式中創(chuàng)新,將自研RISC-VK1
    的頭像 發(fā)表于 10-30 18:06 ?9063次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>K1 Linux kernel <b class='flag-5'>upstream</b>進(jìn)展 | 取之于<b class='flag-5'>開(kāi)源</b>,貢獻(xiàn)于<b class='flag-5'>開(kāi)源</b>

    取之于開(kāi)源,貢獻(xiàn)于開(kāi)源進(jìn)時(shí)空AI計(jì)算生態(tài)開(kāi)源貢獻(xiàn)

    開(kāi)放創(chuàng)新是進(jìn)時(shí)空的企業(yè)價(jià)值觀之一,公司的軟硬件技術(shù)棧構(gòu)建在開(kāi)源之上,同時(shí)也積極在操作系統(tǒng)、編譯器、AI計(jì)算生態(tài)等領(lǐng)域?yàn)?b class='flag-5'>開(kāi)源做貢獻(xiàn)。open
    的頭像 發(fā)表于 10-21 09:03 ?6126次閱讀
    取之于<b class='flag-5'>開(kāi)源</b>,貢獻(xiàn)于<b class='flag-5'>開(kāi)源</b>:<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>AI計(jì)算生態(tài)<b class='flag-5'>開(kāi)源</b>貢獻(xiàn)

    校園招聘 | 進(jìn)時(shí)空2026校園招募令

    校園招聘 | 進(jìn)時(shí)空2026校園招募令
    的頭像 發(fā)表于 09-11 09:05 ?1079次閱讀
    校園招聘 | <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>2026校園招募令

    進(jìn)時(shí)空與青少年共赴RISC-V AI科技未來(lái)!

    科技體驗(yàn)。展區(qū)現(xiàn)場(chǎng),搭載進(jìn)時(shí)空K1芯片的AI機(jī)器人、RISC-V寫字機(jī)器人、AI視覺(jué)小車、全棧開(kāi)源六軸機(jī)械臂以及MuseBook筆記本電腦流暢執(zhí)行各項(xiàng)指令,讓青少年沉浸式體驗(yàn)AI科
    的頭像 發(fā)表于 08-28 17:53 ?1667次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>與青少年共赴RISC-V AI科技未來(lái)!

    芯活力,搏未來(lái)——2025進(jìn)時(shí)空應(yīng)屆生入職培訓(xùn)

    為助力應(yīng)屆新員工快速融入公司文化、提升團(tuán)隊(duì)協(xié)作能力,進(jìn)時(shí)空精心策劃了“芯活力,搏未來(lái)”2025應(yīng)屆生入職培訓(xùn)。本次培訓(xùn)以“學(xué)習(xí)+體驗(yàn)+成長(zhǎng)”為核心,采用“室內(nèi)課程+戶外拓展”的形式,讓新芯們?cè)诨?dòng)
    的頭像 發(fā)表于 08-06 16:42 ?2250次閱讀
    芯活力,搏未來(lái)——2025<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>應(yīng)屆生入職培訓(xùn)

    利用Arm i8mm指令優(yōu)化llama.cpp

    本文將為你介紹如何利用 Arm i8mm 指令,具體來(lái)說(shuō),是通過(guò)帶符號(hào) 8 位整數(shù)矩陣乘加指令 smmla,來(lái)優(yōu)化 llama.cpp 中 Q6_K 和 Q4_K 量化模型推理。
    的頭像 發(fā)表于 07-24 09:51 ?2264次閱讀
    利用Arm i8mm指令優(yōu)化<b class='flag-5'>llama.cpp</b>

    迎接泛機(jī)器人時(shí)代:進(jìn)時(shí)空如何以RISC-V架構(gòu)數(shù)智未來(lái)

    21世紀(jì)經(jīng)濟(jì)報(bào)道記者趙娜杭州報(bào)道“這是我們的時(shí)代。”今年8月的一天,21世紀(jì)經(jīng)濟(jì)報(bào)道記者來(lái)到進(jìn)時(shí)空杭州總部。進(jìn)
    的頭像 發(fā)表于 06-06 17:00 ?1435次閱讀
    迎接泛機(jī)器人時(shí)代:<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>如何以RISC-V架構(gòu)數(shù)智未來(lái)

    大象機(jī)器人攜手進(jìn)時(shí)空推出 RISC-V 全棧開(kāi)源六軸機(jī)械臂產(chǎn)品

    全球80多個(gè)國(guó)家和地區(qū)。近日,大象機(jī)器人聯(lián)合進(jìn)時(shí)空推出全球首款RISC-V全棧開(kāi)源六軸機(jī)器臂“
    的頭像 發(fā)表于 06-06 16:55 ?1863次閱讀
    大象機(jī)器人攜手<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>推出 RISC-V 全棧<b class='flag-5'>開(kāi)源</b>六軸機(jī)械臂產(chǎn)品

    進(jìn)時(shí)空同構(gòu)融合技術(shù)加速大模型AI應(yīng)用創(chuàng)新

    復(fù)雜的異構(gòu)調(diào)度系統(tǒng)來(lái)協(xié)調(diào)CPU和XPU的額外數(shù)據(jù)交互和同步。進(jìn)時(shí)空踐行的同構(gòu)融合技術(shù),創(chuàng)新性地在CPU內(nèi)集成TensorCore,以RISC-V指令集為統(tǒng)一的軟硬
    的頭像 發(fā)表于 06-06 16:55 ?1330次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時(shí)空</b>同構(gòu)融合技術(shù)加速大<b class='flag-5'>模型</b>AI應(yīng)用創(chuàng)新
    宜兴市| 定陶县| 高安市| 日土县| 库尔勒市| 修水县| 沅江市| 资溪县| 临汾市| 牟定县| 元谋县| 宁陵县| 九龙城区| 伽师县| 泰兴市| 咸阳市| 冀州市| 赤水市| 朝阳市| 康定县| 囊谦县| 商都县| 郎溪县| 卫辉市| 房产| 罗定市| 专栏| 乌什县| 大关县| 大理市| 洪江市| 资阳市| 通江县| 邵武市| 宜兰市| 宁陵县| 清涧县| 泰来县| 宾川县| 运城市| 揭东县|