日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ALINX VD100低功耗端側(cè)大模型部署方案,運(yùn)行3B模型功耗僅5W?!

FPGA技術(shù)專欄 ? 來(lái)源:FPGA技術(shù)專欄 ? 作者:FPGA技術(shù)專欄 ? 2025-09-03 14:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型能運(yùn)行≠用戶體驗(yàn)好。

IDC 預(yù)測(cè),到 2026 年,全球超過(guò) 50% 的企業(yè) AI 工作負(fù)載將部署在邊緣設(shè)備上。在 AI 部署逐漸從云端轉(zhuǎn)向邊緣端的趨勢(shì)下,越來(lái)越多智能終端開(kāi)始嘗試在本地運(yùn)行完整模型,以降低延遲、保護(hù)隱私并節(jié)省通信成本。但真正落地時(shí)卻發(fā)現(xiàn):功耗吃緊、模型裁剪嚴(yán)重、開(kāi)發(fā)流程繁瑣,使得“能運(yùn)行”遠(yuǎn)遠(yuǎn)達(dá)不到“用得好”。

基于 ALINX VD100 開(kāi)發(fā)平臺(tái),客戶打造出一套面向 AI 終端的大模型部署方案,實(shí)測(cè)可支持 8B 模型運(yùn)行、運(yùn)行 3B 模型功耗僅 5W,推理速度達(dá) 12 tokens/s,遠(yuǎn)優(yōu)于市面同類產(chǎn)品。

wKgZPGi35y6AFNCwAAISKZ4vJ7s581.jpg

本方案基于 AMD Versal ACAP 架構(gòu),通過(guò)硬件架構(gòu)、推理框架、模型壓縮等多個(gè)層級(jí)的全棧優(yōu)化,顯著提升大模型端側(cè)部署的能耗比。

可重構(gòu)數(shù)據(jù)流硬件架構(gòu)

可重構(gòu)數(shù)據(jù)流+VLIW處理器陣列+可編程邏輯,提升并行度與靈活性

無(wú)緩存設(shè)計(jì)+分布式片上存儲(chǔ),實(shí)現(xiàn)低延遲、確定性響應(yīng)

NoC 優(yōu)化與指令調(diào)度提升計(jì)算利用率與帶寬利用率至96%

原生支持矩陣-向量乘、注意力融合、激活函數(shù)融合等AI 關(guān)鍵算子,支持混合數(shù)據(jù)模型和嵌套量化

端口高性能訪存模塊,優(yōu)化BRAM 和 DSP資源使用效率

→在同等功耗下,平臺(tái)可以支持更多模型層級(jí)與更大參數(shù)規(guī)模。

自研開(kāi)發(fā)工具鏈

自研高層次離散事件仿真器,較 RTL 級(jí)仿真器仿真速度優(yōu)化300 倍,支持全部功能模擬與自動(dòng)設(shè)計(jì)空間搜索

自研Kernel 和 Buffer 布局優(yōu)化工具,減少 50% 訪存沖突,大幅縮短部署時(shí)間

→ 快速搭建模型、開(kāi)發(fā)體驗(yàn)友好。

優(yōu)化推理運(yùn)行

優(yōu)化硬件調(diào)用開(kāi)銷,管理異步算子調(diào)用。

設(shè)計(jì)連續(xù)地址內(nèi)存池,規(guī)避伙伴系統(tǒng)分配物理內(nèi)存頁(yè)碎片問(wèn)題,減少 50% 內(nèi)存占用。

→讓模型跑得穩(wěn),持續(xù)運(yùn)行不掉鏈子。

敏捷開(kāi)發(fā)推理框架

融合采樣計(jì)算,推理速度提升 100 倍

融合 MLP、MoE 等算子,通過(guò)流水線優(yōu)化重疊不同算子計(jì)算時(shí)間

軟件層兼容Huggingface 生態(tài),僅需 Transformers 模型代碼+safetensors 權(quán)重文件,即可一鍵運(yùn)行主流 Transformer 模型

→優(yōu)化大模型推理流程,實(shí)現(xiàn)敏捷開(kāi)發(fā),遷移更快,體驗(yàn)更流暢。

模型壓縮

端側(cè)推理對(duì)存儲(chǔ)與計(jì)算資源要求極高,方案采用精細(xì)化壓縮策略:

支持 BF16、NF4 混合精度壓縮,在保持精度基礎(chǔ)上顯著降低計(jì)算壓力

PCA 聚類壓縮 LM-Head,減少 90% 的訪存與計(jì)算負(fù)擔(dān),同時(shí)保持推理準(zhǔn)確性

→模型輕巧運(yùn)行穩(wěn),真正適配邊緣與終端AI場(chǎng)景。

實(shí)測(cè)效果

5W 功耗實(shí)現(xiàn)行業(yè)領(lǐng)先推理性能

基于 ALINX VD100 平臺(tái)實(shí)測(cè),模型運(yùn)行結(jié)果如下:

wKgZO2i35y-AMz6VAABH0qzm3xQ463.png

完整實(shí)測(cè)報(bào)告和對(duì)比報(bào)告,聯(lián)系 ALINX 獲取。

應(yīng)用場(chǎng)景

AI 終端的可能性不止于你想象

這套端側(cè)大模型部署方案已在多種高要求場(chǎng)景中落地:

新型移動(dòng)智能終端:包括 AI 可穿戴設(shè)備、AI 玩具、人形機(jī)器人等,離線運(yùn)行大模型,保護(hù)用戶隱私

工業(yè)機(jī)器人/無(wú)人系統(tǒng):保障實(shí)時(shí)安全

太空/油田等極端場(chǎng)景:低功耗運(yùn)行,降低散熱負(fù)擔(dān),保障系統(tǒng)穩(wěn)定性

如果你也在評(píng)估“端側(cè)+大模型”,

歡迎和我們聊聊

如果您正在:

尋找低功耗、高效能的大模型端側(cè)運(yùn)行平臺(tái)

希望快速驗(yàn)證模型部署可行性

評(píng)估 FPGA 在 AI 產(chǎn)品中的可落地性

歡迎訪問(wèn)ALINX官網(wǎng),聯(lián)系我們,獲取完整技術(shù)白皮書(shū)、項(xiàng)目評(píng)估與對(duì)接服務(wù)。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1664

    文章

    22509

    瀏覽量

    639557
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3797

    瀏覽量

    5280
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    5W功耗實(shí)現(xiàn)25TOPS算力,LM2-100-V0算力模組破解AI安防核心難題

    在智慧安防邊緣AI應(yīng)用快速部署需求的背景下,設(shè)備制造商常面臨終端設(shè)備算力不足、功耗超標(biāo)、體積受限、部署太慢等困境。模型越復(fù)雜,終端越吃力;設(shè)備要小型化,算力要打折扣;長(zhǎng)期穩(wěn)定
    的頭像 發(fā)表于 04-03 11:34 ?461次閱讀
    <b class='flag-5'>5W</b><b class='flag-5'>功耗</b>實(shí)現(xiàn)25TOPS算力,LM2-<b class='flag-5'>100</b>-V0算力模組破解AI安防核心難題

    基于Arm平臺(tái)的int8 Conformer模型部署

    在邊緣側(cè)運(yùn)行高質(zhì)量的語(yǔ)音與音頻模型頗具挑戰(zhàn),需滿足時(shí)延、內(nèi)存、功耗模型大小等多方面的嚴(yán)苛約束。不同于云端
    的頭像 發(fā)表于 02-24 10:23 ?455次閱讀
    基于Arm平臺(tái)的<b class='flag-5'>端</b>到<b class='flag-5'>端</b>int8 Conformer<b class='flag-5'>模型</b><b class='flag-5'>部署</b>

    黑芝麻智能華山A2000 BaRT工具鏈助力輔助駕駛模型部署

    隨著智駕模型參數(shù)規(guī)模與計(jì)算復(fù)雜度指數(shù)級(jí)增長(zhǎng),大模型應(yīng)用與車(chē)硬件、性能功耗的矛盾愈發(fā)凸顯,成為技術(shù)量產(chǎn)的關(guān)鍵瓶頸。在此背景下,黑芝麻智能華山A2000 BaRT 工具鏈以 MLIR 框
    的頭像 發(fā)表于 02-02 15:37 ?587次閱讀
    黑芝麻智能華山A2000 BaRT工具鏈助力輔助駕駛<b class='flag-5'>模型</b><b class='flag-5'>部署</b>

    高性能電流模式PWM控制器UC2842B/3B/4B/5B和UC3842B/3B/4B/5B的全面解析

    高性能電流模式PWM控制器UC2842B/3B/4B/5B和UC3842B/3B/4
    的頭像 發(fā)表于 01-27 13:50 ?2872次閱讀

    高性能電流模式PWM控制器UC2842B/3B/4B/5B - UC3842B/3B/4B/5B詳解

    的是STMicroelectronics推出的UC2842B/3B/4B/5B - UC3842B/3B
    的頭像 發(fā)表于 01-27 13:50 ?623次閱讀

    深度解析UC2842B/3B/4B/5B與UC3842B/3B/4B/5B高性能電流模式PWM控制器

    /5B與UC3842B/3B/4B/5B系列高性能電流模式PWM控制器,以其豐富的特性和出色的性能,在離線或DC - DC固定頻率電流模式控
    的頭像 發(fā)表于 01-27 11:35 ?1294次閱讀

    側(cè)模型上車(chē):從“語(yǔ)音助手”到“車(chē)內(nèi) AI 智能體”的躍遷革命

    生活空間”的可能性。當(dāng)7B級(jí)大模型在車(chē)規(guī)級(jí)芯片上流暢運(yùn)行,當(dāng)多模態(tài)交互(語(yǔ)音+視覺(jué)+傳感)成為標(biāo)配,車(chē)載助手已從“被動(dòng)響應(yīng)”升級(jí)為“主動(dòng)決策”,成為車(chē)內(nèi)真正的“數(shù)字大腦”。這場(chǎng)由
    的頭像 發(fā)表于 01-13 09:10 ?824次閱讀

    引領(lǐng)側(cè)模型落地!Firefly-RK182X 開(kāi)發(fā)套件上線發(fā)售

    。Rockchip全新高性能側(cè)模型協(xié)處理器RK182X,以硬核技術(shù)突破瓶頸,重構(gòu)側(cè)智能格局,引領(lǐng)
    的頭像 發(fā)表于 11-26 16:33 ?2787次閱讀
    引領(lǐng)<b class='flag-5'>端</b><b class='flag-5'>側(cè)</b>大<b class='flag-5'>模型</b>落地!Firefly-RK182X 開(kāi)發(fā)套件上線發(fā)售

    廣和通發(fā)布側(cè)目標(biāo)檢測(cè)模型FiboDet

    為提升側(cè)設(shè)備視覺(jué)感知與決策能力,廣和通全自研側(cè)目標(biāo)檢測(cè)模型FiboDet應(yīng)運(yùn)而生。該模型基于廣和通在邊緣計(jì)算與人工智能領(lǐng)域的深度積累,面
    的頭像 發(fā)表于 09-26 13:39 ?1746次閱讀

    廣和通成功部署DeepSeek-R1-0528-Qwen3-8B模型

    近日,廣和通在MediaTek MT8893平臺(tái)上成功部署運(yùn)行了DeepSeek-R1-0528-Qwen3-8B模型,顯著提升了
    的頭像 發(fā)表于 09-26 13:35 ?1011次閱讀

    米爾RK3576部署側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    (LLM Core) 模型選擇:搭載 qwen2.5-vl-3b-w4a16_level1_rk3576.rkllm 模型,采用 W4A16 量化
    發(fā)表于 09-05 17:25

    基于米爾瑞芯微RK3576開(kāi)發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評(píng)測(cè)

    ),確保隱私數(shù)據(jù)不出設(shè)備。 離線場(chǎng)景:Jetson Orin 等邊緣設(shè)備可本地運(yùn)行 3B 參數(shù)模型,無(wú)需聯(lián)網(wǎng)即可完成任務(wù)。 綜上,側(cè) SL
    發(fā)表于 08-29 18:08

    側(cè)模型迎來(lái)“輕”革命!移遠(yuǎn)通信 × RWKV 打造“輕量AI大腦”

    7月27日,移遠(yuǎn)通信宣布與RWKV公司建立全面合作關(guān)系,雙方將依托移遠(yuǎn)的算力平臺(tái),優(yōu)化并支持RWKV最新模型架構(gòu),共同推動(dòng)大模型側(cè)設(shè)備的低資源占用
    的頭像 發(fā)表于 07-27 19:02 ?1172次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>側(cè)</b>大<b class='flag-5'>模型</b>迎來(lái)“輕”革命!移遠(yuǎn)通信 × RWKV 打造“輕量AI大腦”

    后摩智能發(fā)布全新邊大模型AI芯片

    ,就能讓PC、智能語(yǔ)音設(shè)備、機(jī)器人等智能移動(dòng)終端高效運(yùn)行1.5B 到 70B 參數(shù)的本地大模型,真正實(shí)現(xiàn)了"高算力、低功耗、即插即用"。
    的頭像 發(fā)表于 07-26 16:09 ?1843次閱讀

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開(kāi)源大語(yǔ)言模型部署

    的系統(tǒng)和芯片架構(gòu)。 3、拉取/運(yùn)行大語(yǔ)言模型 ollama的使用方法和docker很像。 返回到ollama的編譯路徑,找到ollama可執(zhí)行文件 執(zhí)行 ./ollama run qwen3
    發(fā)表于 07-19 15:45
    承德县| 当阳市| 新沂市| 洛浦县| 津市市| 北碚区| 益阳市| 鹰潭市| 江陵县| 天祝| 慈溪市| 潮安县| 启东市| 吕梁市| 永丰县| 兰州市| 抚州市| 高州市| 肥城市| 东莞市| 荔波县| 和硕县| 保定市| SHOW| 文安县| 商丘市| 渑池县| 灵宝市| 天门市| 若尔盖县| 南宫市| 康乐县| 息烽县| 利川市| 莆田市| 九台市| 府谷县| 溧阳市| 石屏县| 芜湖市| 旺苍县|