日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型端側(cè)部署加速,都有哪些芯片可支持?

Carol Li ? 來(lái)源:電子發(fā)燒友 ? 作者:李彎彎 ? 2024-05-24 00:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)大模型在端側(cè)部署是指將大型神經(jīng)網(wǎng)絡(luò)模型部署在移動(dòng)終端設(shè)備上,使這些設(shè)備能夠直接運(yùn)行這些模型,從而執(zhí)行各種人工智能任務(wù),如圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等。隨著大模型小型化、場(chǎng)景化需求的增加,推理逐步從云端擴(kuò)展向端側(cè)。這種趨勢(shì)在PC和手機(jī)等終端產(chǎn)品上尤為明顯。

大模型在端側(cè)部署加速

大模型在端側(cè)部署的過(guò)程通常包括幾個(gè)階段,首先是模型訓(xùn)練階段,在這個(gè)階段,使用大量的標(biāo)注數(shù)據(jù)訓(xùn)練出對(duì)應(yīng)的模型文件。訓(xùn)練時(shí)需要考慮模型的大小和計(jì)算量,以便適應(yīng)端側(cè)設(shè)備的硬件條件。

接著是模型壓縮,為了降低模型在端側(cè)設(shè)備上的存儲(chǔ)和運(yùn)行壓力,通常需要對(duì)模型進(jìn)行壓縮。這可以通過(guò)剪枝、量化等手段來(lái)實(shí)現(xiàn),以減小模型的大小和降低計(jì)算復(fù)雜度。

再就是模型部署,在這個(gè)階段,將壓縮后的模型部署到端側(cè)設(shè)備上。這包括將模型文件傳輸?shù)皆O(shè)備上,在設(shè)備上安裝必要的推理引擎和運(yùn)行時(shí)環(huán)境等步驟。

最后,在模型部署完成后,端側(cè)設(shè)備就可以使用這些模型進(jìn)行推理計(jì)算了。這通常包括加載模型、輸入數(shù)據(jù)預(yù)處理、模型計(jì)算、結(jié)果輸出等步驟。

在大模型端側(cè)部署過(guò)程中,需要考慮一些技術(shù)挑戰(zhàn)和限制。例如,端側(cè)設(shè)備的硬件條件通常比云端服務(wù)器要差很多,因此需要在模型設(shè)計(jì)和壓縮階段充分考慮這些因素。此外,端側(cè)設(shè)備的網(wǎng)絡(luò)帶寬和延遲也可能對(duì)模型推理的實(shí)時(shí)性和準(zhǔn)確性產(chǎn)生影響。

為了克服這些挑戰(zhàn)和限制,一些技術(shù)工具和平臺(tái)被開(kāi)發(fā)出來(lái),如MLflow、Ray Serve、Kubeflow、Seldon Core、BentoML和ONNX Runtime等。這些工具可以幫助用戶(hù)更方便地構(gòu)建、部署和管理機(jī)器學(xué)習(xí)模型,從而提高模型在端側(cè)設(shè)備上的性能和可用性。

現(xiàn)如今,大模型在端側(cè)的部署正在加速。在PC領(lǐng)域,繼英特爾推出首個(gè)AI PC處理器后,聯(lián)想集團(tuán)、惠普、宏碁等廠商相繼發(fā)布多款A(yù)I PC新品。據(jù)報(bào)道,已有超過(guò)10款筆記本可以本地運(yùn)行AI大模型,并且還有一批新品將陸續(xù)上市。

在手機(jī)領(lǐng)域,從2023年下半年開(kāi)始,小米、OPPO、vivo等手機(jī)廠商紛紛在新系統(tǒng)中增加大模型能力。到2024年1月,中國(guó)手機(jī)市場(chǎng)Top5中,除蘋(píng)果之外,已經(jīng)全數(shù)發(fā)布自有端側(cè)大模型產(chǎn)品。

大模型在端側(cè)部署的優(yōu)勢(shì)也日益凸顯。一方面,端側(cè)部署可以降低數(shù)據(jù)傳輸延遲和帶寬限制,提高實(shí)時(shí)性和響應(yīng)速度。另一方面,端側(cè)部署可以更好地保護(hù)用戶(hù)隱私和數(shù)據(jù)安全,因?yàn)閿?shù)據(jù)可以在本地進(jìn)行處理,而無(wú)需傳輸?shù)皆贫恕?br />
國(guó)內(nèi)外廠商推出支持大模型端側(cè)部署芯片

大模型要在端側(cè)部署離不開(kāi)芯片的支持,英特爾、高通、聯(lián)發(fā)科等都推出了針對(duì)大模型在PC、手機(jī)等移動(dòng)端部署所需的芯片。英特爾推出了首款基于Intel 4制程的酷睿Ultra系列處理器第一代產(chǎn)品Meteor Lake,這款處理器首次在客戶(hù)端CPU中采用了Chiplet(芯粒)設(shè)計(jì)和自家的Foveros先進(jìn)封裝技術(shù),集成了NPU(神經(jīng)網(wǎng)絡(luò)處理單元),可以本地運(yùn)行200億參數(shù)大模型,無(wú)需聯(lián)網(wǎng)即可秒級(jí)生成高質(zhì)量多模態(tài)數(shù)據(jù)。

高通發(fā)布的第三代驍龍8移動(dòng)平臺(tái),是其首個(gè)專(zhuān)為生成式AI打造的移動(dòng)平臺(tái)。該平臺(tái)支持在終端側(cè)運(yùn)行100億參數(shù)的模型,并面向70億參數(shù)大預(yù)言模型每秒生成高達(dá)20個(gè)token,且能夠在終端側(cè)通過(guò)Stable Diffusion生成圖片。

此外,高通還推出了AI Hub,這是一個(gè)為開(kāi)發(fā)者提供的AI模型庫(kù),包括傳統(tǒng)AI模型和生成式AI模型,能夠支持在驍龍和高通平臺(tái)上進(jìn)行部署。這個(gè)模型庫(kù)支持超過(guò)75個(gè)AI模型,如Whisper、ControlNet、Stable Diffusion和Baichuan-7B等,開(kāi)發(fā)者可以輕松地獲取這些模型并將其集成到應(yīng)用程序中。

聯(lián)發(fā)科與阿里云展開(kāi)深度合作,在天璣9300和天璣8300移動(dòng)平臺(tái)上實(shí)現(xiàn)了通義千問(wèn)大模型的端側(cè)部署。聯(lián)發(fā)科的天璣系列移動(dòng)芯片,如天璣9300和天璣8300,都是高性能、高能效的移動(dòng)計(jì)算平臺(tái)。這些芯片不僅具有強(qiáng)大的處理能力,還支持先進(jìn)的5G技術(shù)和生成式AI技術(shù),為端側(cè)大模型部署提供了堅(jiān)實(shí)的基礎(chǔ)。

另外,國(guó)內(nèi)的愛(ài)芯元智、芯動(dòng)力科技等公司也針對(duì)大模型在端側(cè)的部署優(yōu)化產(chǎn)品。愛(ài)芯元智的AX650N芯片在大模型端側(cè)部署方面就展現(xiàn)出了顯著的優(yōu)勢(shì)。

具體來(lái)說(shuō),AX650N在部署Swin Transformer這類(lèi)大型視覺(jué)模型時(shí),能夠保持高精度和高效率。由于大部分端側(cè)AI芯片在架構(gòu)上對(duì)于MHA(Multi-Head Attention)結(jié)構(gòu)沒(méi)有過(guò)多優(yōu)化,因此部署大型模型時(shí)往往需要進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的修改,這可能導(dǎo)致精度下降和重訓(xùn)的麻煩。然而,AX650N通過(guò)其獨(dú)特的架構(gòu)和優(yōu)化,能夠直接支持原版Swin Transformer的部署,從測(cè)試板到demo復(fù)現(xiàn)只需要5分鐘,私有模型在私有環(huán)境中運(yùn)行也僅需1小時(shí)。

此外,AX650N還具備32路視頻解碼/視頻結(jié)構(gòu)化處理、被動(dòng)散熱、支持低延時(shí)編解碼、HDMI輸出和USB 3.0等特性,這些特性使得它非常適合用于各種視覺(jué)感知和邊緣計(jì)算的應(yīng)用場(chǎng)景。在大模型端側(cè)部署方面,AX650N不僅提供了強(qiáng)大的計(jì)算能力,還通過(guò)其易部署和低功耗的特點(diǎn),為實(shí)際應(yīng)用落地提供了更多的可能性。

芯動(dòng)力科技是一家清華系的AI芯片創(chuàng)企,他們面向大模型推出了AzureBlade L系列M.2加速卡。這款加速卡具有強(qiáng)大的性能,能夠順利運(yùn)行大模型系統(tǒng),并且其大小僅為80mm(長(zhǎng))x22mm(寬),非常適合在PC等端側(cè)設(shè)備上部署。

AzureBlade L系列M.2加速卡已經(jīng)實(shí)現(xiàn)了與Llama 2、Stable Diffusion等模型的適配,成為助推大模型在端側(cè)設(shè)備上部署的加速器。這種具備體積小、性能強(qiáng),且有通用接口的M.2加速卡,能夠突破端側(cè)設(shè)備有限的計(jì)算和存儲(chǔ)能力,為大模型在端側(cè)的落地提供了機(jī)會(huì)。

寫(xiě)在最后

大模型在端側(cè)部署是一個(gè)復(fù)雜的過(guò)程,需要考慮多種因素和技術(shù)挑戰(zhàn)。但是通過(guò)合理的模型設(shè)計(jì)、壓縮和優(yōu)化以及使用適當(dāng)?shù)墓ぞ吆推脚_(tái),就可以讓端側(cè)設(shè)備具備更強(qiáng)的人工智能能力。如今,在產(chǎn)業(yè)鏈各環(huán)節(jié)的努力下,大模型在端側(cè)部署的現(xiàn)狀呈現(xiàn)出加速的趨勢(shì),預(yù)計(jì),未來(lái)隨著技術(shù)的不斷進(jìn)步和優(yōu)化,大模型在端側(cè)部署的應(yīng)用將會(huì)越來(lái)越廣泛。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108212
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3805

    瀏覽量

    5280
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    廣和通發(fā)布新一代桌面級(jí)雙臂Fibot,率先支持π0.6模型側(cè)部署

    模型π0.6在側(cè)高效部署,并可基于物理世界數(shù)據(jù)集進(jìn)行模型訓(xùn)練與迭代,助力機(jī)器人在真實(shí)場(chǎng)景中執(zhí)行長(zhǎng)時(shí)序且復(fù)雜的柔性任務(wù),標(biāo)志著廣和通在具身智能
    的頭像 發(fā)表于 04-28 18:50 ?831次閱讀
    廣和通發(fā)布新一代桌面級(jí)雙臂Fibot,率先<b class='flag-5'>支持</b>π0.6<b class='flag-5'>模型</b><b class='flag-5'>端</b><b class='flag-5'>側(cè)部署</b>

    OpenClaw部署新突破:國(guó)產(chǎn)芯片跑通、云廠商一鍵上云,AI手機(jī)內(nèi)測(cè)

    本文將匯總手機(jī)芯片廠商、云廠商A為支持OpenClaw的AI側(cè)部署有哪些最新進(jìn)展,國(guó)家互聯(lián)網(wǎng)中心和安全軟件平臺(tái)為OpenClaw使用帶
    的頭像 發(fā)表于 03-20 09:54 ?2w次閱讀
    OpenClaw<b class='flag-5'>部署</b>新突破:國(guó)產(chǎn)<b class='flag-5'>芯片</b>跑通、云廠商一鍵上云,AI手機(jī)內(nèi)測(cè)

    【瑞薩AI挑戰(zhàn)賽】手寫(xiě)數(shù)字識(shí)別模型在RA8P1 Titan Board上的部署

    輕量級(jí)深度學(xué)習(xí)模型側(cè)部署的優(yōu)質(zhì)硬件平臺(tái)。本文將基于RA8P1 Titan Board開(kāi)發(fā)板,結(jié)合ruhmi、RT-Thread Studio等工具,從開(kāi)發(fā)環(huán)境搭建、手寫(xiě)數(shù)字識(shí)別模型訓(xùn)
    發(fā)表于 03-15 20:42

    技嘉與趨境科技聯(lián)合部署AMaaS平臺(tái) 推動(dòng)本地大模型應(yīng)用加速落地

    CPU+GPU一體封裝設(shè)計(jì)的NVIDIA GB10 Grace Blackwell芯片,其具備1千萬(wàn)億次/秒(浮點(diǎn)運(yùn)算)AI 性能、128GB 統(tǒng)一內(nèi)存,支持模型訓(xùn)練、推理與
    的頭像 發(fā)表于 03-12 15:11 ?217次閱讀
    技嘉與趨境科技聯(lián)合<b class='flag-5'>部署</b>AMaaS平臺(tái) 推動(dòng)本地大<b class='flag-5'>模型</b>應(yīng)用<b class='flag-5'>加速</b>落地

    基于Arm平臺(tái)的int8 Conformer模型部署

    在邊緣側(cè)運(yùn)行高質(zhì)量的語(yǔ)音與音頻模型頗具挑戰(zhàn),需滿(mǎn)足時(shí)延、內(nèi)存、功耗和模型大小等多方面的嚴(yán)苛約束。不同于云端部署,邊緣側(cè)系統(tǒng)通常離線(xiàn)運(yùn)行,需兼顧用戶(hù)隱私與預(yù)測(cè)的實(shí)時(shí)性能。這些落地場(chǎng)景涵
    的頭像 發(fā)表于 02-24 10:23 ?461次閱讀
    基于Arm平臺(tái)的<b class='flag-5'>端</b>到<b class='flag-5'>端</b>int8 Conformer<b class='flag-5'>模型</b><b class='flag-5'>部署</b>

    AI側(cè)部署案例(SC171開(kāi)發(fā)套件V2-FAS)

    AI側(cè)部署案例(SC171開(kāi)發(fā)套件V2-FAS) 序列 課程名稱(chēng) 視頻課程時(shí)長(zhǎng) 視頻課程鏈接 課件鏈接 工程源碼 1 初學(xué)者入門(mén)手寫(xiě)數(shù)字識(shí)別案例 32分21秒 https
    發(fā)表于 02-11 12:08

    AI側(cè)部署開(kāi)發(fā)(SC171開(kāi)發(fā)套件V2-FAS)

    AI側(cè)部署開(kāi)發(fā)(SC171開(kāi)發(fā)套件V2-FAS) 序列 課程名稱(chēng) 視頻課程時(shí)長(zhǎng) 視頻課程鏈接 課件鏈接 工程源碼 1 Fibo AI Stack模型轉(zhuǎn)化指南 27分19秒 https
    發(fā)表于 02-11 11:44

    AI側(cè)部署案例(SC171開(kāi)發(fā)套件V3)2026版

    AI側(cè)部署案例(SC171開(kāi)發(fā)套件V3)2026版 序列 課程名稱(chēng) 視頻課程時(shí)長(zhǎng) 視頻課程鏈接 課件鏈接 工程源碼 1 初學(xué)者入門(mén)手寫(xiě)數(shù)字識(shí)別案例 25分29秒 https
    發(fā)表于 01-15 10:40

    AI側(cè)部署開(kāi)發(fā)(SC171開(kāi)發(fā)套件V3)2026版

    AI側(cè)部署開(kāi)發(fā)(SC171開(kāi)發(fā)套件V3)2026版 序列 課程名稱(chēng) 視頻課程時(shí)長(zhǎng) 視頻課程鏈接 課件鏈接 工程源碼 1 Fibo AI Stack模型轉(zhuǎn)化指南 27分19秒 https
    發(fā)表于 01-15 10:31

    基于Vulkan的側(cè)AI運(yùn)算

    本期內(nèi)容由AI Model SIG提供,介紹了在開(kāi)源鴻蒙中,利用圖形接口Vulkan的計(jì)算著色器能力,在側(cè)部署模型的的整體思路和實(shí)踐分享。
    的頭像 發(fā)表于 09-10 17:19 ?1722次閱讀
    基于Vulkan的<b class='flag-5'>端</b>側(cè)AI運(yùn)算

    ALINX VD100低功耗側(cè)大模型部署方案,運(yùn)行3B模型功耗僅5W?!

    完整模型,以降低延遲、保護(hù)隱私并節(jié)省通信成本。但真正落地時(shí)卻發(fā)現(xiàn):功耗吃緊、模型裁剪嚴(yán)重、開(kāi)發(fā)流程繁瑣,使得“能運(yùn)行”遠(yuǎn)遠(yuǎn)達(dá)不到“用得好”。 基于 ALINX VD100 開(kāi)發(fā)平臺(tái),客戶(hù)打造出一套面向 AI 終端的大模型
    的頭像 發(fā)表于 09-03 14:58 ?901次閱讀
    ALINX VD100低功耗<b class='flag-5'>端</b>側(cè)大<b class='flag-5'>模型</b><b class='flag-5'>部署</b>方案,運(yùn)行3B<b class='flag-5'>模型</b>功耗僅5W?!

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開(kāi)源大語(yǔ)言模型部署

    , Gemma等開(kāi)源大模型。當(dāng)然,一些閉源的(類(lèi)似chatgpt, gemini)是不支持部署的。如下圖: 在側(cè)部署
    發(fā)表于 07-19 15:45

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型側(cè)部署

    ImaginationTechnologies宣布率先完成百度文心大模型(ERNIE4.5開(kāi)源版)在其GPU硬件上的側(cè)部署。適配完成后,開(kāi)發(fā)者可在搭載ImaginationGPU的設(shè)備上實(shí)現(xiàn)高效
    的頭像 發(fā)表于 07-01 08:17 ?1125次閱讀
    Say Hi to ERNIE!Imagination GPU率先完成文心大<b class='flag-5'>模型</b>的<b class='flag-5'>端</b><b class='flag-5'>側(cè)部署</b>

    如何使用Docker部署模型

    隨著深度學(xué)習(xí)和大模型的快速發(fā)展,如何高效地部署這些模型成為了一個(gè)重要的挑戰(zhàn)。Docker 作為一種輕量級(jí)的容器化技術(shù),能夠?qū)?b class='flag-5'>模型及其依賴(lài)環(huán)境打包成一個(gè)
    的頭像 發(fā)表于 05-24 16:39 ?1382次閱讀

    MediaTek天璣9400率先完成阿里Qwen3模型部署

    通義大模型團(tuán)隊(duì)在天璣 9400 旗艦移動(dòng)平臺(tái)上率先完成 Qwen3(千問(wèn) 3)的側(cè)部署。未來(lái),搭載天璣 9400 移動(dòng)平臺(tái)的設(shè)備充分發(fā)揮
    的頭像 發(fā)表于 05-08 10:11 ?1556次閱讀
    将乐县| 樟树市| 西安市| 镇远县| 增城市| 郧西县| 大姚县| 来安县| 双辽市| 河东区| 航空| 沾益县| 四会市| 尚志市| 合作市| 宣恩县| 家居| 昔阳县| 江永县| 凉城县| 资兴市| 镇赉县| 栾川县| 临夏县| 建水县| 乐亭县| 厦门市| 万山特区| 五家渠市| 武强县| 仲巴县| 泗水县| 申扎县| 西安市| 兰考县| 米泉市| 依兰县| 蓬莱市| 隆尧县| 安丘市| 蓝山县|