日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用Chiplet解決ASIC在LLM上的成本問題

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2023-07-18 00:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))雖說最近靠著GPT大語言模型的熱度,英偉達(dá)之類的主流GPU公司賺得盆滿缽滿,但要說仗著GPU的高性能就能高枕無憂的話,也就未免有些癡人說夢(mèng)了。未來隨著LLM的繼續(xù)發(fā)展,訓(xùn)練與推理如果要花費(fèi)同樣的硬件成本,那么即便是大廠也難以負(fù)擔(dān)。

所以不少廠商都在追求如何削減TCO(總擁有成本)的辦法,有的從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),有的從自研ASIC出發(fā)的,但收效甚微,到最后還是得花大價(jià)錢購置更多的GPU。而來自華盛頓大學(xué)和悉尼大學(xué)的幾位研究人員,在近期鼓搗出的Chiplet Cloud架構(gòu),卻有可能顛覆這一現(xiàn)狀。

TCO居高不下的因素

對(duì)于大部分廠商來說,純粹的TCO并不是他們考慮的首要因素,他們更關(guān)注的是同一性能下如何實(shí)現(xiàn)更低的TCO。當(dāng)下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是內(nèi)存帶寬。

比如在更小的batch size和普通的推理序列長(zhǎng)度下,內(nèi)存帶寬就會(huì)限制對(duì)模型參數(shù)的讀取,比如把參數(shù)從HBM加載到片上寄存器,因?yàn)槿B接層中的GeMM(通用矩陣乘)計(jì)算強(qiáng)度不高,幾乎每次計(jì)算都需要加載新的參數(shù)。

而Chiplet Cloud為了獲得更好的TCO與性能比,選擇了片上SRAM而不是HBM的外部?jī)?nèi)存方案,將所有模型參數(shù)和中間數(shù)據(jù)(比如K和V向量等)緩存到片上內(nèi)存中去,從而實(shí)現(xiàn)了比傳統(tǒng)的DDR、HBM2e更好的單Token TCO表現(xiàn),同時(shí)也獲得了更大的內(nèi)存帶寬。

Chiplet Cloud,作為基于chiplet的ASIC AI超算架構(gòu),正是專為L(zhǎng)LM減少生成單個(gè)Token所需的TCO成本設(shè)計(jì)的。從他們給出的評(píng)估數(shù)據(jù)對(duì)比來看,與目前主流的GPU和TPU對(duì)比,只有Chiplet Cloud對(duì)于TCO/Token做了極致的優(yōu)化。比如在GPT-3上,32個(gè)Chiplet Cloud服務(wù)器相較32個(gè)DGX A100服務(wù)器的TCO成本改善了94倍,在PaLM 540B上,30個(gè)Chiplet Cloud服務(wù)器相較64個(gè)TPUv4芯片將TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更靈活的Chiplet方案

為什么選擇Chiplet呢?我們先來看一個(gè)極端的堆片上內(nèi)存的例子,也就是直接選擇晶圓級(jí)的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。該芯片基于7nm工藝下的一整片12英寸晶圓打造,集成了2.6萬億個(gè)晶體管,面積達(dá)到46255mm2,片上內(nèi)存更是達(dá)到了40GB。

但這樣的巨芯設(shè)計(jì)意味著高昂的制造成本,所以Chiplet Cloud的研究人員認(rèn)為更大的SRAM應(yīng)該與相對(duì)較小的芯片對(duì)應(yīng),這樣才能減少制造成本,所以他們選擇了chiplet的設(shè)計(jì)方式。近來流行的Chiplet方案提高了制造良率,也減少了制造成本,允許在不同的系統(tǒng)層級(jí)上進(jìn)行設(shè)計(jì)的重復(fù)利用。

以臺(tái)積電7nm工藝為例,要想做到0.1/cm2的缺陷密度,一個(gè)750mm2芯片的單價(jià)是一個(gè)150mm2芯片單價(jià)的兩倍,所以Chiplet的小芯片設(shè)計(jì)成本更低。重復(fù)利用的設(shè)計(jì)也可以進(jìn)一步降低成本,加快設(shè)計(jì)周期,為ASIC芯片提供更高的靈活性。

Chiplet Cloud更適合哪些廠商

雖然論文中提到了不少Chiplet Cloud的優(yōu)點(diǎn),但這依然是一個(gè)尚未得到實(shí)際產(chǎn)品驗(yàn)證的架構(gòu),擁有驗(yàn)證實(shí)力的公司往往也只有微軟、谷歌、亞馬遜以及阿里巴巴這類具備芯片設(shè)計(jì)實(shí)力的公司。況且ASIC終究是一種特化的方案,最清楚云平臺(tái)計(jì)算負(fù)載需要哪些優(yōu)化,還得是云服務(wù)廠商自己。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54466

    瀏覽量

    469763
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1278

    瀏覽量

    124991
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    499

    瀏覽量

    13659
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1397
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Google正式發(fā)布LLM評(píng)測(cè)基準(zhǔn)Android Bench

    LLM Android 開發(fā)任務(wù)中的表現(xiàn)?,F(xiàn)在,我們發(fā)布了 Android Bench 的首個(gè)版本,這是 Google 官方專門針對(duì) Android 開發(fā)打造的 LLM 排行榜。
    的頭像 發(fā)表于 03-14 16:00 ?1927次閱讀
    Google正式發(fā)布<b class='flag-5'>LLM</b>評(píng)測(cè)基準(zhǔn)Android Bench

    擁抱Chiplet,大芯片的必經(jīng)之路

    本文轉(zhuǎn)自:半導(dǎo)體行業(yè)觀察隨著傳統(tǒng)芯片架構(gòu)功耗、散熱和空間方面逼近物理極限,一種新型架構(gòu)正在興起,有望為高性能計(jì)算(HPC)開辟一條新的發(fā)展道路。這種架構(gòu)被稱為Chiplet架構(gòu)
    的頭像 發(fā)表于 02-13 14:35 ?560次閱讀
    擁抱<b class='flag-5'>Chiplet</b>,大芯片的必經(jīng)之路

    NVIDIA TensorRT Edge-LLM汽車與機(jī)器人行業(yè)的落地應(yīng)用

    大語言模型(LLM)與多模態(tài)推理系統(tǒng)正迅速突破數(shù)據(jù)中心的局限。越來越多的汽車與機(jī)器人領(lǐng)域的開發(fā)者希望將對(duì)話式 AI 智能體、多模態(tài)感知系統(tǒng)和高級(jí)規(guī)劃功能直接部署端側(cè),因?yàn)樵谶@些場(chǎng)景中,低延遲、高可靠性以及離線運(yùn)行能力至關(guān)重要。
    的頭像 發(fā)表于 01-14 09:10 ?3265次閱讀
    NVIDIA TensorRT Edge-<b class='flag-5'>LLM</b><b class='flag-5'>在</b>汽車與機(jī)器人行業(yè)的落地應(yīng)用

    躍昉科技受邀出席第四屆HiPi Chiplet論壇

    隨著摩爾定律放緩與AI算力需求的爆發(fā)式增長(zhǎng),傳統(tǒng)芯片設(shè)計(jì)模式正面臨研發(fā)成本高昂、能耗巨大、迭代周期長(zhǎng)的多重壓力。在此背景下,Chiplet(芯粒)技術(shù)成為推動(dòng)集成電路產(chǎn)業(yè)持續(xù)演進(jìn)的關(guān)鍵路徑。2025
    的頭像 發(fā)表于 12-28 16:36 ?904次閱讀
    躍昉科技受邀出席第四屆HiPi <b class='flag-5'>Chiplet</b>論壇

    PowerVRLLM加速:LLM性能解析

    作者:AlexPim,Imagination軟件架構(gòu)FellowImagination,我們致力于加速大語言模型日常設(shè)備的運(yùn)行。本系列關(guān)于大語言模型性能與加速的兩篇博客的首篇中
    的頭像 發(fā)表于 12-10 08:34 ?422次閱讀
    PowerVR<b class='flag-5'>上</b>的<b class='flag-5'>LLM</b>加速:<b class='flag-5'>LLM</b>性能解析

    微弱信號(hào)采集 ASIC芯片 CBM12AD1X

    ASIC芯片
    芯佰微電子
    發(fā)布于 :2025年11月28日 15:04:53

    【CIE全國RISC-V創(chuàng)新應(yīng)用大賽】+ 一種基于LLM的可通過圖像語音控制的元件庫管理工具

    成本下長(zhǎng)時(shí)間的維持運(yùn)營一個(gè)良好的庫存環(huán)境。本項(xiàng)目實(shí)現(xiàn)了多模態(tài)同步,項(xiàng)目中聯(lián)合調(diào)用了CV(OCR),ASR,LLM。 主要功能構(gòu)想 ? 1.實(shí)現(xiàn)用戶將采購單或元器件標(biāo)簽或元器件(下文稱輸入資料)放置或
    發(fā)表于 11-12 19:32

    解構(gòu)Chiplet,區(qū)分炒作與現(xiàn)實(shí)

    ,對(duì)于芯片架構(gòu)的設(shè)計(jì)需要什么、哪些技術(shù)已經(jīng)成熟可用以及哪些創(chuàng)新即將出現(xiàn),仍然存在不確定性。Chiplet開始廣泛應(yīng)用之前,了解該技術(shù)及其配套生態(tài)系統(tǒng)至關(guān)重要。隨著
    的頭像 發(fā)表于 10-23 12:19 ?550次閱讀
    解構(gòu)<b class='flag-5'>Chiplet</b>,區(qū)分炒作與現(xiàn)實(shí)

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1465次閱讀

    基于樹莓派5+LLM8850 Card的高性能AI加速解決方案

    推廣的過程中,樹莓派生態(tài)客戶反饋希望能提供一種兼容原裝Raspberry PI HAT的M.2 2242的AI Card版本。經(jīng)過國內(nèi)優(yōu)秀的AIOT硬件設(shè)計(jì)公司M5Stack長(zhǎng)達(dá)幾個(gè)月的反復(fù)設(shè)計(jì),終于本周正式架了
    的頭像 發(fā)表于 10-14 11:25 ?2876次閱讀
    基于樹莓派5+<b class='flag-5'>LLM</b>8850 Card的高性能AI加速解決方案

    DeepSeek R1 MTPTensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM NVIDIA Blackwell GPU 創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4736次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-<b class='flag-5'>LLM</b>中的實(shí)現(xiàn)與優(yōu)化

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2475次閱讀

    使用 llm-agent-rag-llamaindex 筆記本時(shí)收到的 NPU 錯(cuò)誤怎么解決?

    使用 conda create -n ov-nb-demos python=3.11 創(chuàng)建運(yùn)行 llm-agent-rag-llamaindex notebook 的環(huán)境。 執(zhí)行“創(chuàng)建
    發(fā)表于 06-23 06:26

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?2109次閱讀
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開發(fā)者和技術(shù)愛好者正在尋求以更 快、更靈活的方式來運(yùn)行大語言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?1486次閱讀
    LM Studio使用NVIDIA技術(shù)加速<b class='flag-5'>LLM</b>性能
    玉环县| 宿迁市| 玛沁县| 孟津县| 吴桥县| 长汀县| 永修县| 湖州市| 融水| 安乡县| 上饶县| 连云港市| 太白县| 名山县| 嵩明县| 保康县| 竹北市| 海口市| 奇台县| 内丘县| 九龙坡区| 当涂县| 新郑市| 邵武市| 渭南市| 北碚区| 益阳市| 石台县| 宁德市| 商都县| 平邑县| 崇仁县| 布尔津县| 长沙市| 玛曲县| 松原市| 左贡县| 蓬安县| 吉林省| 丰宁| 黄山市|