日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

車載大模型分析揭示:存儲(chǔ)帶寬對(duì)性能影響遠(yuǎn)超算力

佐思汽車研究 ? 來(lái)源:未知 ? 2024-11-09 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

車載大模型的定義尚無(wú),傳統(tǒng)大模型即LLM的參數(shù)一般在70億至2000億之間,而早期的CNN模型參數(shù)通常不到1000萬(wàn),CNN模型目前大多做骨干網(wǎng)使用,參數(shù)飛速增加。特斯拉使用META的RegNet,參數(shù)為8400萬(wàn),消耗運(yùn)算資源很少,得分82.9也算不低;小米UniOcc使用META的ConvNeXt-B,參數(shù)8900萬(wàn),消耗運(yùn)算資源最少,得分83.8;華為RadOcc使用微軟的Swin-B,參數(shù)8800萬(wàn)。相對(duì)于早期的CNN模型,這些都可以叫大模型,但要與真正意義上的ChatGPT之類的LLM大模型比,這些是小模型都稱不上,只能叫微模型。

不過(guò),端到端的出現(xiàn)改變了這一現(xiàn)狀,端到端實(shí)際上是內(nèi)嵌了一個(gè)小型LLM,隨著喂養(yǎng)數(shù)據(jù)的增加,這個(gè)大模型的參數(shù)會(huì)越來(lái)越大,最初階段的模型大小大概是100億參數(shù),不斷迭代,最終會(huì)達(dá)到1000億以上。非安全類的大模型應(yīng)用基本不用考慮計(jì)算問(wèn)題,所以只要是個(gè)手機(jī)都敢說(shuō)能跑數(shù)百億的大模型,實(shí)際很多算力不如手機(jī)的電腦也能跑,因?yàn)檠舆t多幾秒幾十秒也沒(méi)有問(wèn)題,但自動(dòng)駕駛必須將延遲降低到幾十毫秒內(nèi)。但你要以為這對(duì)算力要求更高了,那就大錯(cuò)特錯(cuò)了,存儲(chǔ)帶寬遠(yuǎn)比算力重要千倍。

當(dāng)前的主流 LLM 基本都是Decoder Only的Transformer模型,其推理過(guò)程可分為兩個(gè)階段:

d3575588-903e-11ef-a511-92fbcf53809c.png

圖片來(lái)源:論文 A Survey on Efficient Inference for Large Language Models

Prefill:根據(jù)輸入Tokens(Recite, the, first, law, of, robotics) 生成第一個(gè)輸出 Token(A),通過(guò)一次Forward就可以完成,在Forward中,輸入Tokens間可以并行執(zhí)行(類似 Bert這些Encoder模型),因此執(zhí)行效率很高。

Decoding:從生成第一個(gè)Token(A)之后開始,采用自回歸方式一次生成一個(gè)Token,直到生成一個(gè)特殊的Stop Token(或者滿足用戶的某個(gè)條件,比如超過(guò)特定長(zhǎng)度)才會(huì)結(jié)束,假設(shè)輸出總共有N個(gè)Token,則Decoding階段需要執(zhí)行N-1次Forward,這N-1次Forward 只能串行執(zhí)行,效率很低。另外,在生成過(guò)程中,需要關(guān)注的Token越來(lái)越多(每個(gè)Token 的生成都需要Attention之前的Token),計(jì)算量也會(huì)適當(dāng)增大。

LLM推理計(jì)算過(guò)程時(shí)間分布

d383974c-903e-11ef-a511-92fbcf53809c.png

圖片來(lái)源:論文Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference

在車載自動(dòng)駕駛應(yīng)用場(chǎng)合,序列長(zhǎng)度基本可等同于攝像頭的像素?cái)?shù)量和激光雷達(dá)的點(diǎn)云密度。

d3adee5c-903e-11ef-a511-92fbcf53809c.png

圖片來(lái)源:論文Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference

在 LLM 推理中最關(guān)鍵的就是上圖中的Multi-Head Attention(MHA),其主要的計(jì)算集中在左圖中灰色的 Linear(矩陣乘)和Scaled Dot-Product Attention中的MatMul 矩陣乘法。

圖中的Mask是一個(gè)下三角矩陣,也是因?yàn)檫@個(gè)下三角矩陣實(shí)現(xiàn)了LLM Decoder的主要特性,每個(gè)Token都只能看到當(dāng)前位置及之前的Token。其中的QKV可以理解為一個(gè)相關(guān)性矩陣,4個(gè)Token對(duì)應(yīng)4 個(gè)Step,其中:

Step 2依賴Step 1的結(jié)果,相關(guān)性矩陣的第1行不用重復(fù)計(jì)算。

Step 3依賴Step 1和Step 2的結(jié)果,相關(guān)性矩陣的第1行和第2行不用重復(fù)計(jì)算。

Step 4依賴Step 1、Step 2和Step 3的結(jié)果,相關(guān)性矩陣的第1行、第2行和第3行不用重復(fù)計(jì)算。

在Decoding階段Token是逐個(gè)生成的,上述的計(jì)算過(guò)程中每次都會(huì)依賴之前的結(jié)果,換句話說(shuō)這是串行計(jì)算,而非GPU擅長(zhǎng)的并行計(jì)算,GPU大部分時(shí)候都在等待數(shù)據(jù)搬運(yùn)。加速的辦法是計(jì)算當(dāng)前Token時(shí)直接從KV Cache中讀取而不是重新計(jì)算,對(duì)于通用LLM,應(yīng)用場(chǎng)景是要考慮多個(gè)并發(fā)客戶使用,即Batch Size遠(yuǎn)大于1,KV Cache的緩存量會(huì)隨著Batch Size暴增,但在車?yán)镉脩糁挥幸粋€(gè),就是自動(dòng)駕駛端到端大模型,即Batch Size為1。

因?yàn)镈ecoding階段Token逐個(gè)處理,使用KV Cache之后,上面介紹的Multi-Head Attention 里的矩陣乘矩陣操作全部降級(jí)為矩陣乘向量即GEMV。此外,Transformer模型中的另一個(gè)關(guān)鍵組件FFN 中主要也包含兩個(gè)矩陣乘法操作,但 Token之間不會(huì)交叉融合,也就是任何一個(gè)Token都可以獨(dú)立計(jì)算,因此在Decoding階段不用Cache之前的結(jié)果,但同樣會(huì)出現(xiàn)矩陣乘矩陣操作降級(jí)為矩陣乘向量。Prefill階段則是GEMM,矩陣與矩陣的乘法。

矩陣乘向量操作是明顯的訪存bound,而以上操作是LLM推理中最主要的部分,這也就導(dǎo)致LLM推理是訪存bound類型。

三星對(duì)GPT大模型workload分析

d3dfe038-903e-11ef-a511-92fbcf53809c.png

圖片來(lái)源:SAMSUNG

上圖是三星對(duì)GPT大模型workload分析。在運(yùn)算操作數(shù)量上,GEMV所占的比例高達(dá)86.53%;在大模型運(yùn)算延遲分析上,82.27%的延遲都來(lái)自GEMV,GEMM所占只有2.12%,非線性運(yùn)算也就是神經(jīng)元激活部分占的比例也遠(yuǎn)高于GEMM。

三星對(duì)GPU利用率的分析

d41bc45e-903e-11ef-a511-92fbcf53809c.png

圖片來(lái)源:SAMSUNG

上圖是三星對(duì)GPU利用率的分析,可以看出在GEMV算子時(shí),GPU的利用率很低,一般不超過(guò)20%,換句話說(shuō)80%的時(shí)間GPU都是在等待存儲(chǔ)數(shù)據(jù)的搬運(yùn)。還有如矩陣反轉(zhuǎn),嚴(yán)格地說(shuō)沒(méi)有任何運(yùn)算,只是存儲(chǔ)行列對(duì)調(diào),完全是存儲(chǔ)器和CPU在忙活。解決辦法很簡(jiǎn)單且只有一個(gè),就是用HBM高寬帶內(nèi)存。

與傳統(tǒng)LLM最大不同就是車載的Batch Size是1,導(dǎo)致GPU運(yùn)算效率暴跌,傳統(tǒng)LLM的Batch Size通常遠(yuǎn)大于1,這讓GPU效率增加。

d44a5206-903e-11ef-a511-92fbcf53809c.png

圖片來(lái)源:論文SARATHI: Effcient LLM Inference by Piggybacking Decodes with Chunked Preflls

圖上不難看出,Batch Size越大,推理速度反而越快,但KV Cache容量會(huì)暴增;車載的Batch Size是1,推理速度反而很慢,好處是根本不用考慮KV Cache的容量。

最終我們可以得出結(jié)論,存儲(chǔ)帶寬決定了推理計(jì)算速度的上限。假設(shè)一個(gè)大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲(chǔ)是7GB,如果是英偉達(dá)的RTX4090,它的顯存帶寬是1008GB/s,也就是每7毫秒生成一個(gè)token,這個(gè)就是RTX4090的理論速度上限。特斯拉第一代FSD芯片的存儲(chǔ)帶寬是63.5GB/s,即每110毫秒生成一個(gè)token,幀率不到10Hz,自動(dòng)駕駛領(lǐng)域一般圖像幀率是30Hz;英偉達(dá)的Orin存儲(chǔ)帶寬是204.5GB/s,即每34毫秒生成一個(gè)token,勉強(qiáng)可以達(dá)到30Hz,注意這只是計(jì)算的數(shù)據(jù)搬運(yùn)所需要的時(shí)間,數(shù)據(jù)計(jì)算的時(shí)間都完全忽略了,實(shí)際速度要遠(yuǎn)低于這個(gè)數(shù)據(jù)。并且一個(gè)token也不夠用,至少需要兩個(gè)token,端到端的最終輸出結(jié)果用語(yǔ)言描述就是一段軌跡,比如直行,直行需要有個(gè)限制條件,至少有個(gè)速度的限制條件,多的可能需要5個(gè)以上token,簡(jiǎn)單計(jì)算即可得出存儲(chǔ)帶寬需要1TB/s以上。

實(shí)際情況遠(yuǎn)比這個(gè)復(fù)雜的多。車載領(lǐng)域不是傳統(tǒng)LLM使用CPU和GPU分離形式,車載領(lǐng)域的計(jì)算SoC都是將CPU和AI運(yùn)算部分合二為一,AI運(yùn)算部分通常是GPU或加速器是和CPU共享內(nèi)存的。而在非車載領(lǐng)域,GPU或AI運(yùn)算部分有獨(dú)立的存儲(chǔ),即顯存。車載領(lǐng)域共享內(nèi)存一般是LPDDR,它主要是為CPU設(shè)計(jì)的,注重速度即頻率而非帶寬。不像顯存,一般是GDDR或HBM,注重帶寬,不看重頻率高低。上述所有理論都是基于顯存的,在車載領(lǐng)域共享LPDDR,其性能遠(yuǎn)遠(yuǎn)低于單獨(dú)配置的顯存,無(wú)論是速度還是容量,共享存儲(chǔ)都必須遠(yuǎn)比單獨(dú)的顯存要高才能做到大模型推理計(jì)算。

理想用英偉達(dá)Orin做了測(cè)試,純端到端模式延遲高達(dá)1.5秒。

d4829288-903e-11ef-a511-92fbcf53809c.png

圖片來(lái)源:論文DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

所以車載領(lǐng)域存儲(chǔ)比算力重要很多,最好的解決辦法是HBM,但太貴了,32GB HBM2最低成本也得2000美元,汽車領(lǐng)域?qū)r(jià)格還是比較敏感的,退而求其次,就是GDDR了。GDDR6的成本遠(yuǎn)低于HBM,32GB GDDR6大概只要180美元或更低。

幾代GDDR的性能對(duì)比

d4b3bd5e-903e-11ef-a511-92fbcf53809c.png

整理:佐思汽研

基本上GDDR6的理論上限就是672GB/s,特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量為32GB,型號(hào)為MT61M512M32KPA-14,頻率1750MHz(LPDDR5最低也是3200MHz之上),是第一代GDDR6,速度較低。即使用了GDDR6,要流暢運(yùn)行百億級(jí)別的大模型,還是無(wú)法實(shí)現(xiàn),不過(guò)已經(jīng)是目前最好的了。

GDDR7正式標(biāo)準(zhǔn)在2024年3月公布,不過(guò)三星在2023年7月就發(fā)布了全球首款GDDR7,目前SK Hynix和美光也都有GDRR7產(chǎn)品推出。有些人會(huì)說(shuō),換上GDDR7顯存不就行了,當(dāng)然沒(méi)那么容易,GDDR需要特殊的物理層和控制器,芯片必須內(nèi)置GDDR的物理層和控制器才能用上GDDR,Rambus和新思科技都有相關(guān)IP出售。

d5223054-903e-11ef-a511-92fbcf53809c.png

圖片來(lái)源:網(wǎng)絡(luò)

在芯片領(lǐng)域,GDDR7增加的成本和LPDDR5X一樣的。

特斯拉的HW4.0過(guò)了一年半毫無(wú)動(dòng)作,筆者認(rèn)為特斯拉的第二代FSD芯片顯然是落伍了,特斯拉也不打算大規(guī)模用了,特斯拉的第三代FSD芯片應(yīng)該正在開發(fā)中,可能2025年底就完成開發(fā),至少支持GDDR6X。

大模型時(shí)代,Attention Is All You Need,同樣大模型時(shí)代 Memory Is All You Need。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4900

    瀏覽量

    90323
  • 帶寬
    +關(guān)注

    關(guān)注

    3

    文章

    1050

    瀏覽量

    43591
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1398

原文標(biāo)題:車載大模型計(jì)算分析:存儲(chǔ)帶寬遠(yuǎn)比算力重要

文章出處:【微信號(hào):zuosiqiche,微信公眾號(hào):佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI Ceph 分布式存儲(chǔ)教程資料大模型學(xué)習(xí)資料2026

    在人工智能的浪潮中,、算法與數(shù)據(jù)被譽(yù)為三駕馬車。然而,隨著大模型(LLM)參數(shù)量突破萬(wàn)億級(jí)別,數(shù)據(jù)集規(guī)模膨脹至 PB 乃至 EB 級(jí)別,傳統(tǒng)的存儲(chǔ)架構(gòu)已難以支撐這場(chǎng)
    發(fā)表于 05-01 17:35

    【PCIe 6.0 連載 · 上篇】64GT/s 時(shí)代來(lái)臨:AI與爆發(fā)下的高速互聯(lián)新基石

    隨著AI大模型訓(xùn)練、云計(jì)算、高性能存儲(chǔ)和異構(gòu)計(jì)算的快速發(fā)展,硬件之間的數(shù)據(jù)傳輸速度,已經(jīng)成為制約整體性能的關(guān)鍵瓶頸。無(wú)論是數(shù)據(jù)中心里的服務(wù)器、加速卡,還是高端
    的頭像 發(fā)表于 04-08 17:34 ?445次閱讀
    【PCIe 6.0 連載 · 上篇】64GT/s 時(shí)代來(lái)臨:AI與<b class='flag-5'>算</b><b class='flag-5'>力</b>爆發(fā)下的高速互聯(lián)新基石

    國(guó)產(chǎn)RK182X協(xié)處理器 + RK3588實(shí)測(cè),大模型“極速流暢”

    是瑞芯微針對(duì)端側(cè)AI大模型推出的協(xié)處理器,它在性能與成本之間取得了出色平衡。它采用先進(jìn)3D堆疊封裝技術(shù),內(nèi)嵌2.5GB/5GB高帶寬DR
    的頭像 發(fā)表于 03-13 11:05 ?611次閱讀
    國(guó)產(chǎn)RK182X<b class='flag-5'>算</b><b class='flag-5'>力</b>協(xié)處理器 + RK3588實(shí)測(cè),大<b class='flag-5'>模型</b>“極速流暢”

    邊緣AI臨界點(diǎn):深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價(jià)值

    、內(nèi)存革命:48GB/96GB LPDDR4X 背后的帶寬博弈 很多開發(fā)者容易陷入唯論的誤區(qū),但在實(shí)際部署大模型時(shí),內(nèi)存容量和帶寬往往是
    發(fā)表于 03-10 14:19

    從數(shù)據(jù)到模型:如何預(yù)測(cè)細(xì)節(jié)距鍵合的剪切?

    在微電子封裝領(lǐng)域,細(xì)節(jié)距鍵合工藝的開發(fā)與質(zhì)量控制面臨著巨大挑戰(zhàn)。工程師們常常需要在缺乏大量破壞性測(cè)試的前提下,快速評(píng)估或預(yù)測(cè)一個(gè)鍵合點(diǎn)的剪切性能。能否根據(jù)焊球的表觀尺寸,通過(guò)一個(gè)可靠的數(shù)學(xué)模型來(lái)
    發(fā)表于 01-08 09:45

    華為榮獲服務(wù)商互聯(lián)能力成熟度模型參編證書

    在2025互聯(lián)網(wǎng)大會(huì)期間,互聯(lián)網(wǎng)服務(wù)論壇在成都成功舉辦。論壇現(xiàn)場(chǎng)舉行了《服務(wù)商互聯(lián)能
    的頭像 發(fā)表于 12-31 11:50 ?853次閱讀

    湘軍,讓變成生產(chǎn)

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    與電力的終極博弈,填上了AIDC的“電力黑洞”

    ),專注于提供人工智能訓(xùn)練與推理所需的服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)。AIDC采用異構(gòu)計(jì)算架構(gòu),結(jié)合GPU、FPGA、ASIC等多種AI加速芯片,形成高并發(fā)分布式系統(tǒng),以滿足大模型訓(xùn)練和推理的極高
    的頭像 發(fā)表于 09-22 02:43 ?9082次閱讀

    不夠、交付太慢?捷智裸金屬租賃對(duì)標(biāo)物理機(jī)性能,讓你立馬用上高!

    2025年國(guó)產(chǎn)大模型升級(jí)帶動(dòng)租賃需求爆發(fā),高性能服務(wù)器“一機(jī)難求”。中研普華預(yù)測(cè),今年我
    的頭像 發(fā)表于 09-12 20:06 ?1551次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>不夠、交付太慢?捷智<b class='flag-5'>算</b>裸金屬租賃對(duì)標(biāo)物理機(jī)<b class='flag-5'>性能</b>,讓你立馬用上高<b class='flag-5'>算</b><b class='flag-5'>力</b>!

    科技上線赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型

    模型輕量化部署方案。用戶通過(guò)遠(yuǎn)程平臺(tái)預(yù)置的模型鏡像與AI工具,僅需50%的GPU即可解
    的頭像 發(fā)表于 07-30 21:44 ?1080次閱讀

    揭秘瑞芯微協(xié)處理器,RK3576/RK3588強(qiáng)大搭檔

    側(cè)部署大模型提供了強(qiáng)有力的支持。下面,就由觸覺(jué)智能從多個(gè)角度,為您解析瑞芯微協(xié)處理器性能特性。Gongga1協(xié)處理器特性先進(jìn)封裝技術(shù),打破端側(cè)部署大
    的頭像 發(fā)表于 07-17 10:00 ?1600次閱讀
    揭秘瑞芯微<b class='flag-5'>算</b><b class='flag-5'>力</b>協(xié)處理器,RK3576/RK3588強(qiáng)大<b class='flag-5'>算</b><b class='flag-5'>力</b>搭檔

    億鑄科技入圍工信部強(qiáng)基揭榜行動(dòng)

    、網(wǎng)絡(luò)、計(jì)算的協(xié)同優(yōu)化,旨在通過(guò)模型加速與調(diào)度加速等創(chuàng)新方法,實(shí)現(xiàn)大規(guī)模異構(gòu)集群在大模型推理場(chǎng)景下的性能躍升,為我國(guó)人工智能產(chǎn)業(yè)提供更具
    的頭像 發(fā)表于 06-30 14:57 ?1244次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理

    前言 【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書中的芯片知識(shí)是比較接近當(dāng)前的頂尖芯片水平的,同時(shí)包含了芯片架構(gòu)的基礎(chǔ)知識(shí),但該部分知識(shí)比較晦澀難懂,或許是由于我一
    發(fā)表于 06-18 19:31

    華為助力互聯(lián)網(wǎng)跨域間無(wú)損互聯(lián)

    近日,NIDA發(fā)布的《工信部首提數(shù)據(jù)通信產(chǎn)業(yè),賦能互聯(lián)網(wǎng)新征程》一文引發(fā)廣泛關(guān)注。文章解讀工信部最新發(fā)布的《互聯(lián)互通行動(dòng)計(jì)劃》,清晰地揭示
    的頭像 發(fā)表于 06-14 11:17 ?1451次閱讀

    網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

    過(guò)程中,由于單個(gè)AI芯片的提升速度無(wú)法跟上模型參數(shù)的增長(zhǎng)速率,再加上龐大的模型參數(shù)和訓(xùn)練數(shù)據(jù),已遠(yuǎn)遠(yuǎn)超出單個(gè)AI芯片甚至單臺(tái)服務(wù)器的能力
    的頭像 發(fā)表于 06-08 08:11 ?7805次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式
    保山市| 白朗县| 九龙坡区| 彩票| 积石山| 新津县| 松江区| 察隅县| 临沂市| 宁明县| 江城| 濮阳县| 区。| 宁城县| 钟祥市| 马关县| 岫岩| 巢湖市| 镇平县| 丹凤县| 安多县| 青铜峡市| 镇宁| 唐海县| 肇东市| 建平县| 桐柏县| 逊克县| 关岭| 米脂县| 新郑市| 朔州市| 武胜县| 北海市| 舟山市| 叙永县| 闵行区| 昭通市| 曲阳县| 东安县| 德阳市|