日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LLM推理任務(wù)中GPU的選擇策略

新機(jī)器視覺(jué) ? 來(lái)源:知乎 ? 2024-04-07 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

去年十月,美商務(wù)部禁令的出現(xiàn),使中國(guó)客戶無(wú)法使用NVIDIA H100/H200旗艦芯片。一時(shí)間,各種NV存貨、中國(guó)限定卡型、其他廠商N(yùn)PU紛至沓來(lái)。在大模型推理場(chǎng)景中,如何客觀比較不同硬件的能力,成為一大難題,比如:

Q1:輸入輸出都很長(zhǎng),應(yīng)該選H20還是A800?

Q2:高并發(fā)情況下,用L20還是RTX 4090?

最直接的解決方法是,使用SOTA推理服務(wù)框架,對(duì)不同硬件X不同負(fù)載做全面的評(píng)估。但是,大模型任務(wù)推理的負(fù)載變化范圍很大,導(dǎo)致全面評(píng)估耗時(shí)耗力。主要來(lái)源以下幾個(gè)方面:

輸入?yún)?shù)batch size、input sequence length、output sequence length變化多樣。

大模型種類很多,從7B到170B,不同尺寸模型都有。

硬件種類很多。參考許欣然的文章,備選的NVIDIA GPU就有15種,而且還有其他廠商的硬件。

e9017e7e-f35c-11ee-a297-92fbcf53809c.jpg

如何在繁重的benchmark任務(wù)前,對(duì)不同硬件在不同推理任務(wù)上的表現(xiàn)有一個(gè)直觀的認(rèn)識(shí)?為此,我做了一個(gè)簡(jiǎn)單的性能評(píng)估工具LLMRoofline,它使用Roofline模型,不需要運(yùn)行程序,來(lái)簡(jiǎn)單比較不同硬件。

Roofline模型

Roofline模型是一種非常簡(jiǎn)化的性能模型,但可以清晰地展示出應(yīng)用程序的硬件性能極限。

在Roofline模型可以直觀展示一張曲線圖,其中x軸表示AI(Arithmetic Intensity),即每個(gè)內(nèi)存操作對(duì)應(yīng)的浮點(diǎn)運(yùn)算次數(shù);y軸表示性能,通常以每秒浮點(diǎn)運(yùn)算次數(shù)(Tflops)表示。圖中的“屋頂”(Roofline)由兩部分組成:一部分是峰值內(nèi)存帶寬(Memory Bandwidth)限制的斜線,另一部分是峰值計(jì)算性能(Peak Performance)限制的水平線。這兩部分相交的點(diǎn)是應(yīng)用程序從內(nèi)存帶寬受限轉(zhuǎn)變?yōu)?strong>計(jì)算性能受限的轉(zhuǎn)折點(diǎn)。

下圖繪制了多個(gè)不同GPU(包括NVIDIA的A100、H20、A800、L40S、L20和4090)的Roofline模型。如果一個(gè)硬件的屋頂Roof越高,那么它在處理計(jì)算密集型任務(wù)時(shí)的性能更好;如果屋頂?shù)腖ine斜率越高,表示它的HBM帶寬越高,處理訪存密集型任務(wù)時(shí),性能越好。

e90f530a-f35c-11ee-a297-92fbcf53809c.jpg

圖1,不同GPU的Roofline模型

LLM推理性能模型

方法一:全局Roofline模型

基于Roofline模型,可以計(jì)算出不同LLM模型推理任務(wù)的AI。我們用Decode階段的AI來(lái)代表整體推理階段的AI,因?yàn)镻refill階段,是計(jì)算密集的,且在一次推理任務(wù)中只算一次,時(shí)間占比很小。因?yàn)長(zhǎng)LM的Transformers layer數(shù)比較大,所以只考慮Transformers的計(jì)算和訪存,忽略包括Embedding在內(nèi)的前后處理開(kāi)銷。

AI = 總計(jì)算量FLOPS/(總參數(shù)大小+總KVCache大小)

為了簡(jiǎn)化,沒(méi)考慮中間activation的內(nèi)存讀取,因?yàn)樗恼急韧ǔ:苄?,而且可以被FlashAttention之類的Kernel Fusion方法優(yōu)化掉。

總計(jì)算量和參數(shù)量可以參考如下文章,文章中的數(shù)據(jù)還是針對(duì)GPT2的,這里在LLAMA2模型下進(jìn)行一些修改,主要包括取消intermediate_size=4*hidden_size限制,并考慮GQA和MoE等模型結(jié)構(gòu)的優(yōu)化。

這里約定,bs(batch size),in_len(輸入序列長(zhǎng)度,Decoder階段一直是1),kv_len(KVCache長(zhǎng)度),h(hidden_size),i(intermediate_size)。

總計(jì)算量

e91eef0e-f35c-11ee-a297-92fbcf53809c.png

總參數(shù)量

e92da9c2-f35c-11ee-a297-92fbcf53809c.png

KVCache參數(shù)量

e93f2094-f35c-11ee-a297-92fbcf53809c.png

如果使用MoE結(jié)構(gòu),我們計(jì)算參數(shù)時(shí)對(duì)ffn 乘以 #Expert,計(jì)算量對(duì)ffn乘以topk。

有了任務(wù)的AI,可以在圖1中,min(peak_flops, ai * bandwidth)查找對(duì)應(yīng)位置的Tflops性能,從而比較兩個(gè)硬件上該任務(wù)的性能優(yōu)劣。

使用多卡Tensor Parallel并行,分子分母都近似除以GPU數(shù)目,因此AI幾乎不變。使用FP8會(huì)增加Roof高度,但是Line的斜率不變。

方法二:算子Roofline模型

上述方法還是將整個(gè)Transformers看成整體算出AI,還可以對(duì)Decoder中每一個(gè)算子算出它的AI,然后使用Roofline模型計(jì)算該算子的延遲。計(jì)算算子的AI可以考慮Activation的讀寫開(kāi)銷,相比方法一訪存計(jì)算會(huì)更加精確。

我找到了一個(gè)現(xiàn)成的項(xiàng)目LLM-Viewer做了上述計(jì)算,該項(xiàng)目也是剛發(fā)布不久。

https://github.com/hahnyuan/LLM-Viewergithub.com/hahnyuan/LLM-Viewer

值得注意的是,目前無(wú)論方法一還是方法二都無(wú)法精確估計(jì)運(yùn)行的延遲。比如,我們用LLM-Viewer估計(jì)A100的延遲,并和TensorRT-LLM的數(shù)據(jù)對(duì)比,可見(jiàn)最后兩列差距還是比較大的。因?yàn)镽oofline模型只能估計(jì)性能上限,并不是實(shí)際的性能。

Model Batch Size Input Length Output Length TRT-LLM
Throughput (token/sec)
LLM-Viewer
Throughput
(token/sec)
LLaMA 7B 256 128 128 5,353 8,934
LLaMA 7B 32 128 2048 1,518 2,796
LLaMA 7B 32 2048 128 547 788
LLaMA 7B 16 2048 2048 613 1,169

但是,應(yīng)該可以基于LLM-Viewer的數(shù)據(jù)進(jìn)行一些擬合來(lái)精確估計(jì)不同GPU的性能,不過(guò)據(jù)我了解還沒(méi)有對(duì)LLM做精確Performance Model的工作。

效果

LLMRoofline可以使用上述兩種方式比較不同硬件的性能。它會(huì)畫出一個(gè)Mesh,橫軸時(shí)序列長(zhǎng)度(可以看成生成任務(wù)的平均KVCache length),縱軸時(shí)Batch Size。

比如,我們比較NVIDIA H20 rumors和A100在推理任務(wù)上的差異。這兩款芯片一個(gè)帶寬很高4TBps vs 2 TBps,一個(gè)峰值性能高 312 Tflops vs 148 Flops。

使用LLAMA2 13B時(shí),左圖是方法二、右圖是方法一的A100/H20的比較結(jié)果,大于1表示有優(yōu)勢(shì)。兩張圖有差異,但是分布近似。A100比H20的優(yōu)勢(shì)區(qū)域在網(wǎng)格的左上角。當(dāng)序列長(zhǎng)度越短、Batch Size越大,A100相比H20越有優(yōu)勢(shì)。這是因?yàn)?,此時(shí)任務(wù)更偏計(jì)算密集型的,A100的峰值性能相比H20更具優(yōu)勢(shì)。

借助性能模型,我們可以澄清一些誤解。例如,有人可能會(huì)認(rèn)為在H20上增大Batch Size會(huì)使任務(wù)變得更加計(jì)算密集,且由于H20的計(jì)算能力非常低,因此增大Batch Size是無(wú)效的。這里忽略了序列長(zhǎng)度對(duì)AI的影響,對(duì)于處理長(zhǎng)序列的任務(wù)來(lái)說(shuō),任務(wù)一直是訪存密集的,增大Batch Size仍然是一種有效的優(yōu)化策略。

e94d397c-f35c-11ee-a297-92fbcf53809c.jpg

當(dāng)使用LLAMA2 70B時(shí),A100相比H20優(yōu)勢(shì)區(qū)域擴(kuò)大。這是因?yàn)長(zhǎng)LAMA2 13B沒(méi)有用GQA,但LLAMA2 70B用了GQA,這讓推理任務(wù)更偏計(jì)算密集,對(duì)A100更有利。

e95ab11a-f35c-11ee-a297-92fbcf53809c.jpg

當(dāng)使用Mistral 7B時(shí),LLM-Viewer目前還沒(méi)有登記模型信息,我們只有方法一的結(jié)果,A100相比H20的優(yōu)勢(shì)區(qū)域相比13B縮小。這說(shuō)明hidden size越大,越偏計(jì)算密集。

e9677288-f35c-11ee-a297-92fbcf53809c.jpg

Mixtral 8X7B時(shí),可見(jiàn)A100相比H20一致保持劣勢(shì),說(shuō)明MoE把推理任務(wù)推向訪存密集的深淵,H20的帶寬優(yōu)勢(shì)發(fā)揮明顯作用。

e97304ae-f35c-11ee-a297-92fbcf53809c.jpg

通過(guò)使用 LLMRoofline,我們能夠制作出許多兩個(gè)硬件比較的 Mesh,從而清晰地觀察到一些類似上述的簡(jiǎn)單結(jié)論。

總結(jié)

大模型推理任務(wù)的復(fù)雜性和多變性使得對(duì)不同型號(hào)GPU的適用范圍的理解變得尤為重要。為了幫助大家直觀地感知這些差異,本文介紹了一款名為L(zhǎng)LMRoofline的性能分析工具。該工具采用Roofline模型,能夠直觀地對(duì)比不同硬件的性能和適用范圍。具體而言,影響硬件選擇的因素包括任務(wù)的序列長(zhǎng)度、批處理大?。˙atch Size),以及是否使用了MoE/GQA等優(yōu)化技巧,它們相互作用可以在LLMRoofline中得到體現(xiàn)。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110142
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136105
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1397

原文標(biāo)題:如何為L(zhǎng)LM推理任務(wù)選擇正確的GPU

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    DeepSeek R1 MTP在TensorRT-LLM的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4735次閱讀
    DeepSeek R1 MTP在TensorRT-<b class='flag-5'>LLM</b><b class='flag-5'>中</b>的實(shí)現(xiàn)與優(yōu)化

    對(duì)比解碼在LLM上的應(yīng)用

    為了改進(jìn)LLM推理能力,University of California聯(lián)合Meta AI實(shí)驗(yàn)室提出將Contrastive Decoding應(yīng)用于多種任務(wù)LLM方法。實(shí)驗(yàn)表明,所
    發(fā)表于 09-21 11:37 ?1290次閱讀
    對(duì)比解碼在<b class='flag-5'>LLM</b>上的應(yīng)用

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2472次閱讀

    【飛凌嵌入式OK3576-C開(kāi)發(fā)板體驗(yàn)】rkllm板端推理

    交叉編譯 在完成模型的量化構(gòu)建后,就能夠在目標(biāo)硬件平臺(tái)OK3576上實(shí)現(xiàn)模型的推理功能了。 板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄,該
    發(fā)表于 08-31 22:45

    充分利用Arm NN進(jìn)行GPU推理

    Tuner之前(上圖)和啟用OpenCL Tuner之后(下圖)的流線型捕獲。關(guān)注GPU使用率部分的非碎片隊(duì)列活動(dòng)(橙色曲線),突出顯示的間隔顯示GPU上ML推理過(guò)程的開(kāi)始和結(jié)束。
    發(fā)表于 04-11 17:33

    如何利用LLM做多模態(tài)任務(wù)?

    大型語(yǔ)言模型LLM(Large Language Model)具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開(kāi)放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)。因此,現(xiàn)階段,如何利用
    的頭像 發(fā)表于 05-11 17:09 ?1820次閱讀
    如何利用<b class='flag-5'>LLM</b>做多模態(tài)<b class='flag-5'>任務(wù)</b>?

    LLM在各種情感分析任務(wù)的表現(xiàn)如何

    地址 :https://arxiv.org/pdf/2305.15005.pdf 代碼 :https://github.com/DAMO-NLP-SG/LLM-Sentiment 這篇工作調(diào)查了LLM時(shí)代情感分析的研究現(xiàn)狀,旨在幫助SA研究者們解決以下困惑:
    的頭像 發(fā)表于 05-29 17:24 ?3632次閱讀
    <b class='flag-5'>LLM</b>在各種情感分析<b class='flag-5'>任務(wù)</b><b class='flag-5'>中</b>的表現(xiàn)如何

    Hugging Face LLM部署大語(yǔ)言模型到亞馬遜云科技Amazon SageMaker推理示例

    ?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開(kāi)源LLMs,比如BLOOM大型語(yǔ)言模型部署到亞馬遜云科技Amazon SageMaker進(jìn)行推理的示例。我們將部署12B
    的頭像 發(fā)表于 11-01 17:48 ?2007次閱讀
    Hugging Face <b class='flag-5'>LLM</b>部署大語(yǔ)言模型到亞馬遜云科技Amazon SageMaker<b class='flag-5'>推理</b>示例

    怎樣使用Accelerate庫(kù)在多GPU上進(jìn)行LLM推理呢?

    大型語(yǔ)言模型(llm)已經(jīng)徹底改變了自然語(yǔ)言處理領(lǐng)域。隨著這些模型在規(guī)模和復(fù)雜性上的增長(zhǎng),推理的計(jì)算需求也顯著增加。
    的頭像 發(fā)表于 12-01 10:24 ?2585次閱讀
    怎樣使用Accelerate庫(kù)在多<b class='flag-5'>GPU</b>上進(jìn)行<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>呢?

    如何利用OpenVINO加速LangChainLLM任務(wù)

    (RAG)任務(wù),LangChain 可以根據(jù)問(wèn)題從已有的知識(shí)庫(kù)中進(jìn)行檢索,并將原始的檢索結(jié)果和問(wèn)題一并包裝為Prompt提示送入 LLM ,以此獲得更加貼近問(wèn)題需求的答案。
    的頭像 發(fā)表于 12-05 09:58 ?1468次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理
    的頭像 發(fā)表于 07-24 11:38 ?3466次閱讀

    基于Arm平臺(tái)的服務(wù)器CPU在LLM推理方面的能力

    部署任務(wù)的默認(rèn)首選平臺(tái)。但在推理領(lǐng)域,除了 GPU 和加速器之外,還有其他可行的選擇。長(zhǎng)期以來(lái),CPU 一直被用于傳統(tǒng)的 AI 和機(jī)器學(xué)習(xí) (ML) 用例,由于 CPU 能夠處理廣泛多
    的頭像 發(fā)表于 09-02 10:39 ?1568次閱讀
    基于Arm平臺(tái)的服務(wù)器CPU在<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>方面的能力

    新品| LLM630 Compute Kit,AI 大語(yǔ)言模型推理開(kāi)發(fā)平臺(tái)

    處理器,集成了3.2TOPs@INT8算力的高能效NPU,提供強(qiáng)大的AI推理能力,能夠高效執(zhí)行復(fù)雜的視覺(jué)(CV)及大語(yǔ)言模型(LLM)任務(wù),滿足各類智能應(yīng)用場(chǎng)景的需求
    的頭像 發(fā)表于 01-17 18:48 ?1581次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語(yǔ)言模型<b class='flag-5'>推理</b>開(kāi)發(fā)平臺(tái)

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語(yǔ)言模型(LLM)的推理能力成了最熱門的話題之一,大量?jī)?yōu)化推理能力的新策略開(kāi)始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)
    的頭像 發(fā)表于 04-03 12:09 ?1817次閱讀
    詳解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理</b>模型的現(xiàn)狀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?1462次閱讀
    南昌县| 太和县| 连平县| 青浦区| 克什克腾旗| 富蕴县| 军事| 天等县| 丰顺县| 舞阳县| 伊通| 东源县| 荔浦县| 安吉县| 青铜峡市| 新化县| 河南省| 颍上县| 正安县| 徐州市| 泗阳县| 明水县| 巢湖市| 五家渠市| 华池县| 大名县| 宜兴市| 潞城市| 永丰县| 库尔勒市| 阿合奇县| 商洛市| 桦南县| 叙永县| 惠安县| 昌邑市| 景德镇市| 固原市| 邵阳市| 象山县| 会宁县|