青娱乐国产,玖玖一区二区三区四区,岛国福利在线

去年十月，美商務(wù)部禁令的出現(xiàn)，使中國(guó)客戶無(wú)法使用NVIDIA H100/H200旗艦芯片。一時(shí)間，各種NV存貨、中國(guó)限定卡型、其他廠商N(yùn)PU紛至沓來(lái)。在大模型推理場(chǎng)景中，如何客觀比較不同硬件的能力，成為一大難題，比如：

Q1：輸入輸出都很長(zhǎng)，應(yīng)該選H20還是A800？

Q2：高并發(fā)情況下，用L20還是RTX 4090？

最直接的解決方法是，使用SOTA推理服務(wù)框架，對(duì)不同硬件X不同負(fù)載做全面的評(píng)估。但是，大模型任務(wù)推理的負(fù)載變化范圍很大，導(dǎo)致全面評(píng)估耗時(shí)耗力。主要來(lái)源以下幾個(gè)方面：

輸入?yún)?shù)batch size、input sequence length、output sequence length變化多樣。

大模型種類很多，從7B到170B，不同尺寸模型都有。

硬件種類很多。參考許欣然的文章，備選的NVIDIA GPU就有15種，而且還有其他廠商的硬件。

如何在繁重的benchmark任務(wù)前，對(duì)不同硬件在不同推理任務(wù)上的表現(xiàn)有一個(gè)直觀的認(rèn)識(shí)？為此，我做了一個(gè)簡(jiǎn)單的性能評(píng)估工具LLMRoofline，它使用Roofline模型，不需要運(yùn)行程序，來(lái)簡(jiǎn)單比較不同硬件。

Roofline模型

Roofline模型是一種非常簡(jiǎn)化的性能模型，但可以清晰地展示出應(yīng)用程序的硬件性能極限。

在Roofline模型可以直觀展示一張曲線圖，其中x軸表示AI（Arithmetic Intensity），即每個(gè)內(nèi)存操作對(duì)應(yīng)的浮點(diǎn)運(yùn)算次數(shù)；y軸表示性能，通常以每秒浮點(diǎn)運(yùn)算次數(shù)（Tflops）表示。圖中的“屋頂”（Roofline）由兩部分組成：一部分是峰值內(nèi)存帶寬（Memory Bandwidth）限制的斜線，另一部分是峰值計(jì)算性能（Peak Performance）限制的水平線。這兩部分相交的點(diǎn)是應(yīng)用程序從內(nèi)存帶寬受限轉(zhuǎn)變?yōu)?strong>計(jì)算性能受限的轉(zhuǎn)折點(diǎn)。

下圖繪制了多個(gè)不同GPU（包括NVIDIA的A100、H20、A800、L40S、L20和4090）的Roofline模型。如果一個(gè)硬件的屋頂Roof越高，那么它在處理計(jì)算密集型任務(wù)時(shí)的性能更好；如果屋頂?shù)腖ine斜率越高，表示它的HBM帶寬越高，處理訪存密集型任務(wù)時(shí)，性能越好。

圖1，不同GPU的Roofline模型

LLM推理性能模型

方法一：全局Roofline模型

基于Roofline模型，可以計(jì)算出不同LLM模型推理任務(wù)的AI。我們用Decode階段的AI來(lái)代表整體推理階段的AI，因?yàn)镻refill階段，是計(jì)算密集的，且在一次推理任務(wù)中只算一次，時(shí)間占比很小。因?yàn)長(zhǎng)LM的Transformers layer數(shù)比較大，所以只考慮Transformers的計(jì)算和訪存，忽略包括Embedding在內(nèi)的前后處理開(kāi)銷。

AI = 總計(jì)算量FLOPS/(總參數(shù)大小+總KVCache大小)

為了簡(jiǎn)化，沒(méi)考慮中間activation的內(nèi)存讀取，因?yàn)樗恼急韧ǔ：苄?，而且可以被FlashAttention之類的Kernel Fusion方法優(yōu)化掉。

總計(jì)算量和參數(shù)量可以參考如下文章，文章中的數(shù)據(jù)還是針對(duì)GPT2的，這里在LLAMA2模型下進(jìn)行一些修改，主要包括取消intermediate_size=4*hidden_size限制，并考慮GQA和MoE等模型結(jié)構(gòu)的優(yōu)化。

這里約定，bs（batch size），in_len（輸入序列長(zhǎng)度，Decoder階段一直是1），kv_len（KVCache長(zhǎng)度），h（hidden_size），i（intermediate_size）。

總計(jì)算量

總參數(shù)量

KVCache參數(shù)量

如果使用MoE結(jié)構(gòu)，我們計(jì)算參數(shù)時(shí)對(duì)ffn 乘以 #Expert，計(jì)算量對(duì)ffn乘以topk。

有了任務(wù)的AI，可以在圖1中，min(peak_flops, ai * bandwidth)查找對(duì)應(yīng)位置的Tflops性能，從而比較兩個(gè)硬件上該任務(wù)的性能優(yōu)劣。

使用多卡Tensor Parallel并行，分子分母都近似除以GPU數(shù)目，因此AI幾乎不變。使用FP8會(huì)增加Roof高度，但是Line的斜率不變。

方法二：算子Roofline模型

上述方法還是將整個(gè)Transformers看成整體算出AI，還可以對(duì)Decoder中每一個(gè)算子算出它的AI，然后使用Roofline模型計(jì)算該算子的延遲。計(jì)算算子的AI可以考慮Activation的讀寫開(kāi)銷，相比方法一訪存計(jì)算會(huì)更加精確。

我找到了一個(gè)現(xiàn)成的項(xiàng)目LLM-Viewer做了上述計(jì)算，該項(xiàng)目也是剛發(fā)布不久。

https://github.com/hahnyuan/LLM-Viewergithub.com/hahnyuan/LLM-Viewer

值得注意的是，目前無(wú)論方法一還是方法二都無(wú)法精確估計(jì)運(yùn)行的延遲。比如，我們用LLM-Viewer估計(jì)A100的延遲，并和TensorRT-LLM的數(shù)據(jù)對(duì)比，可見(jiàn)最后兩列差距還是比較大的。因?yàn)镽oofline模型只能估計(jì)性能上限，并不是實(shí)際的性能。

Model	Batch Size	Input Length	Output Length	TRT-LLM Throughput (token/sec)	LLM-Viewer Throughput (token/sec)
LLaMA 7B	256	128	128	5,353	8,934
LLaMA 7B	32	128	2048	1,518	2,796
LLaMA 7B	32	2048	128	547	788
LLaMA 7B	16	2048	2048	613	1,169

但是，應(yīng)該可以基于LLM-Viewer的數(shù)據(jù)進(jìn)行一些擬合來(lái)精確估計(jì)不同GPU的性能，不過(guò)據(jù)我了解還沒(méi)有對(duì)LLM做精確Performance Model的工作。

效果

LLMRoofline可以使用上述兩種方式比較不同硬件的性能。它會(huì)畫出一個(gè)Mesh，橫軸時(shí)序列長(zhǎng)度（可以看成生成任務(wù)的平均KVCache length），縱軸時(shí)Batch Size。

比如，我們比較NVIDIA H20 rumors和A100在推理任務(wù)上的差異。這兩款芯片一個(gè)帶寬很高4TBps vs 2 TBps，一個(gè)峰值性能高 312 Tflops vs 148 Flops。

使用LLAMA2 13B時(shí)，左圖是方法二、右圖是方法一的A100/H20的比較結(jié)果，大于1表示有優(yōu)勢(shì)。兩張圖有差異，但是分布近似。A100比H20的優(yōu)勢(shì)區(qū)域在網(wǎng)格的左上角。當(dāng)序列長(zhǎng)度越短、Batch Size越大，A100相比H20越有優(yōu)勢(shì)。這是因?yàn)?，此時(shí)任務(wù)更偏計(jì)算密集型的，A100的峰值性能相比H20更具優(yōu)勢(shì)。

借助性能模型，我們可以澄清一些誤解。例如，有人可能會(huì)認(rèn)為在H20上增大Batch Size會(huì)使任務(wù)變得更加計(jì)算密集，且由于H20的計(jì)算能力非常低，因此增大Batch Size是無(wú)效的。這里忽略了序列長(zhǎng)度對(duì)AI的影響，對(duì)于處理長(zhǎng)序列的任務(wù)來(lái)說(shuō)，任務(wù)一直是訪存密集的，增大Batch Size仍然是一種有效的優(yōu)化策略。

當(dāng)使用LLAMA2 70B時(shí)，A100相比H20優(yōu)勢(shì)區(qū)域擴(kuò)大。這是因?yàn)長(zhǎng)LAMA2 13B沒(méi)有用GQA，但LLAMA2 70B用了GQA，這讓推理任務(wù)更偏計(jì)算密集，對(duì)A100更有利。

當(dāng)使用Mistral 7B時(shí)，LLM-Viewer目前還沒(méi)有登記模型信息，我們只有方法一的結(jié)果，A100相比H20的優(yōu)勢(shì)區(qū)域相比13B縮小。這說(shuō)明hidden size越大，越偏計(jì)算密集。

Mixtral 8X7B時(shí)，可見(jiàn)A100相比H20一致保持劣勢(shì)，說(shuō)明MoE把推理任務(wù)推向訪存密集的深淵，H20的帶寬優(yōu)勢(shì)發(fā)揮明顯作用。

通過(guò)使用 LLMRoofline，我們能夠制作出許多兩個(gè)硬件比較的 Mesh，從而清晰地觀察到一些類似上述的簡(jiǎn)單結(jié)論。

總結(jié)

大模型推理任務(wù)的復(fù)雜性和多變性使得對(duì)不同型號(hào)GPU的適用范圍的理解變得尤為重要。為了幫助大家直觀地感知這些差異，本文介紹了一款名為L(zhǎng)LMRoofline的性能分析工具。該工具采用Roofline模型，能夠直觀地對(duì)比不同硬件的性能和適用范圍。具體而言，影響硬件選擇的因素包括任務(wù)的序列長(zhǎng)度、批處理大?。˙atch Size），以及是否使用了MoE/GQA等優(yōu)化技巧，它們相互作用可以在LLMRoofline中得到體現(xiàn)。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴