CPU緩存與內(nèi)存延遲測試,相信大家都有所耳聞,但是GPU同樣的測試卻幾乎沒人做過。
ChipsAndCheese就做了一次特別的測試,對比考察了AMD、NVIDIAGPU架構(gòu)的緩存、顯存遲問題。
首先是AMDRDNA2、NVIDIAAmpere兩家最新架構(gòu)的比拼,代表是RX6900XT、RTX3090,前者在幾乎所有階段都完勝。
RNDA2架構(gòu)創(chuàng)新性地加入了InfinityCache無限緩存,提升帶寬的同時,延遲也可圈可點,二級緩存命中率上只增加了大約20ns的延遲,明顯低于Ampere。
更驚人的是,RDNA2顯存延遲和Ampere幾乎一模一樣,但是別忘了,Ampere只有兩個層級的緩存,RDNA2卻有四個。
Ampere的緩存架構(gòu)更加傳統(tǒng),SM陣列私有一級緩存到二級緩存要增加超過100ns的延遲,RDNA2從零級緩存到二級緩存則只增加了約66ns??雌饋恚珿A102核心面積過大,也直接增加了延遲。
這正好可以解釋AMDRDNA2架構(gòu)在低分辨率下性能、能效更優(yōu)秀,因為二級緩存、三級緩存延遲很低,更適合執(zhí)行較小的負載。Ampere則相反,高負載下優(yōu)勢明顯,比如說4K分辨率。
說完了GPU之間的對比,那么GPU、CPU放在一起怎么樣呢?這里以RX6900XT、Intel四代酷睿i7-4770為例來看看。
CPU的緩存自然不是一個級別的,所以這里Y軸用了線性數(shù)據(jù),可以看到全程大大低于RDNA2,搭配DDR3-1600CL9內(nèi)存延遲只有63ns,RX6900XT、GDDR6的組合則有226ns,另外末級緩存平均延遲分別是53.42ns、123.2ns。
再看看前幾代的NVIDIAGPU,包括Maxwell架構(gòu)的GTX980Ti、Pascal架構(gòu)的GTX1080、Turing架構(gòu)的RTX2060Mobile。
Maxwell、Pascal其實差不多,前者整體略高一些,可能是受制于芯片面積較大、核心頻率較低。
Turing則已經(jīng)有了Ampere的樣子,一級緩存延遲低得多,二級差不多,奇怪的是顯存延遲在32MB之后偏高,原因未知。
AMD考察了TeraScale架構(gòu)的HD5850/6950、GCN架構(gòu)的HD7970,再加上RX6900XT,很明顯在逐代降低,而且是各級緩存都在同時進步。
編輯:jq
-
amd
+關(guān)注
關(guān)注
25文章
5711瀏覽量
140462 -
cpu
+關(guān)注
關(guān)注
68文章
11337瀏覽量
226009 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7349瀏覽量
95058 -
gpu
+關(guān)注
關(guān)注
28文章
5289瀏覽量
136109
發(fā)布評論請先 登錄
如何在 VisionFive v2 上使用外部 GPU?
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
在Python中借助NVIDIA CUDA Tile簡化GPU編程
ADI GMSL技術(shù)兩種視頻數(shù)據(jù)傳輸模式的區(qū)別
AMD Vivado IP integrator的基本功能特性
NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南
兩種散熱路徑的工藝與應(yīng)用解析
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴展新產(chǎn)品
aicube的n卡gpu索引該如何添加?
AMD FPGA異步模式與同步模式的對比
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】+NVlink技術(shù)從應(yīng)用到原理
銣原子鐘與CPT原子鐘:兩種時間標準的區(qū)別
兩種GPU之間的延遲對比 AMD RDNA2完勝NVIDIA安培
評論