日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

兩種GPU之間的延遲對比 AMD RDNA2完勝NVIDIA安培

ss ? 來源:快科技 ? 作者:快科技 ? 2021-04-21 13:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CPU緩存與內(nèi)存延遲測試,相信大家都有所耳聞,但是GPU同樣的測試卻幾乎沒人做過。

ChipsAndCheese就做了一次特別的測試,對比考察了AMD、NVIDIAGPU架構(gòu)的緩存、顯存遲問題。

首先是AMDRDNA2、NVIDIAAmpere兩家最新架構(gòu)的比拼,代表是RX6900XT、RTX3090,前者在幾乎所有階段都完勝。

RNDA2架構(gòu)創(chuàng)新性地加入了InfinityCache無限緩存,提升帶寬的同時,延遲也可圈可點,二級緩存命中率上只增加了大約20ns的延遲,明顯低于Ampere。

更驚人的是,RDNA2顯存延遲和Ampere幾乎一模一樣,但是別忘了,Ampere只有兩個層級的緩存,RDNA2卻有四個。

Ampere的緩存架構(gòu)更加傳統(tǒng),SM陣列私有一級緩存到二級緩存要增加超過100ns的延遲,RDNA2從零級緩存到二級緩存則只增加了約66ns??雌饋恚珿A102核心面積過大,也直接增加了延遲。

這正好可以解釋AMDRDNA2架構(gòu)在低分辨率下性能、能效更優(yōu)秀,因為二級緩存、三級緩存延遲很低,更適合執(zhí)行較小的負載。Ampere則相反,高負載下優(yōu)勢明顯,比如說4K分辨率。

說完了GPU之間的對比,那么GPU、CPU放在一起怎么樣呢?這里以RX6900XT、Intel四代酷睿i7-4770為例來看看。

CPU的緩存自然不是一個級別的,所以這里Y軸用了線性數(shù)據(jù),可以看到全程大大低于RDNA2,搭配DDR3-1600CL9內(nèi)存延遲只有63ns,RX6900XT、GDDR6的組合則有226ns,另外末級緩存平均延遲分別是53.42ns、123.2ns。

再看看前幾代的NVIDIAGPU,包括Maxwell架構(gòu)的GTX980Ti、Pascal架構(gòu)的GTX1080、Turing架構(gòu)的RTX2060Mobile。

Maxwell、Pascal其實差不多,前者整體略高一些,可能是受制于芯片面積較大、核心頻率較低。

Turing則已經(jīng)有了Ampere的樣子,一級緩存延遲低得多,二級差不多,奇怪的是顯存延遲在32MB之后偏高,原因未知。

AMD考察了TeraScale架構(gòu)的HD5850/6950、GCN架構(gòu)的HD7970,再加上RX6900XT,很明顯在逐代降低,而且是各級緩存都在同時進步。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5711

    瀏覽量

    140462
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11337

    瀏覽量

    226009
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95058
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5289

    瀏覽量

    136109
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    如何在 VisionFive v2 上使用外部 GPU?

    如果舊的 amd gpu 在 VisionFive V2 上運行,我想使用帶有開源 amd 驅(qū)動程序的 amd
    發(fā)表于 03-13 06:38

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的
    的頭像 發(fā)表于 02-10 10:31 ?558次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級迭代產(chǎn)品,其各項核心指標均針對 GPU 加速工作流的高性能
    的頭像 發(fā)表于 01-06 09:51 ?4375次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評測

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來 GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用
    的頭像 發(fā)表于 12-13 10:12 ?1482次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile簡化<b class='flag-5'>GPU</b>編程

    ADI GMSL技術(shù)兩種視頻數(shù)據(jù)傳輸模式的區(qū)別

    本文深入介紹GMSL技術(shù),重點說明用于視頻數(shù)據(jù)傳輸?shù)南袼啬J胶退淼滥J?b class='flag-5'>之間的差異。文章將闡明這兩種模式之間的主要區(qū)別,并探討成功實施需要注意的具體事項。
    的頭像 發(fā)表于 10-10 13:49 ?2684次閱讀
    ADI GMSL技術(shù)<b class='flag-5'>兩種</b>視頻數(shù)據(jù)傳輸模式的區(qū)別

    AMD Vivado IP integrator的基本功能特性

    我們還將帶您了解在 AMD Zynq UltraScale+ MPSoC 開發(fā)板與 AMD Versal 自適應(yīng) SoC 開發(fā)板上使用 IP integrator 時,兩種設(shè)計流程之間
    的頭像 發(fā)表于 10-07 13:02 ?2357次閱讀
    <b class='flag-5'>AMD</b> Vivado IP integrator的基本功能特性

    NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南

    NVIDIA Isaac Lab 是一個適用于機器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動的物理仿真,縮小仿真與現(xiàn)實世
    的頭像 發(fā)表于 09-23 17:15 ?2663次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多節(jié)點訓(xùn)練指南

    兩種散熱路徑的工藝與應(yīng)用解析

    背景:兩種常見的散熱設(shè)計思路 在大電流或高功率器件應(yīng)用中,散熱和載流能力是PCB設(shè)計中必須解決的難題。常見的兩種思路分別是: 厚銅板方案:通過整體增加銅箔厚度(如3oz、6oz甚至更高),增強導(dǎo)熱
    的頭像 發(fā)表于 09-15 14:50 ?991次閱讀

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?4446次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測試分析

    NVIDIA桌面GPU系列擴展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?1684次閱讀

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認的gpu0,顯示不了gpu1
    發(fā)表于 07-25 08:18

    AMD FPGA異步模式與同步模式的對比

    本文講述了AMD UltraScale /UltraScale+ FPGA 原生模式下,異步模式與同步模式的對比及其對時鐘設(shè)置的影響。
    的頭像 發(fā)表于 07-07 13:47 ?1824次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 G
    的頭像 發(fā)表于 07-02 19:31 ?3634次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell <b class='flag-5'>GPU</b>優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小<b class='flag-5'>延遲</b>場景中的性能紀錄

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】+NVlink技術(shù)從應(yīng)用到原理

    兩種結(jié)構(gòu): ①GPU-GPU ②CPU-GPU 這是書中介紹的一個包括了個完全通過NVlink連接的8 GPU混合立方網(wǎng)狀拓撲結(jié)構(gòu): N
    發(fā)表于 06-18 19:31

    銣原子鐘與CPT原子鐘:兩種時間標準的區(qū)別

    在物理學(xué)的世界中,精密的時間測量是至關(guān)重要的。這就需要一個高度準確且穩(wěn)定的時間標準,這就是原子鐘。今天我們將探討兩種重要的原子鐘:銣原子鐘和CPT原子鐘,以及它們之間的主要區(qū)別。首先,我們來了解一下
    的頭像 發(fā)表于 05-22 15:49 ?923次閱讀
    銣原子鐘與CPT原子鐘:<b class='flag-5'>兩種</b>時間標準的區(qū)別
    北辰区| 凤庆县| 泰顺县| 清丰县| 呼伦贝尔市| 克山县| 稷山县| 临武县| 武山县| 蕉岭县| 洞头县| 岳普湖县| 宝应县| 托克托县| 达拉特旗| 通山县| 特克斯县| 桂林市| 阿荣旗| 库尔勒市| 鄂州市| 长治市| 曲周县| 辉南县| 革吉县| 纳雍县| 台中市| 鄂托克前旗| 金坛市| 武强县| 垫江县| 刚察县| 郴州市| 靖州| 栖霞市| 崇礼县| 黎川县| 凌源市| 泽普县| 当涂县| 东方市|