日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Ampere架構(gòu)解析:相比上一代做了哪些提升

工程師鄧生 ? 來源:中關(guān)村在線 ? 作者:曲楠 ? 2020-12-11 17:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

持續(xù)了一個月的“顯卡發(fā)布季”已經(jīng)告一段落,截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個型號的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升,新的NVIDIA Ampere架構(gòu)還帶來了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價格卻與上一代顯卡相同。

在9月2日發(fā)布會當天,雖然過程僅有短短的40分鐘,卻震驚了全世界的用戶。

算力提升

下面我們就來看看,“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu),做了哪些提升。

第一代RTX架構(gòu)Turing

第二代RTX架構(gòu) Ampere

首先來簡單回顧一下在9月2日發(fā)布會的PPT上我們都看到了什么,相較于初代的Turing RTX架構(gòu),NVIDIA Ampere架構(gòu)在算力上有著成倍的增長,每個時鐘執(zhí)行2次著色器運算。

而Turing為1次,著色器性能達到30 TFLOPS單精度性能,而Turing為11 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量,RT Core達到58 RT TFLOPS,而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中,可自動識別并消除不太重要的DNN權(quán)重,處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來自美光的GDDR6X顯存,以及我們上面說的,三大處理核心均為初代Turing的兩倍速率,構(gòu)成了有史以來性能最強大的Ampere。

SM單元的改變

而NVIDIA Ampere架構(gòu)的強大性能并不是NVIDIA一蹴而就,可以說在20系顯卡中所采用的Turing架構(gòu)功不可沒,下面我們先來看看完整的GA102核心。

完整的GA102 GPU包含7個GPC(圖形處理集群)42個TPC(紋理處理集群)以及84個SM(流處理器)組成。

GPC是占據(jù)主導地位的高級模塊,擁有所有的關(guān)鍵圖形處理單元,每個GPC包含一個專用光柵引擎。

在新的NVIDIA Ampere架構(gòu)中,每個GPC還包含了兩個ROP分區(qū),每個分區(qū)包含8個ROP單元。下面我們來看看每個SM單元的變化。

在每個SM中,包含四個大的處理分區(qū)共128個CUDA核心,4個第三代Tensor Core,1個第二代RT Core,1個256 KB的緩存文件,1個128 KB的L1緩存,這個L1緩存可以根據(jù)不同的工作需求來調(diào)配緩存,工作效率發(fā)揮至最大。

另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個,而RTX 3090的CUDA數(shù)量更是達到了驚人的10496個。

但是大家要知道專業(yè)計算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數(shù)量,理論上只有8192個CUDA,那RTX 3080又是如何達到這種效果的呢?

其實是因為本次NVIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數(shù)量提高了一倍。

我們在發(fā)布會中經(jīng)常聽到性能翻倍的說法,其實是因為本次NVIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數(shù)量提高了一倍,同時吞吐量也就變?yōu)榱艘槐丁?/p>

而通常我們計算顯卡的CUDA數(shù)量,并不是把SM中的所有單元加起來計數(shù),而是只統(tǒng)計FP32單元的數(shù)量,所以這樣一來,SM中的【FP32 : INT32】 從 1:1 變?yōu)?2:1。

如RTX 3080的8704個CUDA,其實它只有4352個INT32單元,但由于內(nèi)部的FP32數(shù)量翻了一倍,所以最終實現(xiàn)了8704這個驚人的數(shù)字。

而這樣粗暴的提升CUDA數(shù)量對于游戲有幫助嗎?

答案是有,不僅有提升還很大。其實通常在游戲中浮點運算相比整數(shù)計算要常用的多,圖形、算法以及各種計算操作中著色器工作負載通常需要混合使用FP32算數(shù)指令,而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構(gòu)中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,著色器發(fā)出光線追蹤的請求,交給RT Core來處理,它將進行兩種測試,分別為邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing)。

基于BVH算法來判斷,如果是方形,那么就返回縮小范圍繼續(xù)測試,如果是三角形,則反饋結(jié)果進行渲染。

而光線追蹤最耗時的正是求交計算,因此,要提升光線追蹤性能,主要是對兩種求交(BVH/三角形求交)進行加速。

在Turing的RT Core中,可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊,這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時進行,進行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動態(tài)模糊的影像時,按照NVIDIA自己的實測,比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強化,Ampere架構(gòu)的Tensor Core也得到了極大地加強,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動識別并消除不太重要的DNN(深度神經(jīng)網(wǎng)絡(luò))權(quán)重,同時依然能保持不錯的精度。

首先原始的密集矩陣會經(jīng)過訓練,刪除掉稀疏矩陣,再經(jīng)過訓練稀疏矩陣,從而實現(xiàn)稀疏優(yōu)化,進而提高Tensor Core的性能。

所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發(fā)布的還有一項新技術(shù)——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間,對于存儲空間的負擔暫且不提,但存放在硬盤中的數(shù)據(jù),如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過的數(shù)據(jù),經(jīng)過解壓縮再發(fā)送到顯存中。

雖然隨著NVMe SSD的推出,讀取速度相較機械硬盤能夠快20倍,但受制于傳統(tǒng)I/O限制,NVMe高達7GB/秒的高速讀寫對于CPU是極大的負擔。

在這個過程中,會占用多個CPU核心,壓力急劇增大,占用較多的內(nèi)存,而此時其實GPU是處于閑置狀態(tài)的。

RTX IO的作用就是越過CPU解壓再傳輸數(shù)據(jù)這一步,直接從PCIE總線讀取硬盤上經(jīng)過壓縮的數(shù)據(jù),并且完成解壓,降低CPU占用,變向提升了性能。

當然這項技術(shù)作為系統(tǒng)底層的運行方式改變,還需要借助微軟發(fā)布的DirectStorage來實現(xiàn),對于目前容量的游戲來說,RTX IO的改善效果有限,但假以時日等游戲容量上百G成為常態(tài)的時候,這項技術(shù)將會發(fā)揮巨大的功效。

最快的顯存

在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。

這對于需要大量數(shù)據(jù)負載的工作尤為重要,如光線追蹤的游戲、AI學習和8K視頻渲染。

同時搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后,會有玩家會問,RTX 20系顯卡如此“短壽”算不算失敗的一代,我認為不算。

Turing為我們開創(chuàng)了光線追蹤和AI學習的新世界,奠定了GPU未來的發(fā)展方向,真正意義上實現(xiàn)從性能的堆砌到質(zhì)的改變。

而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實。

責任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110143
  • 顯卡
    +關(guān)注

    關(guān)注

    17

    文章

    2523

    瀏覽量

    71730
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    537

    瀏覽量

    26646
  • Ampere
    +關(guān)注

    關(guān)注

    1

    文章

    81

    瀏覽量

    4915
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    TI 攜手 NVIDIA 推出面向下一代 AI 數(shù)據(jù)中心的完整 800 VDC 電源架構(gòu)

    與可靠性。 ? 新聞亮點: ●? TI 與 ?NVIDIA 合作, 為下一代 AI 數(shù)據(jù)中心開發(fā)了完整的 800 VDC 電源解決方案。 ●? 作為此次合作的部分, TI 展示了
    的頭像 發(fā)表于 03-20 14:23 ?2.7w次閱讀
    TI 攜手 <b class='flag-5'>NVIDIA</b> 推出面向下<b class='flag-5'>一代</b> AI 數(shù)據(jù)中心的完整 800 VDC 電源<b class='flag-5'>架構(gòu)</b>

    NVIDIA推出BlueField-4 STX存儲架構(gòu)

    NVIDIA 今日宣布推出 NVIDIA BlueField-4? STX 模塊化參考架構(gòu),該架構(gòu)可助力企業(yè)、云計算及 AI 服務(wù)商輕松部署加速存儲基礎(chǔ)設(shè)施,以滿足代理式 AI 所需的
    的頭像 發(fā)表于 03-18 14:40 ?309次閱讀

    面向下一代GPU VPD架構(gòu)的供電系統(tǒng)超低壓大電流測試方案 —— 費思N系列電子負載技術(shù)解析與應用實踐

    LPD(橫向供電)架構(gòu)電流路徑長、寄生參數(shù)大、動態(tài)響應慢等原因,已無法滿足下一代GPU的供電需求。 今年CES上,英偉達NVIDIA確定Rubin會用 VPD(垂直供電) 方案。根據(jù)英偉達NV
    的頭像 發(fā)表于 03-13 17:26 ?922次閱讀
    面向下<b class='flag-5'>一代</b>GPU VPD<b class='flag-5'>架構(gòu)</b>的供電系統(tǒng)超低壓大電流測試方案 —— 費思N系列電子負載技術(shù)<b class='flag-5'>解析</b>與應用實踐

    超擎數(shù)智為您深度解析NVIDIA Quantum-X800 InfiniBand平臺

    NVIDIA
    專精特新
    發(fā)布于 :2026年01月08日 19:47:03

    長晶科技推出新一代SGT 30V MOSFET

    長晶科技重磅推出新一代 SGT Gen2.0工藝。在30V電壓平臺,與Gen1.0相比,F(xiàn)om值可降低50%,超同期歐美系水平12.5%;相比上一代,Rsp值可降低41.6%,超同期歐美系水平
    的頭像 發(fā)表于 12-18 10:08 ?740次閱讀
    長晶科技推出新<b class='flag-5'>一代</b>SGT 30V MOSFET

    亞馬遜新一代自研服務(wù)器芯片Graviton5問世,性能提升25%

    ,基于Graviton5的全新EC2 M9g實例性能提升高達25%,其每個芯片配備192核及5倍擴容緩存,助力客戶在擴展工作負載、提升應用性能的同時降低基礎(chǔ)設(shè)施成本。 ? Graviton5性能與能效的雙重飛躍 ? 基于Graviton5的全新EC2 M9g實例,與
    的頭像 發(fā)表于 12-09 08:33 ?5696次閱讀

    NVIDIA Jetson AGX Thor Developer Kit開發(fā)環(huán)境配置指南

    NVIDIA Jetson AGX Thor 專為物理 AI 打造,與上一代產(chǎn)品 NVIDIA Jetson AGX Orin 相比,生成式 AI 性能最高
    的頭像 發(fā)表于 11-08 09:55 ?7718次閱讀
    <b class='flag-5'>NVIDIA</b> Jetson AGX Thor Developer Kit開發(fā)環(huán)境配置指南

    NVIDIA推出NVQLink高速互連架構(gòu)

    NVIDIA 推出 NVIDIA NVQLink,這是種開放式系統(tǒng)架構(gòu),可將 GPU 計算的極致性能與量子處理器緊密結(jié)合,以構(gòu)建加速的量子超級計算機。
    的頭像 發(fā)表于 11-03 14:53 ?915次閱讀

    國產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“算力是AI的命門”,但國產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下算力直接拉到256 TFLOPS,比上一代提升了40%,但功耗
    發(fā)表于 10-27 13:12

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?1166次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術(shù)<b class='flag-5'>提升</b>AI推理性能

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?4445次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell GPU測試分析

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    醫(yī)療、萬集科技、優(yōu)必選、銀河通用、宇樹科技、眾擎機器人和智元機器人等公司已經(jīng)率先使用 Jetson Thor。 ·基于 NVIDIA Blackwell 的 Jetson Thor,較上一代產(chǎn)品
    發(fā)表于 08-26 09:28 ?1365次閱讀
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    安森美攜手英偉達推動下一代AI數(shù)據(jù)中心發(fā)展

    安森美(onsemi,美國納斯達克股票代號:ON)宣布與英偉達(NVIDIA)合作,共同推動向800V直流(VDC)供電架構(gòu)轉(zhuǎn)型。這變革性解決方案將推動下一代人工智能(AI)數(shù)據(jù)中心
    的頭像 發(fā)表于 08-06 17:27 ?1747次閱讀

    泰克示波器MSO6B與上一代MSO5對比

    作為電子測試與測量領(lǐng)域的領(lǐng)先品牌,泰克科技始終致力于為工程師提供更高效、精準的測試工具。其最新推出的MSO6B系列混合信號示波器在繼承上一代MSO5系列優(yōu)點的基礎(chǔ)上,實現(xiàn)了多項關(guān)鍵技術(shù)的突破與升級
    的頭像 發(fā)表于 06-09 15:30 ?810次閱讀

    NVIDIA 采用納微半導體開發(fā)新一代數(shù)據(jù)中心電源架構(gòu) 800V HVDC 方案,賦能下一代AI兆瓦級算力需求

    800V HVDC電源架構(gòu)開發(fā),旗下GaNFast?氮化鎵和GeneSiC?碳化硅技術(shù)將為Kyber機架級系統(tǒng)內(nèi)的Rubin Ultra等GPU提供電力支持。 ? NVIDIA推出的下一代800V
    發(fā)表于 05-23 14:59 ?3368次閱讀
    <b class='flag-5'>NVIDIA</b> 采用納微半導體開發(fā)新<b class='flag-5'>一代</b>數(shù)據(jù)中心電源<b class='flag-5'>架構(gòu)</b> 800V HVDC 方案,賦能下<b class='flag-5'>一代</b>AI兆瓦級算力需求
    九寨沟县| 花莲县| 宁乡县| 大庆市| 布拖县| 南通市| 汉川市| 安吉县| 长兴县| 九寨沟县| 阿拉善右旗| 高陵县| 德化县| 永城市| 余干县| 廉江市| 白玉县| 新龙县| 茂名市| 米易县| 宁明县| 灵寿县| 教育| 神木县| 鄯善县| 布拖县| 恩施市| 左云县| 乌鲁木齐市| 鹤岗市| 普兰店市| 四子王旗| 甘谷县| 德兴市| 盐亭县| 朝阳市| 修文县| 大姚县| 连州市| 宜兴市| 孟村|