日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA RTX 30系列架構(gòu)的詳細(xì)講解

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-24 15:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在當(dāng)前的顯卡市場上,占據(jù)80%的NVIDIA公司被玩家愛且恨著——他們帶來了最近十多年來最好的顯卡,同時也讓高端游戲卡的價格高企,發(fā)燒顯卡至少五位數(shù)起。

在RTX 30系列顯卡發(fā)布之后,玩家的不滿似乎釋然了,相比當(dāng)前的圖靈顯卡,安培架構(gòu)的RTX 3090/3080/3070顯卡一下子變得真香了,因為它們性能翻倍不說,國內(nèi)價格反而下降了。

·GeForce RTX 3090:取代RTX Titan,相比于Titan RTX快了50%,性能是RTX 2080 Ti顯卡的2倍,配備24GB GDDR6X顯存,售價11999元,9月24日上市。

·GeForce RTX 3080:取代RTX 2080 Ti,相比于RTX 2080性能快2倍,搭配10GB GDDR6X顯存,海外699美元沒變,國內(nèi)從上代6499降至5499元,9月17日上市。

·GeForce RTX 3070:價格不到RTX 2080 Ti的一半,但是平均性能更高,同時比RTX 2070快足足60%,配備8GB GDDR6顯存,售價3899元,10月份上市。

RTX 30系列顯卡售價及上市時間

RTX 30系列顯卡性能變化

RTX 30系列顯卡規(guī)格

從這個規(guī)格表中可以看出,與RTX 2080 Ti顯卡相比,RTX 3090的標(biāo)志性FP32性能從13.4T提升到了35.7T,翻倍還多,光追及AI加速提升也同樣明顯。

與圖靈顯卡相比,安培GPU的變化之大讓人驚訝,在過去十多年的顯卡升級換代中,性能翻倍的提升很少見到了,NVIDA是怎么做到的?

今天我們就來從詳細(xì)解讀一下安培GPU的架構(gòu),探究它到底帶來了哪些技術(shù)升級以致于讓NVIDIA創(chuàng)始人黃仁勛稱之為有史以來性能提升最大的一次。

先從工藝說起:12nm干掉7nm之后 8nm如何再進(jìn)一步

對于半導(dǎo)體芯片來說,很關(guān)鍵的一部分是制程工藝,先進(jìn)的架構(gòu)也要通過工藝來實現(xiàn),這是影響芯片能效、性能甚至成本的一大因素。

對NVIDIA來說,他們的Volta伏特、Turing圖靈兩代架構(gòu)都是臺積電12nm FFN工藝了,這是臺積電16nm工藝的改進(jìn)版,如果再算上16nm的Pascal架構(gòu),實際上過去三代GPU都沒有重大工藝上的升級了。

在Ampere安培架構(gòu)上,NVIDIA終于升級工藝了,只不過這次有兩個意外——首先沒有選擇臺積電,其次沒有上7nm,而是三星定制的8nm工藝,雖然跟7nm看起來只差了1nm,但實際上是兩代工藝。

考慮到NVIDIA之前對工藝的表態(tài),沒用7nm工藝而是三星8nm工藝又在意料之中,最關(guān)鍵的問題在于NVIDIA能夠做到多好。

三星的8nm工藝是基于10nm工藝改良的,至少有LPP和LPU兩個版本,前者適合移動SoC,后者適合高性能芯片,NVIDIA的定制大概是基于后者。

與臺積電的7nm工藝晶體管密度大約1億/mm2相比,8nm工藝大概是6000萬晶體管/mm2,但這是單一的SRAM芯片的對比,實際上GPU芯片比較復(fù)雜,差距會縮小很多。

根據(jù)是NVIDIA公布的信息,臺積電7nm工藝制造的安培A100核心是540億晶體管,核心面積826mm2,而三星8nm工藝制造的GA102核心是280億晶體管,核心面積官方?jīng)]公布,據(jù)悉是628mm2,也是大核心了。

這么算下來,7nm A100核心的晶體管密度6560萬晶體管/mm2,而三星8nm的GA102核心也有4460萬晶體管/mm2——差距仍在,但似乎可以接受了。

三星8nm工藝的晶圓代工價格還是秘密,但是不論技術(shù)還是商業(yè)策略上,三星都會比臺積電便宜很多,預(yù)計代工價格能差30%或者更高,所以這也是RTX 30系列顯卡能夠不漲價甚至降價的關(guān)鍵。

那三星8nm工藝帶來了多大的性能及能效提升呢?首先大家可以看到RTX 30系列顯卡的頻率提升了,從RTX 20系列的1.5GHz+提升到了1.7GHz+,升級工藝還是有性能提升的。

不過RTX 20系列的加速頻率實際可以達(dá)到1.9GHz甚至接近2GHz,RTX 30系列預(yù)計也就這個水平。

但是能效還是有提升的,NVIDIA官方稱在60fps性能下,圖靈顯卡的功耗大約有240W,安培顯卡則是120W多點,算下來是1.9倍能效,提升了90%,同時溫度還低了3度,噪音減少2分貝。

總的來說,在工藝這方面大家對安培GPU有驚喜有失望,失望的是沒有上預(yù)期中的7nm工藝(不管臺積電還是三星),工藝依然升級到了8nm。

但是NVIDIA工藝雖然并不算激進(jìn),但性能、能效進(jìn)步還是挺大的,安培顯卡各方面指標(biāo)都是大幅勝過現(xiàn)在的圖靈卡,而且價格做到了不升反降,這也是不追求激進(jìn)工藝的好處,反正之前12nm都能贏,現(xiàn)在上8nm更加穩(wěn)妥了。

安培GPU架構(gòu)詳解之:FP32單元翻倍 CUDA核心改了什么?

發(fā)布安培的時候,NVIDIA CEO黃仁勛表示這是GPU有史以來最大的性能飛躍,而2018年推出圖靈GPU時,老黃也是類似的說詞——GPU有史以來最大的變革,這兩個評價其實也沒錯。

圖靈GPU架構(gòu)有很多第一次,首次支持RTX Core(光追加速單元),首次支持Tensor Core,同時還改進(jìn)了CUDA內(nèi)核,不過前兩個是重點。

在安培GPU上,RT Core、Tensor Core當(dāng)然繼續(xù)加強,不過最主要的亮點是CUDA架構(gòu)的改進(jìn),性能翻倍的根源就在這里,我們先來看看這方面的變化。

GA102核心架構(gòu)示意圖

GA102核心總計7組GPC單元,每組有12組SM單元,總計84組,RTX 30系列顯卡視乎規(guī)格不同啟用的SM單元總數(shù)不同,RTX 3090是82組,RTX 3080是68組,RTX 3070是46組。

在之前的GA100大核心中,每組SM是64個INT32單元、64個FP32單元及32個FP64單元組成的,但在GA102核心中,F(xiàn)P64單元大幅減少,增加了RT Core,Tensor Core也略微減少。

GA102核心的SM單元

按照之前圖靈GPU的路線走,安培GPU的SM單元增加的并不多,但實際上FP32性能翻倍了還多,算上頻率,RTX 3080的理論性能差不多是RTX 2080的三倍了,這是怎么做到的?

答案就是CUDA核心的FP32翻倍,但翻倍的方式有點特殊,每個SM單元中有4個分區(qū),每個分區(qū)除了第三代Tensor Core核心之外,還有一組是16個FP32單元及16個FP32、16個IN32組成的單元,后者可以同時執(zhí)行FP32或者INT32運算。

16個FP32單元每周期可執(zhí)行16個FP32運算,混合的那個單元可以執(zhí)行32個FP32或者16個FP32+16個INT32。

如此一來,每個SM單元可以同時執(zhí)行4x(16FP32+16FP32)=128個FP32運算,或者4x(16FP32+16INT32)=64個FP32+64個INT32運算。

只算FP32浮點的話,那么就是浮點翻倍了,因為圖靈以及GA100都是每周期64個FP32浮點而已,現(xiàn)在可以做128個FP32運算了。

提升FP32性能不論對游戲還是運算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1帶寬從116GB/s翻倍到219GB/s,共享內(nèi)存的性能也從每周期64B翻倍到128B。

審核編輯:符乾江


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • IC設(shè)計
    +關(guān)注

    關(guān)注

    38

    文章

    1406

    瀏覽量

    108440
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110142
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136103
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA RTX加速的計算機現(xiàn)可直接連接到Apple Vision Pro

    NVIDIA 與 Apple 協(xié)作將 NVIDIA CloudXR 6.0 原生集成到 visionOS 中,安全地將基于 NVIDIA RTX 的仿真器和專業(yè) 3D 圖形應(yīng)用,如
    的頭像 發(fā)表于 03-23 15:03 ?552次閱讀

    技嘉RTX 50系顯卡超頻表現(xiàn)亮眼 3DMark多項測試獲高分

    Extreme基準(zhǔn)測試中核心頻率突破至3.33GHz,展現(xiàn)出強勁的超頻能力。 技嘉RTX 5070魔鷹與RTX 5060 Ti魔鷹顯卡均基于NVIDIA Blackwell架構(gòu)打造,
    的頭像 發(fā)表于 03-19 16:29 ?273次閱讀
    技嘉<b class='flag-5'>RTX</b> 50系顯卡超頻表現(xiàn)亮眼 3DMark多項測試獲高分

    NVIDIA推出BlueField-4 STX存儲架構(gòu)

    NVIDIA 今日宣布推出 NVIDIA BlueField-4? STX 模塊化參考架構(gòu),該架構(gòu)可助力企業(yè)、云計算及 AI 服務(wù)商輕松部署加速存儲基礎(chǔ)設(shè)施,以滿足代理式 AI 所需的
    的頭像 發(fā)表于 03-18 14:40 ?309次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級迭代產(chǎn)品,其各項核心指標(biāo)均針對 GPU 加速工作流的
    的頭像 發(fā)表于 01-06 09:51 ?4347次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    作為 NVIDIA 專業(yè)顯卡產(chǎn)品線中單槽性能的巔峰之作,NVIDIA RTX PRO 4000 Blackwell 在各項核心指標(biāo)上均實現(xiàn)對前代 NVIDIA
    的頭像 發(fā)表于 12-29 15:30 ?1928次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 4000 Blackwell GPU性能測試

    NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 現(xiàn)已全面上市,將基于 NVIDIA Blackwell 架構(gòu)的強大代理式與生成式 AI 能力帶到更多桌面和
    的頭像 發(fā)表于 12-24 10:32 ?1137次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應(yīng)用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?7125次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 2000 Blackwell GPU性能測試

    NVIDIA推出NVQLink高速互連架構(gòu)

    NVIDIA 推出 NVIDIA NVQLink,這是一種開放式系統(tǒng)架構(gòu),可將 GPU 計算的極致性能與量子處理器緊密結(jié)合,以構(gòu)建加速的量子超級計算機。
    的頭像 發(fā)表于 11-03 14:53 ?911次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?1165次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術(shù)提升AI推理性能

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?4435次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 4500 Blackwell GPU測試分析

    NVIDIA Omniverse Extension開發(fā)秘籍

    NVIDIA Omniverse 是一個模塊化平臺,使用高級 API 和微服務(wù)來構(gòu)建由 OpenUSD 和 NVIDIA RTX 提供支持的 3D 應(yīng)用。OpenUSD 功能強大的 3D 框架與
    的頭像 發(fā)表于 08-22 15:52 ?3880次閱讀
    <b class='flag-5'>NVIDIA</b> Omniverse Extension開發(fā)秘籍

    NVIDIA桌面GPU系列擴展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 20
    的頭像 發(fā)表于 08-18 11:50 ?1681次閱讀

    Ansys使用NVIDIA技術(shù)優(yōu)化CFD仿真解決方案

    領(lǐng)先的解決方案提供商正在使用 OpenUSD、RTXNVIDIA Blackwell 實現(xiàn)實時物理數(shù)字孿生。
    的頭像 發(fā)表于 08-05 16:08 ?1703次閱讀

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTXNVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX
    的頭像 發(fā)表于 07-16 09:16 ?2218次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】+NVlink技術(shù)從應(yīng)用到原理

    工作者身份的轉(zhuǎn)變期),便對這項技術(shù)深深癡迷,但當(dāng)時主流的RTX20系列,需要2080級別以上的才支持,鑒于個人實力,便將目光放在了9系卡上,這也就是「算力芯片 | 書中講的pascal架構(gòu)的第一代
    發(fā)表于 06-18 19:31
    呼和浩特市| 蛟河市| 密云县| 鄂伦春自治旗| 涞水县| 巴楚县| 澳门| 西乌| 九寨沟县| 南部县| 兴隆县| 九寨沟县| 双城市| 平度市| 正镶白旗| 万宁市| 上栗县| 辽中县| 腾冲县| 乐昌市| 黄大仙区| 沾益县| 平昌县| 东兴市| 大渡口区| 晋中市| 高陵县| 彰化县| 隆子县| 嵊州市| 屏南县| 偏关县| 遂平县| 武平县| 华容县| 满城县| 蓝田县| 新河县| 北安市| 鄂托克前旗| 响水县|