日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)江郎才盡,下一代芯片架構(gòu)變化只是封裝

佐思汽車研究 ? 來(lái)源:佐思汽車研究 ? 2023-09-28 15:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2023年8月23日,英偉達(dá)宣布下一代汽車芯片Thor量產(chǎn)時(shí)間略有推遲,正式量產(chǎn)在2026財(cái)年,英偉達(dá)的財(cái)政年度與自然年相差11個(gè)月,也就是說(shuō)正式量產(chǎn)最遲可能是2026年1月。

FY2019-FY2024H1英偉達(dá)自動(dòng)駕駛AI座艙業(yè)績(jī)情況

66a75e76-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:英偉達(dá)

英偉達(dá)通常兩年升級(jí)一次芯片架構(gòu)。在2022年英偉達(dá)透露即將在2024年推出Blackwell架構(gòu),而Thor也會(huì)采用Blackwell架構(gòu)。

Blackwell是致敬美國(guó)統(tǒng)計(jì)學(xué)家,加利福尼亞大學(xué)伯克利分校統(tǒng)計(jì)學(xué)名譽(yù)教授,拉奧-布萊克韋爾定理的提出者之一David Harold Blackwell。

英偉達(dá)Blackwell架構(gòu)

Blackwell架構(gòu)將采用COPA-GPU設(shè)計(jì)。很多人認(rèn)為COPA-GPU就是Chiplet,不過(guò)COPA-GPU不是嚴(yán)格意義上的Chiplet,眾所周知,英偉達(dá)一直對(duì)Chiplet缺乏興趣。在2017年英偉達(dá)曾提出非常近似Chiplet的MCM設(shè)計(jì),但在2021年12月,英偉達(dá)發(fā)表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文,應(yīng)該就是Blackwell架構(gòu)的論文,這篇論文則否定了Chiplet設(shè)計(jì)。

2017年6月英偉達(dá)發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設(shè)計(jì)。

MCM-GPU設(shè)計(jì)

671c1d56-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:英偉達(dá)

MCM-GPU設(shè)計(jì)基本就是現(xiàn)在比較火爆的Chiplet設(shè)計(jì),但英偉達(dá)一直未將MCM付諸實(shí)際設(shè)計(jì)中。英偉達(dá)一直堅(jiān)持Monolithic單一光刻設(shè)計(jì),這是因?yàn)閐ie與die之間通訊帶寬永遠(yuǎn)無(wú)法和monolithic內(nèi)部的通訊帶寬相比,換句話說(shuō)Chiplet不適合高AI算力場(chǎng)合,在純CPU領(lǐng)域是Chiplet的最佳應(yīng)用領(lǐng)域。

MCM-GPU架構(gòu)

672f363e-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:英偉達(dá)

英偉達(dá)2017年論文提及的MCM-GPU架構(gòu)如上圖。英偉達(dá)在MCM-GPU架構(gòu)里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達(dá)的解釋是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit,有點(diǎn)像交換或路由。GPM就是GPU模塊。

不同容量L1.5緩存下各種應(yīng)用的速度對(duì)比

6747d770-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:英偉達(dá)

上圖是英偉達(dá)2017年論文仿真不同容量L1.5緩存下各種應(yīng)用的速度對(duì)比,不過(guò)彼時(shí)各種應(yīng)用還是各種浮點(diǎn)數(shù)學(xué)運(yùn)算和存儲(chǔ)密集型算子,而非深度學(xué)習(xí)。

Transformer時(shí)代相對(duì)CNN時(shí)代,存儲(chǔ)密集型算子所占比例大幅增加。

67507312-5db1-11ee-939d-92fbcf53809c.png

676828b8-5db1-11ee-939d-92fbcf53809c.png

以上是Transformer的計(jì)算過(guò)程,在此計(jì)算過(guò)程中,矩陣乘法是典型的計(jì)算密集型算子,也叫GEMM(通用矩陣乘法)。存儲(chǔ)密集型算子分兩種,一種是矢量或張量的神經(jīng)激活,多非線性運(yùn)算,也叫GEMV (通用矩陣矢量乘法)。另一種是逐點(diǎn)元素型element-wise,典型的如矩陣反轉(zhuǎn),實(shí)際沒(méi)有任何運(yùn)算,只是存儲(chǔ)行列對(duì)調(diào)。

三星對(duì)GPT大模型workload分析

678f1b12-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:三星

上圖中,在運(yùn)算操作數(shù)量上,GEMV所占比例高達(dá)86.53%,在大模型運(yùn)算延遲分析上,82.27%的延遲都來(lái)自GEMV;GEMM占比只有2.12%;非線性運(yùn)算也就是神經(jīng)元激活部分占的比例也遠(yuǎn)高于GEMM。

三星對(duì)GPU利用率的分析

6799a14a-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:三星

上圖可以看出在GEMV算子時(shí),GPU的利用率很低,一般不超過(guò)20%,換句話說(shuō)80%的時(shí)間GPU都是在等待存儲(chǔ)數(shù)據(jù)的搬運(yùn)。GPU的靈活性還是比較高的,如果換做靈活性比較差的AI專用加速器,如谷歌的TPU,那么GEMV的利用率會(huì)更低,不到10%甚至5%。

三星的GPT瓶頸分析

67b0019c-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:三星

Roof-line訪存與算力模型

67cb4966-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:互聯(lián)網(wǎng)

上圖是鼎鼎大名的roof-line訪存與算力模型。

COPA-GPU架構(gòu)

67d48008-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:英偉達(dá)

上圖是2021年12月英偉達(dá)論文提出的COPA-GPU架構(gòu),實(shí)際就是把一個(gè)特別大容量的L2緩存die分離出來(lái)。因?yàn)槿绻€是monolithic設(shè)計(jì),那么整個(gè)die的面積會(huì)超過(guò)1000平方毫米,不過(guò)***決定了芯片的最大die size不超過(guò)880平方毫米,所以必須將L2分離。

67ef0162-5db1-11ee-939d-92fbcf53809c.png

注:GPU-N就是英偉達(dá)的COPA-GPU。

圖片來(lái)源:英偉達(dá)

不同容量L2緩存對(duì)應(yīng)的延遲

6805ca46-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:英偉達(dá)

上圖是不同容量L2緩存對(duì)應(yīng)的延遲情況,顯然L2緩存越高,延遲越低,不過(guò)在small-batch時(shí)不明顯。

幾種COPA-GPU的封裝分析

6814f318-5db1-11ee-939d-92fbcf53809c.png

圖片來(lái)源:英偉達(dá)

從英偉達(dá)的論文里我們看不到架構(gòu)方面的絲毫改進(jìn),只有封裝領(lǐng)域的改變。這篇論文實(shí)際應(yīng)該由臺(tái)積電來(lái)寫,因?yàn)橛ミ_(dá)完全無(wú)法掌控芯片的封測(cè)工藝,CoWoS就是為英偉達(dá)這種設(shè)計(jì)而設(shè)計(jì)的,而CoWoS誕生在10年以前。

大模型不斷消耗更多的算力和存儲(chǔ),這顯然違背了自然界效率至上的原則,或許人類正在錯(cuò)誤的道路上狂奔。

免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5292

    瀏覽量

    136113
  • 芯片架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    33

    瀏覽量

    14904
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4118

    瀏覽量

    99669

原文標(biāo)題:英偉達(dá)江郎才盡,下一代芯片架構(gòu)變化只是封裝

文章出處:【微信號(hào):zuosiqiche,微信公眾號(hào):佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    FT 5000 Smart Transceiver:下一代智能網(wǎng)絡(luò)芯片的卓越之選

    FT 5000 Smart Transceiver:下一代智能網(wǎng)絡(luò)芯片的卓越之選 在智能網(wǎng)絡(luò)領(lǐng)域,芯片技術(shù)的發(fā)展日新月異。今天,我們要深入探討款具有里程碑意義的產(chǎn)品——FT 5000
    的頭像 發(fā)表于 03-28 09:05 ?308次閱讀

    偉創(chuàng)力攜手博通,推進(jìn)下一代AI液冷解決方案落地

    近日,偉創(chuàng)力宣布旗下先進(jìn)液冷解決方案公司 JetCool 與 博通(Broadcom)展開(kāi)合作,為博通 下一代 AI XPU(定制化 AI 計(jì)算加速芯片) 提供創(chuàng)新液冷解決方案,助力高性能 AI
    的頭像 發(fā)表于 03-17 10:44 ?783次閱讀
    偉創(chuàng)力攜手博通,推進(jìn)<b class='flag-5'>下一代</b>AI液冷解決方案落地

    面向下一代GPU VPD架構(gòu)的供電系統(tǒng)超低壓大電流測(cè)試方案 —— 費(fèi)思N系列電子負(fù)載技術(shù)解析與應(yīng)用實(shí)踐

    LPD(橫向供電)架構(gòu)電流路徑長(zhǎng)、寄生參數(shù)大、動(dòng)態(tài)響應(yīng)慢等原因,已無(wú)法滿足下一代GPU的供電需求。 今年CES上,英偉達(dá)NVIDIA確定Rubin會(huì)用 VPD(垂直供電) 方案。根據(jù)英偉
    的頭像 發(fā)表于 03-13 17:26 ?932次閱讀
    面向<b class='flag-5'>下一代</b>GPU VPD<b class='flag-5'>架構(gòu)</b>的供電系統(tǒng)超低壓大電流測(cè)試方案 —— 費(fèi)思N系列電子負(fù)載技術(shù)解析與應(yīng)用實(shí)踐

    華為在MWC 2026正式發(fā)布下一代WAN目標(biāo)網(wǎng)架構(gòu)

    在MWC26巴塞羅那期間,華為數(shù)據(jù)通信產(chǎn)品線總裁王雷在產(chǎn)品與解決方案發(fā)布會(huì)上正式發(fā)布了下一代WAN目標(biāo)網(wǎng)架構(gòu)。他表示,面向智能體互聯(lián)網(wǎng)時(shí)代,華為從安全韌性、多維感知、網(wǎng)絡(luò)自治三個(gè)維度全面升級(jí)IP承載網(wǎng),助力運(yùn)營(yíng)商構(gòu)建自主防御的網(wǎng)絡(luò)底座,保障體驗(yàn)并加速增收,提升網(wǎng)絡(luò)效率,開(kāi)
    的頭像 發(fā)表于 03-05 11:12 ?590次閱讀

    進(jìn)迭時(shí)空再獲數(shù)億元融資,下一代 RISC-V AI 芯片 K3 即將發(fā)布

    進(jìn)迭時(shí)空再獲數(shù)億元融資,下一代 RISC-V AI 芯片 K3 即將發(fā)布
    的頭像 發(fā)表于 01-15 19:07 ?626次閱讀
    進(jìn)迭時(shí)空再獲數(shù)億元融資,<b class='flag-5'>下一代</b> RISC-V AI <b class='flag-5'>芯片</b>  K3 即將發(fā)布

    羅姆面向下一代800 VDC架構(gòu)發(fā)布電源解決方案白皮書

    ROHM(羅姆半導(dǎo)體)宣布,作為半導(dǎo)體行業(yè)引領(lǐng)創(chuàng)新的主要企業(yè),發(fā)布基于下一代800 VDC架構(gòu)的AI數(shù)據(jù)中心用的先進(jìn)電源解決方案白皮書。 本白皮書作為2025年6月發(fā)布的“羅姆為英偉達(dá)800V
    的頭像 發(fā)表于 11-04 16:45 ?940次閱讀

    Microchip推出下一代Switchtec Gen 6 PCIe交換芯片

    隨著人工智能(AI)工作負(fù)載和高性能計(jì)算(HPC)應(yīng)用對(duì)數(shù)據(jù)傳輸速度與低延遲的需求持續(xù)激增,Microchip Technology Inc.(微芯科技公司)宣布推出下一代Switchtec Gen 6 PCIe交換芯片
    的頭像 發(fā)表于 10-18 11:12 ?2163次閱讀

    Telechips與Arm合作開(kāi)發(fā)下一代IVI芯片Dolphin7

    Telechips宣布,將在與 Arm的戰(zhàn)略合作框架下,正式開(kāi)發(fā)下一代車載信息娛樂(lè)系統(tǒng)(IVI)系統(tǒng)級(jí)芯片(SoC)“Dolphin7”。
    的頭像 發(fā)表于 10-13 16:11 ?1503次閱讀

    英偉達(dá)下一代Rubin芯片已流片

    為進(jìn)入市場(chǎng)做準(zhǔn)備,Rubin架構(gòu)將會(huì)有6個(gè)芯片,這些芯片都已經(jīng)流片。這消息在半導(dǎo)體和人工智能領(lǐng)域引起了廣泛關(guān)注,預(yù)示著英偉達(dá)在
    的頭像 發(fā)表于 09-12 17:15 ?2059次閱讀

    適用于下一代 GGE 和 HSPA 手機(jī)的多模/多頻段 PAM skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()適用于下一代 GGE 和 HSPA 手機(jī)的多模/多頻段 PAM相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有適用于下一代 GGE 和 HSPA 手機(jī)的多模/多頻段 PAM的引腳圖、接線圖、封裝
    發(fā)表于 09-05 18:34
    適用于<b class='flag-5'>下一代</b> GGE 和 HSPA 手機(jī)的多模/多頻段 PAM skyworksinc

    安森美攜手英偉達(dá)推動(dòng)下一代AI數(shù)據(jù)中心發(fā)展

    安森美(onsemi,美國(guó)納斯達(dá)克股票代號(hào):ON)宣布與英偉達(dá)(NVIDIA)合作,共同推動(dòng)向800V直流(VDC)供電架構(gòu)轉(zhuǎn)型。這變革性解決方案將推動(dòng)下一代人工智能(AI)數(shù)據(jù)中心
    的頭像 發(fā)表于 08-06 17:27 ?1756次閱讀

    驅(qū)動(dòng)下一代E/E架構(gòu)的神經(jīng)脈絡(luò)進(jìn)化—10BASE-T1S

    隨著“中央+區(qū)域”架構(gòu)的演進(jìn),10BASE-T1S憑借其獨(dú)特優(yōu)勢(shì),將成為驅(qū)動(dòng)下一代汽車電子電氣(E/E)架構(gòu)“神經(jīng)系統(tǒng)”進(jìn)化的關(guān)鍵技術(shù)。
    的頭像 發(fā)表于 07-08 18:17 ?797次閱讀
    驅(qū)動(dòng)<b class='flag-5'>下一代</b>E/E<b class='flag-5'>架構(gòu)</b>的神經(jīng)脈絡(luò)進(jìn)化—10BASE-T1S

    下一代高速芯片晶體管解制造問(wèn)題解決了!

    ,10埃)開(kāi)始直使用到A7。 從這些外壁叉片晶體管的量產(chǎn)中獲得的知識(shí)可能有助于下一代互補(bǔ)場(chǎng)效應(yīng)晶體管(CFET)的生產(chǎn)。 目前,領(lǐng)先的芯片制造商——英特爾、臺(tái)積電和三星——正在利用
    發(fā)表于 06-20 10:40

    下一代PX5 RTOS具有哪些優(yōu)勢(shì)

    許多古老的RTOS設(shè)計(jì)至今仍在使用,包括Zephyr(1980年)、Nucleus(1990年)和FreeRTOS(2003年)。所有這些舊設(shè)計(jì)都有專有的API,通常更大、更慢,并且缺乏下一代RTOS的必要安全認(rèn)證和功能。
    的頭像 發(fā)表于 06-19 15:06 ?1330次閱讀

    NVIDIA 采用納微半導(dǎo)體開(kāi)發(fā)新一代數(shù)據(jù)中心電源架構(gòu) 800V HVDC 方案,賦能下一代AI兆瓦級(jí)算力需求

    全球 AI 算力基礎(chǔ)設(shè)施革新迎來(lái)關(guān)鍵進(jìn)展。近日,納微半導(dǎo)體(Navitas Semiconductor, 納斯達(dá)克代碼:NVTS)宣布參與NVIDIA 英偉達(dá)(納斯達(dá)克股票代碼: NVDA) 下一代
    發(fā)表于 05-23 14:59 ?3374次閱讀
    NVIDIA 采用納微半導(dǎo)體開(kāi)發(fā)新<b class='flag-5'>一代</b>數(shù)據(jù)中心電源<b class='flag-5'>架構(gòu)</b> 800V HVDC 方案,賦能<b class='flag-5'>下一代</b>AI兆瓦級(jí)算力需求
    临夏市| 双桥区| 宣城市| 通江县| 云龙县| 彰化县| 庐江县| 儋州市| 清远市| 沭阳县| 三明市| 大冶市| 宁乡县| 竹溪县| 洪洞县| 宣汉县| 沅陵县| 马公市| 乌兰浩特市| 宝应县| 沛县| 团风县| 安陆市| 潮安县| 额尔古纳市| 泉州市| 杂多县| 泗阳县| 班玛县| 清水县| 保靖县| 玉山县| 宜川县| 巴青县| 亳州市| 西盟| 特克斯县| 隆回县| 东海县| 泽州县| 慈利县|