久久亚洲无区,超碰国产日韩,人成一区二区

來源：半導(dǎo)體芯科技編譯

Mark Liu 是臺灣積體電路制造股份有限公司董事長。

Philip Wong 是斯坦福大學(xué)工程學(xué)院教授兼臺積電首席科學(xué)家。

TSMC

1997 年，IBM "深藍 "超級計算機擊敗了國際象棋世界冠軍加里·卡斯帕羅夫。這是超級計算機技術(shù)的一次開創(chuàng)性展示，也是高性能計算有朝一日可能超越人類智能的初露端倪。在隨后的 10 年中，我們開始將人工智能用于許多實際任務(wù)，如面部識別、語言翻譯、推薦電影和商品等。

又過了十五年，人工智能已經(jīng)發(fā)展到可以 "合成知識 "的地步。生成式人工智能，如 ChatGPT 和 Stable Diffusion，可以作詩、創(chuàng)作藝術(shù)品、診斷疾病、撰寫總結(jié)報告和計算機代碼，甚至可以設(shè)計與人類制造的集成電路相媲美的集成電路。

人工智能將面臨巨大的機遇，成為人類所有工作的數(shù)字化助手。ChatGPT 就是一個很好的例子，它說明了人工智能如何使高性能計算的使用平民化，為社會中的每一個人帶來益處。

所有這些令人驚嘆的人工智能應(yīng)用都歸功于三個因素：高效機器學(xué)習(xí)算法的創(chuàng)新、可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的海量數(shù)據(jù)的可用性，以及通過半導(dǎo)體技術(shù)的進步在高能效計算方面取得的進展。盡管生成式人工智能革命的貢獻無處不在，但卻沒有得到應(yīng)有的贊譽。

在過去的三十年里，人工智能領(lǐng)域的重大里程碑都得益于當時領(lǐng)先的半導(dǎo)體技術(shù)，沒有這些技術(shù)是不可能實現(xiàn)的。“深藍”采用 0.6 微米和 0.35 微米節(jié)點的混合芯片制造技術(shù)實現(xiàn)的。在 ImageNet 比賽中獲勝、開啟了當前機器學(xué)習(xí)時代的深度神經(jīng)網(wǎng)絡(luò)，是采用 40 納米技術(shù)實現(xiàn)的。AlphaGo 采用 28 納米技術(shù)征服了圍棋比賽，而 ChatGPT 的最初版本是在采用 5 納米技術(shù)制造的計算機上進行訓(xùn)練的。最新版本的 ChatGPT 由采用更先進的 4 納米技術(shù)的服務(wù)器驅(qū)動。相關(guān)計算機系統(tǒng)的每一層，從軟件和算法到架構(gòu)、電路設(shè)計和設(shè)備技術(shù)，都是人工智能性能的倍增器。但公平地說，基礎(chǔ)晶體管-器件技術(shù)是上述各層技術(shù)進步的基礎(chǔ)。

如果AI革命要以目前的速度繼續(xù)下去，那么半導(dǎo)體行業(yè)將需要更多的努力。在十年內(nèi)，它將需要一個 1 萬億晶體管 GPU，也就是說，GPU 的設(shè)備數(shù)量是當今典型設(shè)備的 10 倍。

AI模型規(guī)模持續(xù)增長

在過去五年中，人工智能訓(xùn)練所需的計算量和內(nèi)存訪問量呈數(shù)量級增長。例如，訓(xùn)練 GPT-3 需要相當于每秒 50 億億次以上的運算量（即每天 5,000 petaflops ）和 3 萬億字節(jié)（3 TB）的內(nèi)存容量。

新的生成式人工智能應(yīng)用所需的計算能力和內(nèi)存訪問能力都在持續(xù)快速增長。我們現(xiàn)在需要回答一個緊迫的問題：半導(dǎo)體技術(shù)如何才能跟上步伐？

從集成器件到集成芯片

自集成電路發(fā)明以來，半導(dǎo)體技術(shù)一直在縮小特征尺寸，以便在拇指指甲大小的芯片中塞進更多的晶體管。如今，集成度更上一層樓；我們正在超越二維擴展，進入三維系統(tǒng)集成?，F(xiàn)在，我們正在把許多芯片組裝成一個緊密集成、大規(guī)模互連的系統(tǒng)。這是半導(dǎo)體技術(shù)集成的范式轉(zhuǎn)變。

在AI時代，系統(tǒng)的能力與集成到系統(tǒng)中的晶體管數(shù)量成正比。其中一個主要限制因素是，光刻芯片制造工具的設(shè)計是為了制造不超過 800 平方毫米的集成電路，這就是所謂的 “光罩極限”（reticle limit）。但是，我們現(xiàn)在可以將集成系統(tǒng)的尺寸擴展到光刻的光罩極限之外。通過將多個芯片連接到更大的中介層（一塊內(nèi)置互連的硅片）上，我們可以集成一個包含比單個芯片上更多器件的系統(tǒng)。例如，臺積電CoWoS技術(shù)（
chip-on-wafer-on-substrate ）可容納多達六個光罩場的計算芯片，以及十幾個高帶寬內(nèi)存（HBM）芯片。

Nvidia 如何使用 CoWoS 先進封裝技術(shù)

CoWoS是臺積電的硅上芯片先進封裝技術(shù)，目前已應(yīng)用于產(chǎn)品中。。示例包括 Nvidia Ampere 和 Hopper GPU。每個都由一個 GPU 芯片和六個高帶寬內(nèi)存立方體組成，全部位于硅中介層上。計算GPU芯片的大小與芯片制造工具目前允許的大小差不多。Ampere 有 540 億個晶體管，Hopper 有 800 億個。從 7 納米技術(shù)到更密集的 4 納米技術(shù)的轉(zhuǎn)變使得在基本相同的面積上封裝 50% 以上的晶體管成為可能。Ampere 和 Hopper 是當今大型語言模型（LLM）訓(xùn)練的主力軍。訓(xùn)練 ChatGPT 需要數(shù)以萬計的此類處理器。

HBM 是另一個對 AI 日益重要的關(guān)鍵半導(dǎo)體技術(shù)的實例：通過將芯片堆疊在一起來集成系統(tǒng)的能力，我們臺積電稱之為系統(tǒng)級集成芯片（SoIC：
system-on-integrated-chips ）。HBM 由控制邏輯 IC 頂部的一組垂直互連的 DRAM 芯片組成。它使用稱為硅通孔（TSV）的垂直互連來獲取信號，并通過每個芯片和焊料凸點來形成存儲芯片之間的連接。如今，高性能 GPU 廣泛使用 HBMm。

展望未來，3D SoIC 技術(shù)可以為當今的傳統(tǒng) HBM 技術(shù)提供“無凸通替代方案”（bumpless alternative），在堆疊芯片之間提供更密集的垂直互連。最近的進展表明，HBM 測試結(jié)構(gòu)具有 12 層芯片堆疊，使用混合鍵合，這種銅對銅的連接密度比焊接凸點更高。該存儲器系統(tǒng)在較大的基礎(chǔ)邏輯芯片上低溫鍵合，總厚度僅為 600 μm。

高性能計算系統(tǒng)由大量運行大型人工智能模型的芯片組成，高速有線通信可能會迅速限制計算速度。如今，光互連已被用于連接數(shù)據(jù)中心的服務(wù)器機架。不久的將來，我們將需要基于硅光子技術(shù)的光接口，與 GPU 和 CPU 封裝在一起。這樣就能為 GPU 與 GPU 之間的直接光通信提供更高的能效和面積效率帶寬，從而使數(shù)百臺服務(wù)器能夠像擁有統(tǒng)一內(nèi)存的單個巨型 GPU 一樣運行。由于人工智能應(yīng)用的需求，硅光子技術(shù)將成為半導(dǎo)體行業(yè)最重要的使能技術(shù)之一。

邁向萬億晶體管 GPU

AMD 如何使用 3D 技術(shù)

AMD MI300A 加速處理器單元不僅利用了 CoWoS，還利用了臺積電的 3D 技術(shù)——SoIC。MI300A 結(jié)合了 GPU 和 CPU 內(nèi)核，旨在處理最大的AI工作負載。GPU 執(zhí)行AI的密集矩陣乘法運算，而 CPU 則控制整個系統(tǒng)的運行，高帶寬內(nèi)存 (HBM) 則統(tǒng)一為兩者服務(wù)。9 個采用 5 納米技術(shù)制造的計算芯片堆疊在 4 個采用 6 納米技術(shù)制造的基礎(chǔ)芯片之上，這些芯片專門用于緩存和 I/O 流量?；A(chǔ)芯片和 HBM 再硅中介層之上。處理器的計算部分由 1500 億個晶體管組成。

如前所述，用于人工智能訓(xùn)練的典型 GPU 芯片已經(jīng)達到了光罩極限 (reticle field limit)。它們的晶體管數(shù)量約為 1000 億個。晶體管數(shù)量繼續(xù)增加的趨勢將需要多個芯片，通過 2.5D 或 3D 集成相互連接來執(zhí)行計算。通過 CoWoS 或 SoIC 以及相關(guān)的先進封裝技術(shù)將多個芯片集成在一起，可使每個系統(tǒng)的晶體管總數(shù)大大超過單個芯片的晶體管總數(shù)。我們預(yù)測，十年內(nèi)多芯片 GPU 的晶體管數(shù)量將超過 1 萬億個。

我們需要在3D堆棧中將所有這些芯片連接在一起，但幸運的是，業(yè)界已經(jīng)能夠迅速縮小垂直互連的間距，提高連接密度。而且還有足夠的空間容納更多。我們認為互連密度沒有理由不能增長一個數(shù)量級，甚至更高。

GPU 的高能效性能趨勢

那么，所有這些創(chuàng)新硬件技術(shù)是如何提升系統(tǒng)性能的呢？

如果我們看看能效性能指標(EEP：energy-efficient performance)的穩(wěn)步提升，就能發(fā)現(xiàn)服務(wù)器 GPU 的發(fā)展趨勢。EEP是對系統(tǒng)能效和速度的綜合衡量。在過去的 15 年中，半導(dǎo)體行業(yè)每兩年就能將能效性能提高約三倍。我們相信，這一趨勢將以歷史性的速度持續(xù)下去。推動這一趨勢的將是多方面的創(chuàng)新，包括新材料、器件和集成技術(shù)、極紫外線（EUV）光刻技術(shù)、電路設(shè)計、系統(tǒng)架構(gòu)設(shè)計以及所有這些技術(shù)要素的共同優(yōu)化等等。

特別是，我們在此討論的先進封裝技術(shù)將有助于提高 EEP。此外，系統(tǒng)技術(shù)協(xié)同優(yōu)化（STCO： system-technology co-optimization）等概念也將變得越來越重要，在STCO 中，GPU 的不同功能部分被分離到各自的芯片上，并使用性能最好、最經(jīng)濟的技術(shù)來構(gòu)建每個部分。

3D集成電路的Mead-Conway時刻

1978 年，加州理工學(xué)院教授 Carver Mead 和施樂 PARC的 Lynn Conway 發(fā)明了一種集成電路計算機輔助設(shè)計方法。他們使用一套設(shè)計規(guī)則來描述芯片的縮放比例，這樣工程師們就可以輕松地設(shè)計超大規(guī)模集成電路（VLSI），而無需太多的工藝技術(shù)知識。

3D芯片設(shè)計也需要這種能力。如今，設(shè)計人員需要了解芯片設(shè)計、系統(tǒng)架構(gòu)設(shè)計以及硬件和軟件優(yōu)化。制造商需要了解芯片技術(shù)、3D IC技術(shù)和先進的封裝技術(shù)。正如我們在 1978 年所做的那樣，我們再次需要一種通用語言，以電子設(shè)計工具能夠理解的方式來描述這些技術(shù)。這種硬件描述語言可以讓設(shè)計人員自由地進行 3D 集成電路系統(tǒng)設(shè)計，而無需考慮底層技術(shù)。它即將問世：一種名為 3Dblox 的開源標準已被當今大多數(shù)技術(shù)公司和電子設(shè)計自動化 (EDA) 公司所采用。

隧道之外的未來

在人工智能時代，半導(dǎo)體技術(shù)是實現(xiàn)新的人工智能能力和應(yīng)用的關(guān)鍵因素。新型 GPU 不再受限于過去的標準尺寸和外形尺寸。新的半導(dǎo)體技術(shù)也不再局限于在二維平面上縮小下一代晶體管的尺寸。一個集成的人工智能系統(tǒng)可以由盡可能多的高能效晶體管、適用于專業(yè)計算工作負載的高效系統(tǒng)架構(gòu)以及優(yōu)化的軟硬件關(guān)系組成。

在過去的 50 年里，半導(dǎo)體技術(shù)的發(fā)展就像在隧道里行走。前方的道路是清晰的，因為有一條明確的道路。每個人都知道需要做什么：縮小晶體管。

現(xiàn)在，我們已經(jīng)走到了隧道的盡頭。從這里開始，半導(dǎo)體技術(shù)將越來越難發(fā)展。然而，在隧道之外，還有更多的可能性。我們不再受過去的束縛。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

半導(dǎo)體

半導(dǎo)體

+關(guān)注

關(guān)注
339

文章
31316

瀏覽量
266943
gpu

gpu

+關(guān)注

關(guān)注
28

文章
5296

瀏覽量
136119
晶體管

晶體管

+關(guān)注

關(guān)注
78

文章
10449

瀏覽量
148740
AI

AI

+關(guān)注

關(guān)注
91

文章
41479

瀏覽量
302797
人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50396

瀏覽量
267184

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

如何實現(xiàn)1萬億晶體管GPU - 半導(dǎo)體的進步推動人工智能蓬勃發(fā)展

評論