來源:半導(dǎo)體芯科技編譯
Mark Liu 是臺灣積體電路制造股份有限公司董事長。
Philip Wong 是斯坦福大學(xué)工程學(xué)院教授兼臺積電首席科學(xué)家。
TSMC
1997 年,IBM "深藍 "超級計算機擊敗了國際象棋世界冠軍加里·卡斯帕羅夫。這是超級計算機技術(shù)的一次開創(chuàng)性展示,也是高性能計算有朝一日可能超越人類智能的初露端倪。在隨后的 10 年中,我們開始將人工智能用于許多實際任務(wù),如面部識別、語言翻譯、推薦電影和商品等。
又過了十五年,人工智能已經(jīng)發(fā)展到可以 "合成知識 "的地步。生成式人工智能,如 ChatGPT 和 Stable Diffusion,可以作詩、創(chuàng)作藝術(shù)品、診斷疾病、撰寫總結(jié)報告和計算機代碼,甚至可以設(shè)計與人類制造的集成電路相媲美的集成電路。
人工智能將面臨巨大的機遇,成為人類所有工作的數(shù)字化助手。ChatGPT 就是一個很好的例子,它說明了人工智能如何使高性能計算的使用平民化,為社會中的每一個人帶來益處。
所有這些令人驚嘆的人工智能應(yīng)用都歸功于三個因素:高效機器學(xué)習(xí)算法的創(chuàng)新、可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的海量數(shù)據(jù)的可用性,以及通過半導(dǎo)體技術(shù)的進步在高能效計算方面取得的進展。盡管生成式人工智能革命的貢獻無處不在,但卻沒有得到應(yīng)有的贊譽。
在過去的三十年里,人工智能領(lǐng)域的重大里程碑都得益于當時領(lǐng)先的半導(dǎo)體技術(shù),沒有這些技術(shù)是不可能實現(xiàn)的。“深藍”采用 0.6 微米和 0.35 微米節(jié)點的混合芯片制造技術(shù)實現(xiàn)的。在 ImageNet 比賽中獲勝、開啟了當前機器學(xué)習(xí)時代的深度神經(jīng)網(wǎng)絡(luò),是采用 40 納米技術(shù)實現(xiàn)的。AlphaGo 采用 28 納米技術(shù)征服了圍棋比賽,而 ChatGPT 的最初版本是在采用 5 納米技術(shù)制造的計算機上進行訓(xùn)練的。最新版本的 ChatGPT 由采用更先進的 4 納米技術(shù)的服務(wù)器驅(qū)動。相關(guān)計算機系統(tǒng)的每一層,從軟件和算法到架構(gòu)、電路設(shè)計和設(shè)備技術(shù),都是人工智能性能的倍增器。但公平地說,基礎(chǔ)晶體管-器件技術(shù)是上述各層技術(shù)進步的基礎(chǔ)。
如果AI革命要以目前的速度繼續(xù)下去,那么半導(dǎo)體行業(yè)將需要更多的努力。在十年內(nèi),它將需要一個 1 萬億晶體管 GPU,也就是說,GPU 的設(shè)備數(shù)量是當今典型設(shè)備的 10 倍。

AI模型規(guī)模持續(xù)增長
在過去五年中,人工智能訓(xùn)練所需的計算量和內(nèi)存訪問量呈數(shù)量級增長。例如,訓(xùn)練 GPT-3 需要相當于每秒 50 億億次以上的運算量(即每天 5,000 petaflops )和 3 萬億字節(jié)(3 TB)的內(nèi)存容量。
新的生成式人工智能應(yīng)用所需的計算能力和內(nèi)存訪問能力都在持續(xù)快速增長。我們現(xiàn)在需要回答一個緊迫的問題: 半導(dǎo)體技術(shù)如何才能跟上步伐?
從集成器件到集成芯片
自集成電路發(fā)明以來,半導(dǎo)體技術(shù)一直在縮小特征尺寸,以便在拇指指甲大小的芯片中塞進更多的晶體管。如今,集成度更上一層樓;我們正在超越二維擴展,進入三維系統(tǒng)集成?,F(xiàn)在,我們正在把許多芯片組裝成一個緊密集成、大規(guī)模互連的系統(tǒng)。這是半導(dǎo)體技術(shù)集成的范式轉(zhuǎn)變。
在AI時代,系統(tǒng)的能力與集成到系統(tǒng)中的晶體管數(shù)量成正比。其中一個主要限制因素是,光刻芯片制造工具的設(shè)計是為了制造不超過 800 平方毫米的集成電路,這就是所謂的 “光罩極限”(reticle limit)。但是,我們現(xiàn)在可以將集成系統(tǒng)的尺寸擴展到光刻的光罩極限之外。通過將多個芯片連接到更大的中介層(一塊內(nèi)置互連的硅片)上,我們可以集成一個包含比單個芯片上更多器件的系統(tǒng)。例如,臺積電CoWoS技術(shù)(
chip-on-wafer-on-substrate )可容納多達六個光罩場的計算芯片,以及十幾個高帶寬內(nèi)存(HBM)芯片。
Nvidia 如何使用 CoWoS 先進封裝技術(shù)
CoWoS是臺積電的硅上芯片先進封裝技術(shù),目前已應(yīng)用于產(chǎn)品中。。示例包括 Nvidia Ampere 和 Hopper GPU。每個都由一個 GPU 芯片和六個高帶寬內(nèi)存立方體組成,全部位于硅中介層上。計算GPU芯片的大小與芯片制造工具目前允許的大小差不多。Ampere 有 540 億個晶體管,Hopper 有 800 億個。從 7 納米技術(shù)到更密集的 4 納米技術(shù)的轉(zhuǎn)變使得在基本相同的面積上封裝 50% 以上的晶體管成為可能。Ampere 和 Hopper 是當今大型語言模型 (LLM) 訓(xùn)練的主力軍。訓(xùn)練 ChatGPT 需要數(shù)以萬計的此類處理器。
HBM 是另一個對 AI 日益重要的關(guān)鍵半導(dǎo)體技術(shù)的實例:通過將芯片堆疊在一起來集成系統(tǒng)的能力,我們臺積電稱之為系統(tǒng)級集成芯片 (SoIC:
system-on-integrated-chips )。HBM 由控制邏輯 IC 頂部的一組垂直互連的 DRAM 芯片組成。它使用稱為硅通孔 (TSV) 的垂直互連來獲取信號,并通過每個芯片和焊料凸點來形成存儲芯片之間的連接。如今,高性能 GPU 廣泛使用 HBMm。
展望未來,3D SoIC 技術(shù)可以為當今的傳統(tǒng) HBM 技術(shù)提供“無凸通替代方案”(bumpless alternative),在堆疊芯片之間提供更密集的垂直互連。最近的進展表明,HBM 測試結(jié)構(gòu)具有 12 層芯片堆疊,使用混合鍵合,這種銅對銅的連接密度比焊接凸點更高。該存儲器系統(tǒng)在較大的基礎(chǔ)邏輯芯片上低溫鍵合,總厚度僅為 600 μm。
高性能計算系統(tǒng)由大量運行大型人工智能模型的芯片組成,高速有線通信可能會迅速限制計算速度。如今,光互連已被用于連接數(shù)據(jù)中心的服務(wù)器機架。不久的將來,我們將需要基于硅光子技術(shù)的光接口,與 GPU 和 CPU 封裝在一起。這樣就能為 GPU 與 GPU 之間的直接光通信提供更高的能效和面積效率帶寬,從而使數(shù)百臺服務(wù)器能夠像擁有統(tǒng)一內(nèi)存的單個巨型 GPU 一樣運行。由于人工智能應(yīng)用的需求,硅光子技術(shù)將成為半導(dǎo)體行業(yè)最重要的使能技術(shù)之一。
邁向萬億晶體管 GPU
AMD 如何使用 3D 技術(shù)
AMD MI300A 加速處理器單元不僅利用了 CoWoS,還利用了臺積電的 3D 技術(shù)——SoIC。MI300A 結(jié)合了 GPU 和 CPU 內(nèi)核,旨在處理最大的AI工作負載。GPU 執(zhí)行AI的密集矩陣乘法運算,而 CPU 則控制整個系統(tǒng)的運行,高帶寬內(nèi)存 (HBM) 則統(tǒng)一為兩者服務(wù)。9 個采用 5 納米技術(shù)制造的計算芯片堆疊在 4 個采用 6 納米技術(shù)制造的基礎(chǔ)芯片之上,這些芯片專門用于緩存和 I/O 流量?;A(chǔ)芯片和 HBM 再硅中介層之上。處理器的計算部分由 1500 億個晶體管組成。
如前所述,用于人工智能訓(xùn)練的典型 GPU 芯片已經(jīng)達到了光罩極限 (reticle field limit)。它們的晶體管數(shù)量約為 1000 億個。晶體管數(shù)量繼續(xù)增加的趨勢將需要多個芯片,通過 2.5D 或 3D 集成相互連接來執(zhí)行計算。通過 CoWoS 或 SoIC 以及相關(guān)的先進封裝技術(shù)將多個芯片集成在一起,可使每個系統(tǒng)的晶體管總數(shù)大大超過單個芯片的晶體管總數(shù)。我們預(yù)測,十年內(nèi)多芯片 GPU 的晶體管數(shù)量將超過 1 萬億個。
我們需要在3D堆棧中將所有這些芯片連接在一起,但幸運的是,業(yè)界已經(jīng)能夠迅速縮小垂直互連的間距,提高連接密度。而且還有足夠的空間容納更多。我們認為互連密度沒有理由不能增長一個數(shù)量級,甚至更高。

GPU 的高能效性能趨勢
那么,所有這些創(chuàng)新硬件技術(shù)是如何提升系統(tǒng)性能的呢?
如果我們看看能效性能指標(EEP:energy-efficient performance)的穩(wěn)步提升,就能發(fā)現(xiàn)服務(wù)器 GPU 的發(fā)展趨勢。EEP是對系統(tǒng)能效和速度的綜合衡量。在過去的 15 年中,半導(dǎo)體行業(yè)每兩年就能將能效性能提高約三倍。我們相信,這一趨勢將以歷史性的速度持續(xù)下去。推動這一趨勢的將是多方面的創(chuàng)新,包括新材料、器件和集成技術(shù)、極紫外線(EUV)光刻技術(shù)、電路設(shè)計、系統(tǒng)架構(gòu)設(shè)計以及所有這些技術(shù)要素的共同優(yōu)化等等。

特別是,我們在此討論的先進封裝技術(shù)將有助于提高 EEP。此外,系統(tǒng)技術(shù)協(xié)同優(yōu)化(STCO: system-technology co-optimization)等概念也將變得越來越重要,在STCO 中,GPU 的不同功能部分被分離到各自的芯片上,并使用性能最好、最經(jīng)濟的技術(shù)來構(gòu)建每個部分。
3D集成電路的Mead-Conway時刻
1978 年,加州理工學(xué)院教授 Carver Mead 和施樂 PARC的 Lynn Conway 發(fā)明了一種集成電路計算機輔助設(shè)計方法。他們使用一套設(shè)計規(guī)則來描述芯片的縮放比例,這樣工程師們就可以輕松地設(shè)計超大規(guī)模集成電路(VLSI),而無需太多的工藝技術(shù)知識。
3D芯片設(shè)計也需要這種能力。如今,設(shè)計人員需要了解芯片設(shè)計、系統(tǒng)架構(gòu)設(shè)計以及硬件和軟件優(yōu)化。制造商需要了解芯片技術(shù)、3D IC技術(shù)和先進的封裝技術(shù)。正如我們在 1978 年所做的那樣,我們再次需要一種通用語言,以電子設(shè)計工具能夠理解的方式來描述這些技術(shù)。這種硬件描述語言可以讓設(shè)計人員自由地進行 3D 集成電路系統(tǒng)設(shè)計,而無需考慮底層技術(shù)。它即將問世: 一種名為 3Dblox 的開源標準已被當今大多數(shù)技術(shù)公司和電子設(shè)計自動化 (EDA) 公司所采用。
隧道之外的未來
在人工智能時代,半導(dǎo)體技術(shù)是實現(xiàn)新的人工智能能力和應(yīng)用的關(guān)鍵因素。新型 GPU 不再受限于過去的標準尺寸和外形尺寸。新的半導(dǎo)體技術(shù)也不再局限于在二維平面上縮小下一代晶體管的尺寸。一個集成的人工智能系統(tǒng)可以由盡可能多的高能效晶體管、適用于專業(yè)計算工作負載的高效系統(tǒng)架構(gòu)以及優(yōu)化的軟硬件關(guān)系組成。
在過去的 50 年里,半導(dǎo)體技術(shù)的發(fā)展就像在隧道里行走。前方的道路是清晰的,因為有一條明確的道路。每個人都知道需要做什么:縮小晶體管。
現(xiàn)在,我們已經(jīng)走到了隧道的盡頭。從這里開始,半導(dǎo)體技術(shù)將越來越難發(fā)展。然而,在隧道之外,還有更多的可能性。我們不再受過去的束縛。
審核編輯 黃宇
-
半導(dǎo)體
+關(guān)注
關(guān)注
339文章
31316瀏覽量
266943 -
gpu
+關(guān)注
關(guān)注
28文章
5296瀏覽量
136119 -
晶體管
+關(guān)注
關(guān)注
78文章
10449瀏覽量
148740 -
AI
+關(guān)注
關(guān)注
91文章
41479瀏覽量
302797 -
人工智能
+關(guān)注
關(guān)注
1821文章
50396瀏覽量
267184
發(fā)布評論請先 登錄
半導(dǎo)體晶體管的發(fā)明歷史
半導(dǎo)體技術(shù)如何推動三項電子領(lǐng)域創(chuàng)新
芯盛智能自研存儲解決方案助力工業(yè)應(yīng)用蓬勃發(fā)展
晶體管的定義,晶體管測量參數(shù)和參數(shù)測量儀器
晶體管的基本結(jié)構(gòu)和發(fā)展歷程
中科曙光如何加速我國人工智能+蓬勃發(fā)展
半導(dǎo)體行業(yè)安全數(shù)據(jù)協(xié)作:通過人工智能與互聯(lián)技術(shù)釋放創(chuàng)新潛力
紅外光電二極管:如何實現(xiàn)發(fā)射與接收
有方科技助力人工智能產(chǎn)業(yè)蓬勃發(fā)展
現(xiàn)代集成電路半導(dǎo)體器件
CES Asia 2025蓄勢待發(fā),聚焦低空經(jīng)濟與AI,引領(lǐng)未來產(chǎn)業(yè)新變革
晶體管光耦的工作原理
下一代高速芯片晶體管解制造問題解決了!
鰭式場效應(yīng)晶體管的原理和優(yōu)勢
如何實現(xiàn)1萬億晶體管GPU - 半導(dǎo)體的進步推動人工智能蓬勃發(fā)展
評論