久草成人网,午夜偷拍精品久久,麻豆精品色

人工智能芯片包括圖形處理單元（GPU）、現(xiàn)場(chǎng)可編程門(mén)陣列（FPGA）和專(zhuān)門(mén)用于人工智能的特定應(yīng)用集成電路（ASIC）。像中央處理器（CPU）這樣的通用芯片也可以用于一些更簡(jiǎn)單的人工智能任務(wù)，但是隨著人工智能的發(fā)展，CPU的用處越來(lái)越小。

與通用CPU一樣，人工智能芯片通過(guò)集成大量越來(lái)越小的晶體管來(lái)提高速度和效率（也就是說(shuō)，它們每消耗一單位能量就能完成更多的計(jì)算），這些晶體管運(yùn)行速度更快，消耗的能量也更少。但與CPU不同的是，AI芯片還有其他AI優(yōu)化的設(shè)計(jì)特性。利用這些特性可以極大地加速AI算法所需的相同的、可預(yù)測(cè)的、獨(dú)立的計(jì)算。包括并行執(zhí)行大量計(jì)算，而不是像在CPU中那樣按順序執(zhí)行；這些AI芯片在減少了相同計(jì)算所需的晶體管數(shù)量下，成功實(shí)現(xiàn)了計(jì)算精度需求較低的人工智能算法；加速內(nèi)存訪問(wèn)，例如，將整個(gè)AI算法存儲(chǔ)在一個(gè)AI芯片中；以及使用專(zhuān)門(mén)設(shè)計(jì)的編程語(yǔ)言來(lái)高效地轉(zhuǎn)換AI計(jì)算機(jī)代碼，以便在AI芯片上執(zhí)行。

不同類(lèi)型的人工智能芯片適用于不同的任務(wù)。GPU最常用于最初開(kāi)發(fā)和改進(jìn)AI算法；這個(gè)過(guò)程被稱(chēng)為“訓(xùn)練”。AI算法通常利用FPGA作為橋梁，被用于現(xiàn)實(shí)世界中的數(shù)據(jù)輸入。這通常稱(chēng)為“推理”。ASIC則可以適用于訓(xùn)練或推理。

AI芯片方面的一些知識(shí)

面向AI應(yīng)用的專(zhuān)用芯片的趨勢(shì)是由兩個(gè)因素驅(qū)動(dòng)的。首先，半導(dǎo)體功能的關(guān)鍵改進(jìn)已從制造轉(zhuǎn)向設(shè)計(jì)和軟件;其次，對(duì)人工智能等應(yīng)用的需求不斷增長(zhǎng)，需要高度并行化，可預(yù)測(cè)的計(jì)算，這得益于專(zhuān)用芯片。深神經(jīng)網(wǎng)絡(luò)（DNN）-負(fù)責(zé)最近人工智能突破的人工智能算法符合這項(xiàng)法案。

DNN通常實(shí)現(xiàn)一種稱(chēng)為監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)，它涉及兩個(gè)計(jì)算步驟：基于訓(xùn)練數(shù)據(jù)“訓(xùn)練” AI算法（即構(gòu)建算法）和執(zhí)行訓(xùn)練后的AI算法（即執(zhí)行“推理”）以對(duì)新算法進(jìn)行分類(lèi)與訓(xùn)練階段從數(shù)據(jù)中獲取的知識(shí)相一致的數(shù)據(jù)。

特別地，訓(xùn)練步驟通常需要執(zhí)行相同的計(jì)算數(shù)百萬(wàn)次。如第IV（B）節(jié)所述，提高的晶體管密度允許在單個(gè)芯片上使用更多類(lèi)型的專(zhuān)用電路。AI芯片將這一點(diǎn)發(fā)揮到了極致—芯片上大多數(shù)或所有晶體管的布局均針對(duì)AI算法所需的高度可并行化，專(zhuān)門(mén)計(jì)算進(jìn)行了優(yōu)化。

盡管分析師對(duì)全球人工智能芯片市場(chǎng)規(guī)模存在廣泛分歧，ru 2018年的估計(jì)值介于50億至200億美元之間，但他們一致認(rèn)為，市場(chǎng)增長(zhǎng)速度將快于非人工智能專(zhuān)用芯片。直到最近，少數(shù)設(shè)計(jì)CPU等通用芯片的公司主導(dǎo)了邏輯芯片設(shè)計(jì)市場(chǎng)。他們享受著規(guī)模經(jīng)濟(jì)，使他們能夠再投資于強(qiáng)大的新CPU設(shè)計(jì)。然而，摩爾定律的放緩正在損害CPU生產(chǎn)商的規(guī)模經(jīng)濟(jì)；在摩爾定律驅(qū)動(dòng)的CPU效率和速度增益克服專(zhuān)用芯片的好處之前，現(xiàn)在專(zhuān)用芯片的使用壽命更長(zhǎng)。因此，CPU設(shè)計(jì)公司再投資于新設(shè)計(jì)以保持正在下降的市場(chǎng)支配地位。這一趨勢(shì)降低了芯片設(shè)計(jì)初創(chuàng)公司的進(jìn)入門(mén)檻，特別是那些專(zhuān)注于專(zhuān)業(yè)芯片的公司。

人工智能芯片是一種常見(jiàn)的專(zhuān)用芯片，具有一些共同的特點(diǎn)。人工智能芯片并行執(zhí)行的計(jì)算量遠(yuǎn)遠(yuǎn)大于CPU。他們還以一種成功實(shí)現(xiàn)人工智能算法但減少晶體管數(shù)量的方式以低精度計(jì)算數(shù)字

需要相同的計(jì)算。它們還通過(guò)將整個(gè)人工智能算法存儲(chǔ)在一個(gè)人工智能芯片中來(lái)加速內(nèi)存訪問(wèn)。最后，人工智能芯片使用專(zhuān)門(mén)的編程語(yǔ)言來(lái)有效地翻譯人工智能計(jì)算機(jī)代碼，以在人工智能芯片上執(zhí)行。

雖然通用芯片特別是CPU包括少量流行的設(shè)計(jì)，但人工智能芯片更加多樣化。人工智能芯片在設(shè)計(jì)、適用的應(yīng)用、不同人工智能任務(wù)的效率和速度、通用性和推理時(shí)的分類(lèi)精度等方面有著廣泛的差異、

由于其獨(dú)特的特性，人工智能芯片在訓(xùn)練和推理AI算法方面比CPU快幾十倍甚至幾千倍。最先進(jìn)的人工智能芯片比最先進(jìn)的CPU更劃算，因?yàn)樗鼈冊(cè)谌斯ぶ悄芩惴ㄉ系男矢?。一千倍于CPU效率的人工智能芯片所帶來(lái)的改進(jìn)相當(dāng)于26年摩爾定律為CPU帶來(lái)的改進(jìn)。

先進(jìn)的人工智能系統(tǒng)不僅需要AI專(zhuān)用芯片，還需要最先進(jìn)的AI芯片。較早期的人工智能芯片——帶有更大、更慢、更耗電的晶體管——會(huì)產(chǎn)生巨大的能源消耗成本，并可以迅速飆升至這種芯片無(wú)法承受的水平。正因?yàn)槿绱耍缃袷褂幂^早期的AI芯片在成本和計(jì)算速度方面，都至少比最新的AI芯片大一個(gè)數(shù)量級(jí)。（成本增加，計(jì)算速度卻更慢）

這些成本和速度的動(dòng)態(tài)變化，推動(dòng)著先進(jìn)AI芯片的繁榮——如果沒(méi)有最先進(jìn)的AI芯片，則幾乎不可能開(kāi)發(fā)和部署最先進(jìn)的AI算法。即使使用最先進(jìn)的AI芯片，訓(xùn)練AI算法也可能花費(fèi)數(shù)千萬(wàn)美元，并且需要數(shù)周才能完成。實(shí)際上，在頂級(jí)AI實(shí)驗(yàn)室中，總支出中有很大一部分用于與AI相關(guān)的計(jì)算。使用CPU等通用芯片，甚至使用較舊的AI芯片，進(jìn)行這種訓(xùn)練將花費(fèi)更長(zhǎng)的時(shí)間才能完成，并且相關(guān)的支出也會(huì)更多，這使得對(duì)AI算法的研究和部署無(wú)法進(jìn)行下去。類(lèi)似地，使用較不先進(jìn)或較不專(zhuān)業(yè)的芯片進(jìn)行推理也可能會(huì)導(dǎo)致類(lèi)似的成本超支，并且需要更長(zhǎng)的時(shí)間。

人工智能芯片的工作原理

相對(duì)于CPU來(lái)說(shuō)，人工智能芯片通過(guò)特定技術(shù)來(lái)提高效率和速度。有關(guān)通用AI芯片的自上而下視圖和這些技術(shù)的圖形表示，這些技術(shù)將在下面的小節(jié)中詳細(xì)描述。

通用人工智能芯片

（1）并行計(jì)算

與傳統(tǒng)CPU相比，人工智能芯片提供的最重要的改進(jìn)是并行計(jì)算能力，也就是說(shuō)，人工智能芯片可以運(yùn)行比CPU更多的并行計(jì)算。

對(duì)于DNN的計(jì)算是高度并行的，因?yàn)樗鼈兪窍嗤?，并且不依?lài)于其他計(jì)算的結(jié)果。DNN訓(xùn)練和推理需要大量獨(dú)立、相同的矩陣乘法運(yùn)算，這反過(guò)來(lái)又需要執(zhí)行許多乘法運(yùn)算，然后求和，即所謂的“乘積” 運(yùn)算。

人工智能芯片設(shè)計(jì)通常要在單芯片上具備大量的“乘法累加電路”（MAC），以有效地在一個(gè)大規(guī)模并行架構(gòu)上執(zhí)行矩陣乘法操作。并行計(jì)算也使AI芯片能夠比順序計(jì)算更快地完成任務(wù)。在并行架構(gòu)中連接的多個(gè)AI芯片可以進(jìn)一步提高并行程度。雖然先進(jìn)的CPU具有一定程度的并行體系結(jié)構(gòu)，但AI芯片實(shí)現(xiàn)了更大的并行性。

并行處理操作使用幾種技術(shù)，Data parallelism是最常見(jiàn)的并行形式，它將輸入數(shù)據(jù)集分為不同的“批”，以便在每個(gè)批上并行執(zhí)行計(jì)算。這些批次可以跨AI芯片的不同執(zhí)行單元或并行連接的不同AI芯片。數(shù)據(jù)并行性適用于任何類(lèi)型的神經(jīng)網(wǎng)絡(luò)。在各種各樣的神經(jīng)網(wǎng)絡(luò)中，在訓(xùn)練期間使用數(shù)百到數(shù)千批的數(shù)據(jù)并行性在不增加所需計(jì)算總數(shù)的情況下實(shí)現(xiàn)了相同的模型精度。然而，更多的批次需要更多的計(jì)算來(lái)實(shí)現(xiàn)相同的模型精度。超過(guò)一定數(shù)量的批次（對(duì)于一些DNN來(lái)說(shuō)，超過(guò)100萬(wàn)）增加的數(shù)據(jù)并行性需要更多的計(jì)算，而不會(huì)減少訓(xùn)練模型的時(shí)間，從而限制有用的數(shù)據(jù)并行性。

Model parallelism將模型分成多個(gè)部分，在這些部分，計(jì)算在AI芯片的不同執(zhí)行單元上并行執(zhí)行，或者在并行連接的不同AI芯片上并行執(zhí)行。例如，單個(gè)DNN層包括許多神經(jīng)元，一個(gè)分區(qū)可能包括這些神經(jīng)元的子集，另一個(gè)分區(qū)包括相同神經(jīng)元的不同子集。有一種替代技術(shù)可以并行地對(duì)不同神經(jīng)網(wǎng)絡(luò)層進(jìn)行計(jì)算。

考慮到并行性的限制，通過(guò)更多的人工智能芯片并行擴(kuò)展計(jì)算量并不是人工智能進(jìn)步的可行策略，好的AI算法研究更加有意義，也是必要的，因?yàn)樗试S更大程度的數(shù)據(jù)和模型并行，包括研究結(jié)合技術(shù)，以增加并行度。

（2）低精度計(jì)算

低精度計(jì)算，它犧牲了速度的數(shù)值精度和效率，特別適合人工智能算法。一個(gè)x-bit處理器由執(zhí)行單元組成，每個(gè)執(zhí)行單元都是用來(lái)操作由x-bit表示的數(shù)據(jù)的。晶體管存儲(chǔ)一個(gè)bit，其值可以為1或0；因此，x-bit值允許2 x 不同的組合。下表顯示了處理器數(shù)據(jù)類(lèi)型的x的公共值。

數(shù)據(jù)類(lèi)型

高位（Higher-bit）數(shù)據(jù)類(lèi)型可以表示更廣泛的數(shù)字范圍（例如：一組較大的整數(shù)）或在有限范圍內(nèi)的更高精度的數(shù)字（例如：在0到1之間的高精度十進(jìn)制數(shù)）。幸運(yùn)的是，在許多人工智能算法中，訓(xùn)練或推理也會(huì)執(zhí)行，或者幾乎同樣地執(zhí)行，如果一些計(jì)算是用8位或16位數(shù)據(jù)執(zhí)行的，這些數(shù)據(jù)代表有限或低精度的數(shù)字范圍。即使模擬計(jì)算也足以滿(mǎn)足一些人工智能算法。這些技術(shù)工作的原因如下：

首先，經(jīng)過(guò)訓(xùn)練的DNN通常不受噪聲的影響，因此在推理計(jì)算中舍入數(shù)字不會(huì)影響結(jié)果；

第二，DNN中的某些數(shù)值參數(shù)事先已知的值僅在一個(gè)小的數(shù)值范圍內(nèi)，準(zhǔn)確地說(shuō)是可以用低位數(shù)存儲(chǔ)的數(shù)據(jù)類(lèi)型。

低位（Lower-bit）數(shù)據(jù)計(jì)算可以用包含較少晶體管的執(zhí)行單元進(jìn)行。這產(chǎn)生了兩個(gè)好處。首先，如果每個(gè)執(zhí)行單元需要更少的晶體管，芯片可以包括更多的并行執(zhí)行單元。其次，低位計(jì)算更有效率，需要更少的操作。. 一個(gè)8位執(zhí)行單元使用比16位執(zhí)行單元少6倍的電路面積和6倍的能源。

（3）內(nèi)存優(yōu)化

如果AI算法的內(nèi)存訪問(wèn)模式是可預(yù)測(cè)的，那么AI芯片可以?xún)?yōu)化這些可預(yù)測(cè)用途的內(nèi)存數(shù)量、位置和類(lèi)型。例如，一些AI芯片包括足夠的

內(nèi)存來(lái)存儲(chǔ)整個(gè)AI算法。與片外存儲(chǔ)器通信相比，片內(nèi)存儲(chǔ)器訪問(wèn)提供了更好的效率和速度改進(jìn)。

當(dāng)模型變得太大而無(wú)法存儲(chǔ)在單個(gè)AI芯片上時(shí)，模型并行性成為一個(gè)特別有用的工具；通過(guò)分割模型，可以在并行連接的不同AI芯片上訓(xùn)練不同的部分。

相比之下，大多數(shù)CPU都是基于“馮諾依曼”設(shè)計(jì)，其中包括一個(gè)單一的中央總線——一個(gè)在CPU和存儲(chǔ)程序代碼和數(shù)據(jù)的單獨(dú)內(nèi)存芯片之間共享數(shù)據(jù)的通信系統(tǒng)?？紤]到總線的帶寬有限，CPU必須順序地單獨(dú)訪問(wèn)代碼和數(shù)據(jù)，并經(jīng)歷一個(gè)“馮諾依曼瓶頸”，其中內(nèi)存訪問(wèn)延遲阻止CPU通過(guò)高晶體管開(kāi)關(guān)速度獲得更快的速度。

馮·諾依曼設(shè)計(jì)對(duì)于通用計(jì)算是有用的，但AI芯片不需要馮諾依曼設(shè)計(jì)或經(jīng)歷馮諾依曼瓶頸。

（4）特定領(lǐng)域的語(yǔ)言

特定領(lǐng)域語(yǔ)言（Domain-specific languages ：DSL）為在專(zhuān)用芯片上運(yùn)行的專(zhuān)用應(yīng)用程序提供了效率增益。

程序員以人類(lèi)理解的方式，使用計(jì)算機(jī)語(yǔ)言編寫(xiě)計(jì)算機(jī)代碼（即計(jì)算機(jī)看得懂的指令）。計(jì)算機(jī)程序稱(chēng)為編譯器（或解釋器），然后將此代碼轉(zhuǎn)換為處理器直接可讀和可執(zhí)行的表單。不同的計(jì)算機(jī)語(yǔ)言在不同的抽象層次上運(yùn)作。

例如，像Python這樣的高級(jí)編程語(yǔ)言被簡(jiǎn)化為人類(lèi)可訪問(wèn)性，但是Python代碼在執(zhí)行時(shí)往往相對(duì)較慢，因?yàn)閷⑷祟?lèi)的高級(jí)指令轉(zhuǎn)換為為特定處理器優(yōu)化的機(jī)器代碼的復(fù)雜性很高。相比之下，在較低抽象級(jí)別上操作的C類(lèi)編程語(yǔ)言需要更復(fù)雜的代碼（以及程序員的努力），但它們的代碼執(zhí)行效率往往更高，因?yàn)楦菀邹D(zhuǎn)換成為特定處理器優(yōu)化的機(jī)器代碼。然而，這兩個(gè)例子都是通用編程語(yǔ)言，其代碼可以實(shí)現(xiàn)各種各樣的計(jì)算，但不是專(zhuān)門(mén)為特定計(jì)算有效地轉(zhuǎn)換成機(jī)器代碼的。

相比之下，DSL是專(zhuān)門(mén)為專(zhuān)用芯片高效編程和執(zhí)行的。一個(gè)值得注意的例子是谷歌的TensorFlow，它是DSL，它的代碼在AI芯片上運(yùn)行的效率比任何通用語(yǔ)言都高。有時(shí)，DSL的優(yōu)點(diǎn)可以通過(guò)PyTorch 這樣的專(zhuān)門(mén)代碼庫(kù)來(lái)實(shí)現(xiàn)：這些代碼庫(kù)將專(zhuān)門(mén)的AI處理器的知識(shí)打包在通用語(yǔ)言（例如Python在這種情況下）可以調(diào)用的函數(shù)中。

AI芯片類(lèi)型

如上所述，人工智能芯片包括三類(lèi)：圖形處理器（GPU）、現(xiàn)場(chǎng)可編程門(mén)陣列（FPGA）和專(zhuān)用集成電路（ASIC）。

GPU最初是為得益于并行計(jì)算的圖像處理應(yīng)用而設(shè)計(jì)的。2012年，GPU開(kāi)始被越來(lái)越多地用于訓(xùn)練人工智能系統(tǒng)，到2017年，GPU占據(jù)主導(dǎo)地位。GPU有時(shí)也用于推理。然而，盡管GPU允許可以比CPU有更大程度的并行，但它仍然是為通用計(jì)算而設(shè)計(jì)的。

最近，專(zhuān)用FPGA和ASIC在推理方面變得更加突出，因?yàn)榕cGPU相比，它們提高了效率。ASIC也越來(lái)越多地用于訓(xùn)練。FPGA包括邏輯模塊（即每個(gè)模塊包含一組晶體管）其互連可以在制造后由程序員重新配置以適應(yīng)特定的算法，而ASIC包括為特定算法定制的硬連線電路。領(lǐng)先的ASIC通常比FPGA提供更高的效率，而FPGA比ASIC更易于定制，并隨著人工智能算法的發(fā)展而促進(jìn)設(shè)計(jì)優(yōu)化。相比之下，隨著新的人工智能算法的開(kāi)發(fā)，ASIC正變得越來(lái)越過(guò)時(shí)。

考慮到每個(gè)任務(wù)對(duì)芯片的不同要求，可以使用不同的AI芯片進(jìn)行訓(xùn)練和推理。

首先，不同形式的數(shù)據(jù)和模型的并行性適合于訓(xùn)練和推理。因?yàn)橛?xùn)練需要在與推理共享的步驟之上增加計(jì)算步驟。

其次，盡管訓(xùn)練實(shí)際上總是受益于數(shù)據(jù)并行，但推理通常不會(huì)。例如，可以一次對(duì)單條數(shù)據(jù)執(zhí)行推斷。然而，對(duì)于某些應(yīng)用程序，可以并行地對(duì)許多數(shù)據(jù)執(zhí)行推理，特別是當(dāng)應(yīng)用程序需要快速推斷大量不同的數(shù)據(jù)時(shí)。

第三，根據(jù)應(yīng)用的不同，訓(xùn)練和推理的效率和速度的相對(duì)重要性可能不同。對(duì)于訓(xùn)練，效率和速度對(duì)于人工智能研究人員高效、快速地迭代研究項(xiàng)目都很重要。

對(duì)于推理，高推理速度可能是必不可少的，因?yàn)樵S多人工智能應(yīng)用部署在關(guān)鍵系統(tǒng)中（例如，自動(dòng)車(chē)輛）?；蛘卟荒蜔┑挠脩?hù)（例如，對(duì)圖像進(jìn)行分類(lèi)的移動(dòng)應(yīng)用程序）需要快速、實(shí)時(shí)的數(shù)據(jù)分類(lèi)。

另一方面，有效的推理速度可能存在上限。例如，推理不需要比用戶(hù)對(duì)移動(dòng)應(yīng)用程序的反應(yīng)時(shí)間更快。

推理芯片比訓(xùn)練芯片需要更少的研究突破，因?yàn)樗鼈儽扔?xùn)練芯片需要更少的計(jì)算優(yōu)化。與GPU和FPGA相比，ASIC需要的研究突破更少。由于ASIC僅針對(duì)特定算法進(jìn)行優(yōu)化，設(shè)計(jì)工程師考慮的變量要少得多。

為了設(shè)計(jì)只用于一次計(jì)算的電路，工程師可以簡(jiǎn)單地將計(jì)算轉(zhuǎn)化為針對(duì)該計(jì)算進(jìn)行優(yōu)化的電路。但是，要設(shè)計(jì)用于多種類(lèi)型計(jì)算的電路，工程師必須預(yù)測(cè)哪種電路能夠很好地完成各種任務(wù)。其中許多是事先未知的。

人工智能芯片的商業(yè)化依賴(lài)于其通用功能的程度。GPU早已廣泛商業(yè)化，F(xiàn)PGA也是如此，只是程度較低。同時(shí)，由于高設(shè)計(jì)成本和專(zhuān)業(yè)化驅(qū)動(dòng)的低容量，ASIC更難以商業(yè)化。然而，在通用芯片改進(jìn)速度緩慢的時(shí)代，專(zhuān)用芯片相對(duì)更經(jīng)濟(jì)。因?yàn)樵谙乱淮鶦PU達(dá)到相同的加速比或效率之前，它具有更長(zhǎng)的使用壽命。在當(dāng)前CPU進(jìn)步緩慢的時(shí)代，如果一個(gè)AI芯片的速度提高了10-100倍，那么只要1.5 - 8.3萬(wàn)的銷(xiāo)量就足夠讓AI芯片變得經(jīng)濟(jì)。預(yù)計(jì)人工智能芯片市場(chǎng)規(guī)模的增長(zhǎng)可能會(huì)創(chuàng)造規(guī)模經(jīng)濟(jì)，這將使越來(lái)越窄的人工智能ASIC有利可圖。

人工智能芯片有不同的等級(jí)，功能有強(qiáng)有弱。在高端，服務(wù)器級(jí)人工智能芯片通常用于高端應(yīng)用的數(shù)據(jù)中心，在封裝后，比其他人工智能芯片更大。中端是消費(fèi)者常用的PC級(jí)AI芯片。在低端，移動(dòng)人工智能芯片通常用于推理，并集成到系統(tǒng)級(jí)芯片中，該芯片還包括一個(gè)CPU。移動(dòng)系統(tǒng)芯片需要小型化才能適合移動(dòng)設(shè)備。在每一個(gè)級(jí)別，人工智能芯片市場(chǎng)份額的增長(zhǎng)都是以犧牲非人工智能芯片為代價(jià)的。

超級(jí)計(jì)算機(jī)與人工智能的相關(guān)性有限，但正在不斷增強(qiáng)。最常見(jiàn)的是，服務(wù)器級(jí)芯片分布在數(shù)據(jù)中心，可以按順序執(zhí)行，也可以在稱(chēng)為“網(wǎng)格計(jì)算”的設(shè)置中并行執(zhí)行。超級(jí)計(jì)算機(jī)采用服務(wù)器級(jí)芯片，將它們物理地放在一起并連接在一起，并增加了昂貴的冷卻設(shè)備以防止過(guò)熱。這種設(shè)置提高了速度，但大大降低了效率，對(duì)于許多需要快速分析的應(yīng)用程序來(lái)說(shuō)，這是一種可接受的折衷方案。目前很少有人工智能應(yīng)用能證明更高速度的額外成本是合理的。但大型人工智能算法的訓(xùn)練或推理有時(shí)非常緩慢，以至于只能使用超級(jí)計(jì)算機(jī)作為最后的手段。因此，盡管CPU傳統(tǒng)上一直是超級(jí)計(jì)算芯片的首選，但人工智能芯片現(xiàn)在正在占據(jù)越來(lái)越大的份額。2018年，GPU承擔(dān)了全球新增超級(jí)計(jì)算機(jī)計(jì)算能力的大部分。

先進(jìn)AI芯片的價(jià)值

領(lǐng)先的節(jié)點(diǎn)AI芯片對(duì)于高性?xún)r(jià)比、快速訓(xùn)練和推理AI算法越來(lái)越必要。這是因?yàn)樗鼈兿鄬?duì)于最先進(jìn)的CPU表現(xiàn)出效率和速度的提升和尾隨節(jié)點(diǎn)AI芯片。而且，效率轉(zhuǎn)化為芯片成本（芯片生產(chǎn)成本的總和）的總體成本效益。（即設(shè)計(jì)、制造、組裝、測(cè)試和封裝成本）。最后，許多計(jì)算密集型AI算法的訓(xùn)練和推理的成本和速度瓶頸，使得AI開(kāi)發(fā)者和用戶(hù)需要最先進(jìn)的AI芯片來(lái)保持在AI研發(fā)和部署方面的競(jìng)爭(zhēng)力。

最先進(jìn)的AI芯片的效率轉(zhuǎn)化為成本效益。

效率轉(zhuǎn)化為整體成本效益。對(duì)于trailing nodes，芯片運(yùn)營(yíng)成本（由于能耗成本）主導(dǎo)著芯片生產(chǎn)成本，并迅速膨脹到難以管理的水平。即使對(duì)于先進(jìn)節(jié)點(diǎn)，運(yùn)營(yíng)成本也與生產(chǎn)成本類(lèi)似，這意味著需要繼續(xù)優(yōu)化以提高效率。

表2給出了一個(gè)CSET芯片生產(chǎn)和運(yùn)行成本模型的結(jié)果，該模型針對(duì)的是與Nvidia P100 GPU類(lèi)似規(guī)格的服務(wù)器級(jí)5nm芯片相同數(shù)量的90 - 5nm節(jié)點(diǎn)。這意味著5納米以上的芯片需要更大的表面積。對(duì)于5nm以上的節(jié)點(diǎn)，該模型可以等效地解釋為生產(chǎn)多個(gè)芯片，這些芯片的晶體管計(jì)數(shù)為一個(gè)5nm芯片。該模型采用無(wú)晶圓廠設(shè)計(jì)公司的視角，在2020年設(shè)計(jì)芯片，從臺(tái)積電代工，然后在自己的服務(wù)器上運(yùn)行芯片。這與谷歌等公司的做法類(lèi)似。谷歌在內(nèi)部設(shè)計(jì)TPU，將制造外包給臺(tái)積電，然后在谷歌服務(wù)器上運(yùn)行自己的TPUs，向外部客戶(hù)提供人工智能應(yīng)用程序或云計(jì)算服務(wù)。

費(fèi)用細(xì)分如下。代工廠支付的代工銷(xiāo)售價(jià)格包括資金消耗（即建廠和收購(gòu)中小企業(yè)的成本）、材料、人工、代工研發(fā)和利潤(rùn)率。無(wú)晶圓廠的公司還會(huì)額外增加芯片設(shè)計(jì)成本。制造完成后，外包的半導(dǎo)體和測(cè)試公司對(duì)芯片進(jìn)行組裝、測(cè)試和封裝（ATP）。代工銷(xiāo)售價(jià)格、芯片設(shè)計(jì)成本、ATP成本之和等于每片芯片的生產(chǎn)總成本。無(wú)晶圓廠的公司在操作芯片時(shí)也會(huì)產(chǎn)生能源成本。我們根據(jù)每千瓦時(shí)0.07625美元的電力成本來(lái)估算能源成本。

首先，在不到兩年的時(shí)間內(nèi)，運(yùn)營(yíng)一款先進(jìn)節(jié)點(diǎn)的AI芯片（7或5nm）的成本超過(guò)生產(chǎn)所述芯片的成本，而運(yùn)行尾部節(jié)點(diǎn)AI芯片（90或65nm）的累積電力成本是生產(chǎn)這種芯片的成本的三到四倍。圖2顯示了連續(xù)使用長(zhǎng)達(dá)三年的總芯片成本：每個(gè)芯片的總生產(chǎn)成本在第0年增加。隨后每年增加使用該芯片的年度能源成本。這些結(jié)果表明，在計(jì)算生產(chǎn)和運(yùn)營(yíng)時(shí)，先進(jìn)節(jié)點(diǎn)AI芯片的成本效益是落后節(jié)點(diǎn)AI芯片費(fèi)用的33倍。同樣，由于先進(jìn)節(jié)點(diǎn)AI芯片的效率比先進(jìn)節(jié)點(diǎn)CPU高出一到三個(gè)數(shù)量級(jí)（表1），我們預(yù)計(jì)，在計(jì)算產(chǎn)量和OPE時(shí)，先進(jìn)節(jié)點(diǎn)AI芯片的成本效益也比先進(jìn)節(jié)點(diǎn)CPU高出1到3個(gè)數(shù)量級(jí)。

其次，生產(chǎn)和運(yùn)行5nm芯片的成本需要8.8年才能達(dá)到運(yùn)行7nm芯片的成本。8.8年后，7nm和5nm芯片更便宜。因此，只有當(dāng)預(yù)期使用5nm節(jié)點(diǎn)芯片8.8年時(shí)，用戶(hù)才有動(dòng)力更換現(xiàn)有的7nm節(jié)點(diǎn)芯片（假設(shè)它們不會(huì)發(fā)生故障）。圖2顯示了90 nm和5 nm之間的節(jié)點(diǎn)間比較。

我們發(fā)現(xiàn)，這些成本變得相等的時(shí)間段增加了，在7nm與5nm的比較中，成本急劇增加。公司通常會(huì)在運(yùn)營(yíng)三年后更換服務(wù)器級(jí)別的芯片，這與最近引入新節(jié)點(diǎn)的時(shí)間框架是一致的，依賴(lài)先進(jìn)節(jié)點(diǎn)芯片的公司在新推出的節(jié)點(diǎn)芯片一上市就立即購(gòu)買(mǎi)。然而，如果公司開(kāi)始購(gòu)買(mǎi)5nm節(jié)點(diǎn)芯片，他們可能期望更長(zhǎng)時(shí)間地使用這些芯片。這將構(gòu)成一個(gè)市場(chǎng)預(yù)測(cè)，即摩爾定律正在放緩，3nm節(jié)點(diǎn)可能在很長(zhǎng)一段時(shí)間內(nèi)不會(huì)推出。

計(jì)算密集型人工智能算法受到芯片成本和速度的瓶頸制約。

人工智能公司在人工智能相關(guān)計(jì)算上花費(fèi)的時(shí)間和金錢(qián)已經(jīng)成為人工智能發(fā)展的瓶頸。鑒于先進(jìn)節(jié)點(diǎn)AI芯片比落后節(jié)點(diǎn)AI芯片或先進(jìn)節(jié)點(diǎn)CPU更具成本效益且速度更快，因此這些AI實(shí)驗(yàn)室需要先進(jìn)節(jié)點(diǎn)AI芯片來(lái)繼續(xù)推進(jìn)AI進(jìn)展。

第一，人工智能實(shí)驗(yàn)室DeepMind領(lǐng)先的人工智能實(shí)驗(yàn)，如AlphaGo、AlphaGo Zero、AlphaZero和AlphaStar的訓(xùn)練成本。估計(jì)每項(xiàng)費(fèi)用為500萬(wàn)至1億美元。一個(gè)成本模型顯示，AlphaGo Zero的訓(xùn)練成本為3500萬(wàn)美元。人工智能實(shí)驗(yàn)室OpenAI報(bào)告稱(chēng)，在2017年2800萬(wàn)美元的總成本中，有800萬(wàn)美元用于云計(jì)算。將這些計(jì)算成本乘以30，用于trailing node AI芯片，或甚至更多用于先進(jìn)節(jié)點(diǎn)CPU，會(huì)使這種實(shí)驗(yàn)在經(jīng)濟(jì)上變得不可行。一些人工智能公司的計(jì)算成本增長(zhǎng)如此之快，可能很快就會(huì)達(dá)到成本上限。從而需要最高效的人工智能芯片。

其次，領(lǐng)先的人工智能實(shí)驗(yàn)可能需要幾天甚至一個(gè)月的時(shí)間進(jìn)行訓(xùn)練。雖然部署了關(guān)鍵的人工智能系統(tǒng)，但通常需要快速或?qū)崟r(shí)推理。通過(guò)使用trailing node的AI芯片或引導(dǎo)節(jié)點(diǎn)的CPU來(lái)增加這些時(shí)間，將使得AI研發(fā)所需的迭代速度和部署的關(guān)鍵人工智能系統(tǒng)慢得令人無(wú)法接受。一家芯片速度較慢的公司可以嘗試通過(guò)并行使用大量速度較慢的芯片來(lái)支付巨大的能源成本以提高速度。但這一策略可能會(huì)失敗，原因有二。首先，正如附錄A 的A節(jié)所討論的，領(lǐng)先的實(shí)驗(yàn)需要人工智能研究人員調(diào)整人工智能算法，以支持更多的數(shù)據(jù)和模型并行性。人工智能研究人員可以在有限的程度上做到這一點(diǎn)。但如果試圖并行使用比目前領(lǐng)先的人工智能實(shí)驗(yàn)所使用的更多數(shù)量的人工智能芯片，可能會(huì)面臨困難。另一方面，即使在算法上可行，這種并行也需要互補(bǔ)的軟件和網(wǎng)絡(luò)技術(shù)來(lái)實(shí)現(xiàn)。并行擴(kuò)展數(shù)百或數(shù)千個(gè)GPU是極其困難的，如果擴(kuò)展更大數(shù)量trailing node的GPU，可能會(huì)比以及當(dāng)前的能力。

新的Cerebras晶圓級(jí)引擎芯片為網(wǎng)絡(luò)技術(shù)提供了一個(gè)有趣的潛在解決方案。它是第一個(gè)晶圓級(jí)芯片，比其他任何人工智能芯片的表面積都大得多。這意味著可以在單個(gè)芯片上實(shí)現(xiàn)很大程度的并行性，減少多個(gè)芯片之間對(duì)先進(jìn)網(wǎng)絡(luò)技術(shù)的需求。

對(duì)這一分析的警告是，最近的一些人工智能突破并不需要大量的計(jì)算能力。此外，正在進(jìn)行的研究是開(kāi)發(fā)需要最少訓(xùn)練的人工智能算法（例如“幾次射擊”學(xué)習(xí)技術(shù)）。對(duì)于這些人工智能算法，將小成本或速度乘以大數(shù)字仍可能產(chǎn)生小成本或速度。

美國(guó)和中國(guó)的AI芯片競(jìng)爭(zhēng)

最先進(jìn)的AI芯片對(duì)于高級(jí)AI系統(tǒng)是必不可少的。美國(guó)及其盟國(guó)在生產(chǎn)與AI芯片相關(guān)的半導(dǎo)體領(lǐng)域中具有競(jìng)爭(zhēng)優(yōu)勢(shì)。美國(guó)公司主導(dǎo)著AI芯片設(shè)計(jì)，其中包括用于設(shè)計(jì)芯片的電子設(shè)計(jì)自動(dòng)化（EDA）軟件。中國(guó)的AI芯片設(shè)計(jì)公司落后于美國(guó)，他們需要依靠美國(guó)EDA軟件來(lái)設(shè)計(jì)其AI芯片。

美國(guó)，中國(guó)臺(tái)灣和韓國(guó)公司控制著大多數(shù)可以制造最先進(jìn)的AI芯片的晶圓代工廠（“ fabs”），盡管一家中國(guó)公司最近獲得了一小部分市場(chǎng)占有率。但是，中國(guó)的AI芯片設(shè)計(jì)公司大都將制造外包給了非中國(guó)大陸的fab，因?yàn)樗鼈兊漠a(chǎn)能更大，而且制造質(zhì)量更高。

領(lǐng)先的節(jié)點(diǎn)AI芯片的成本效益和速度從政策的角度來(lái)看很重要。美國(guó)公司主導(dǎo)了人工智能芯片的設(shè)計(jì)，而中國(guó)公司在人工智能芯片設(shè)計(jì)上遠(yuǎn)遠(yuǎn)落后，依賴(lài)美國(guó)EDA軟件設(shè)計(jì)人工智能芯片，需要美國(guó)和盟國(guó)的中小企業(yè)和晶圓廠根據(jù)這些設(shè)計(jì)制造人工智能芯片。最先進(jìn)的人工智能芯片的價(jià)值，加上它們的供應(yīng)鏈集中在美國(guó)及其盟國(guó)，為美國(guó)及其盟國(guó)提供了一個(gè)杠桿點(diǎn)，以確保人工智能技術(shù)的有益開(kāi)發(fā)和采用。

美國(guó)公司NVIDIA和AMD壟斷了全球GPU設(shè)計(jì)市場(chǎng)，而中國(guó)最大的GPU公司景嘉微電子開(kāi)發(fā)的GPU速度非常慢。同樣，美國(guó)公司Xilinx和英特爾主導(dǎo)了全球FPGA市場(chǎng)，但中國(guó)領(lǐng)先的FPGA公司還有很長(zhǎng)的一段距離。

在人工智能ASIC市場(chǎng)，特別是推理市場(chǎng)，分布著較多廠商，因?yàn)锳SIC和推理芯片更容易設(shè)計(jì)，進(jìn)入門(mén)檻較低。與GPU和FPGA不同，活躍在AI領(lǐng)域的公司，如谷歌、特斯拉和亞馬遜，已經(jīng)開(kāi)始為自己的AI應(yīng)用設(shè)計(jì)專(zhuān)用的AI芯片了。谷歌的TPU是一個(gè)典型例子。英特爾也在開(kāi)發(fā)性能強(qiáng)大的專(zhuān)用AI芯片，并聲稱(chēng)這些ASIC的效率和速度分別實(shí)現(xiàn)了10，000x和1，000x的提升。

而在專(zhuān)用AI芯片領(lǐng)域具有競(jìng)爭(zhēng)力的中國(guó)公司包括燧原、百度、阿里巴巴、騰訊、華為海思、寒武紀(jì)、云天勵(lì)飛和地平線等。中國(guó)研究人員還制作了用于高端研究的ASIC。然而，它們?cè)诤艽蟪潭壬蟽H限于推理，不過(guò)，華為最近宣布研發(fā)出了一款人工智能訓(xùn)練ASIC。

可以看到，美國(guó)人工智能芯片設(shè)計(jì)公司的產(chǎn)品都在臺(tái)積電（TSMC）、三星或英特爾制造，而制程都比較先進(jìn)，以7nm、10 nm和16 nm為主。還有一點(diǎn)值得注意，美國(guó)GPU芯片使用的先進(jìn)制程節(jié)點(diǎn)比FPGA和ASIC的要多，之所以如此，很可能是因?yàn)镚PU的通用性強(qiáng)，具有更高的銷(xiāo)售量，從而可以攤平更先進(jìn)制程的設(shè)計(jì)和制造成本。

專(zhuān)家對(duì)AI芯片使用先進(jìn)制程節(jié)點(diǎn)的必要性存在分歧。EDA公司的一位高管說(shuō)：“每個(gè)想做AI的人都需要7nm及更先進(jìn)制程的性能、功率效率等因素。與此同時(shí)，香港應(yīng)用科學(xué)技術(shù)研究所的一位半導(dǎo)體研究員則持不同觀點(diǎn)：“對(duì)于人工智能芯片，如果使用28nm制程工藝技術(shù)，而不是10nm或14nm技術(shù)，則制造成本就會(huì)低得多，如果使用先進(jìn)制程，你就需要從零開(kāi)始，花很多精力在數(shù)學(xué)模型、物理層和計(jì)算語(yǔ)言的研究上，而所有這些都需要投資，只有少數(shù)晶圓廠能夠制造接近最先進(jìn)的AI芯片，如下圖所示，全球只有大約8.5%的晶圓廠產(chǎn)能可以用來(lái)制造接近最先進(jìn)的AI芯片，目前，只有很少一部分產(chǎn)能可以制造最先進(jìn)的AI芯片（圖中藍(lán)色部分），而用于制造最先進(jìn)人工智能芯片的實(shí)際產(chǎn)能百分比很難計(jì)算，并且在逐年變化。

其次，中國(guó)AI芯片設(shè)計(jì)公司中，GPU和FPGA使用的是非先進(jìn)制程節(jié)點(diǎn)，而ASIC既使用了先進(jìn)節(jié)點(diǎn)，也使用了非先進(jìn)節(jié)點(diǎn)。盡管中國(guó)在這些非先進(jìn)節(jié)點(diǎn)上具有一定的本地制造能力，但中國(guó)的AI芯片設(shè)計(jì)公司仍然大多將這些制程節(jié)點(diǎn)芯片外包給了臺(tái)積電，這可能反映了臺(tái)積電的制造工藝更可靠。

這是因?yàn)橹袊?guó)大陸的先進(jìn)半導(dǎo)體設(shè)備生產(chǎn)水平比較有限。另外，中國(guó)的人工智能芯片設(shè)計(jì)公司也依靠美國(guó)EDA軟件。因此，中國(guó)仍然要依賴(lài)美國(guó)及其盟友才能實(shí)現(xiàn)AI芯片生產(chǎn)。

中國(guó)已經(jīng)在人工智能推理方面取得了巨大成功，因?yàn)橹袊?guó)擁有大量受過(guò)良好教育的工程師，他們非常適合在特定芯片上實(shí)現(xiàn)極佳性能的勞動(dòng)密集型設(shè)計(jì)任務(wù)。然而，考慮到中國(guó)相對(duì)年輕的人工智能芯片設(shè)計(jì)行業(yè)，中國(guó)公司尚未掌握實(shí)現(xiàn)GPU和FPGA更大優(yōu)化空間和更高復(fù)雜性所需的隱性知識(shí)（know-how）。

中國(guó)在AI芯片供應(yīng)鏈的關(guān)鍵環(huán)節(jié)能力不足，包括芯片設(shè)計(jì)、EDA軟件、半導(dǎo)體制造設(shè)備和晶圓廠，這意味著美國(guó)及其盟國(guó)在生產(chǎn)領(lǐng)先的AI芯片方面保持競(jìng)爭(zhēng)優(yōu)勢(shì)。正如第七節(jié)所討論的，領(lǐng)先的人工智能芯片對(duì)于開(kāi)發(fā)和部署先進(jìn)的、與安全相關(guān)的人工智能系統(tǒng)來(lái)說(shuō)，具有戰(zhàn)略?xún)r(jià)值。因此，保持這一優(yōu)勢(shì)對(duì)美國(guó)及其盟國(guó)至關(guān)重要。

此外，美國(guó)，荷蘭和日本公司共同控制著晶圓廠使用的半導(dǎo)體制造設(shè)備（SME）的市場(chǎng)。但是，這些優(yōu)勢(shì)可能會(huì)消失，尤其是在中國(guó)努力建設(shè)先進(jìn)芯片產(chǎn)業(yè)的情況下。鑒于最先進(jìn)的AI芯片對(duì)安全性的重要性，美國(guó)及其盟國(guó)必須在生產(chǎn)這些芯片時(shí)保護(hù)其競(jìng)爭(zhēng)優(yōu)勢(shì)。
責(zé)任編輯：tzh

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
463

文章
54507

瀏覽量
470061
eda

eda

+關(guān)注

關(guān)注
72

文章
3149

瀏覽量
183932
AI

AI

+關(guān)注

關(guān)注
91

文章
41523

瀏覽量
302856
人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50403

瀏覽量
267286

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

關(guān)于人工智能芯片方面的一些小知識(shí)

評(píng)論