日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能工作負(fù)載正在顛覆處理器設(shè)計(jì)

AI智勝未來(lái) ? 來(lái)源:戰(zhàn)略前沿技術(shù) ? 2023-11-15 09:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能工作負(fù)載正在以一些意想不到的方式改變處理器設(shè)計(jì)。

人工智能正在從根本上改變處理器的設(shè)計(jì),將針對(duì)特定人工智能工作負(fù)載的定制處理單元與用于其他任務(wù)的更傳統(tǒng)的處理器相結(jié)合。

但權(quán)衡越來(lái)越令人困惑、復(fù)雜,管理起來(lái)也越來(lái)越具有挑戰(zhàn)性。例如,工作負(fù)載的變化速度可能比生產(chǎn)定制設(shè)計(jì)所需的時(shí)間還要快。此外,特定于人工智能的流程產(chǎn)生的功率和熱可能會(huì)超出預(yù)算,這可能需要調(diào)整工作負(fù)載。整合所有這些部分可能會(huì)產(chǎn)生需要在系統(tǒng)層面解決的問(wèn)題,而不僅僅是在芯片層面。

“人工智能工作負(fù)載已經(jīng)徹底改變了處理器架構(gòu),”Rambus研究員、杰出的發(fā)明家史蒂文?吳(Steven Woo)表示?!昂苊黠@,現(xiàn)有的架構(gòu)并不能很好地工作。當(dāng)人們?cè)?014年開(kāi)始意識(shí)到你可以使用gpu并在交換性能上獲得巨大收益時(shí),它就給了人工智能一個(gè)巨大的推動(dòng)。這時(shí)人們開(kāi)始說(shuō),‘GPU是一種專(zhuān)門(mén)的架構(gòu)。我們還能做得更多嗎?很明顯,人工智能中非常常見(jiàn)的乘法累加是瓶頸?,F(xiàn)在你有了這些很棒的硬件。我們已經(jīng)搞定了乘法累加。那么我們還需要在硬件中加入什么呢?這才是架構(gòu)的真諦。就如同在拆帳篷時(shí)關(guān)鍵是找到帳篷里的掛鉤或長(zhǎng)桿子,然后把它們敲倒。”

其他人也同意。Ansys主管Rich Goldman表示:“人工智能適合GPU架構(gòu),這就是英偉達(dá)擁有萬(wàn)億美元市值的原因?!薄坝腥さ氖?,英特爾做gpu已經(jīng)很長(zhǎng)時(shí)間了,但是用來(lái)在他們的cpu內(nèi)部驅(qū)動(dòng)視頻處理器?,F(xiàn)在他們?cè)谧霆?dú)立的gpu。此外,AMD有一個(gè)非常有趣的架構(gòu),GPU和CPU共享內(nèi)存。然而,CPU仍然很重要。NVIDIA的Grace Hopper是cpu和GPU的組合,因?yàn)椴⒉皇撬械臇|西都適合GPU架構(gòu)。即使在這樣做的應(yīng)用程序中,也有一些部件只能運(yùn)行小型cpu。幾十年來(lái),我們一直在x86架構(gòu)的CPU上運(yùn)行,也許是RISC架構(gòu),但它是一個(gè)CPU。不同的應(yīng)用程序在不同的架構(gòu)上運(yùn)行得更好,碰巧NVIDIA首先專(zhuān)注于視頻游戲,并將其轉(zhuǎn)化為動(dòng)畫(huà)和電影。同樣的架構(gòu)非常適合人工智能,而人工智能正在推動(dòng)今天的一切?!?/p>

現(xiàn)在的挑戰(zhàn)是如何開(kāi)發(fā)更有效的平臺(tái),可以針對(duì)特定的用例進(jìn)行優(yōu)化?!爱?dāng)你在真正可擴(kuò)展的硬件上實(shí)現(xiàn)這個(gè)東西時(shí),而不僅僅是一次性的用例,那么挑戰(zhàn)就變成了你如何運(yùn)行這個(gè)東西?Cadence Tensilica AI產(chǎn)品營(yíng)銷(xiāo)總監(jiān)Suhas Mitra說(shuō)?!皞鹘y(tǒng)的處理器,我們有一個(gè)CPU。如果你有一個(gè)移動(dòng)平臺(tái),你就有GPU、DSP等。所有這些都很混亂,因?yàn)槿藗兛吹竭@些工作負(fù)載有時(shí)是令人尷尬的并行。隨著并行計(jì)算的出現(xiàn),這也是gpu變得非常流行的原因——它們擁有非常好的硬件引擎,可以進(jìn)行并行處理——供應(yīng)商很容易立即獲利?!?/p>

Expedera的首席科學(xué)家沙拉德?喬勒(Sharad Chole)表示,當(dāng)工作量得到明確的理解時(shí),這種方法效果最好?!霸谶@些架構(gòu)中,假設(shè)你試圖在邊緣架構(gòu)中以緊密耦合的方式集成ISP和NPU。SoC負(fù)責(zé)人正在研究如何減少設(shè)計(jì)的面積和功耗?!?/p>

Chole說(shuō),這里的挑戰(zhàn)是理解架構(gòu)中內(nèi)存部分的延遲含義。“如果NPU很慢,內(nèi)存會(huì)是什么樣子?當(dāng)NPU快速運(yùn)行時(shí),內(nèi)存會(huì)是什么樣子?最后,平衡mac和平衡內(nèi)存之間的問(wèn)題來(lái)自于我們?cè)噲D盡可能減少輸入和輸出緩沖?!?/p>

外部?jī)?nèi)存帶寬也是其中的關(guān)鍵部分,特別是對(duì)于邊緣設(shè)備。“沒(méi)有人有足夠的帶寬,”他補(bǔ)充說(shuō)。“那么,我們?nèi)绾蝿澐止ぷ髫?fù)載或調(diào)度神經(jīng)網(wǎng)絡(luò),以使外部?jī)?nèi)存帶寬持續(xù)下去,并盡可能低?這基本上是我們通過(guò)打包或?qū)⑸窠?jīng)網(wǎng)絡(luò)分成更小的部分并嘗試執(zhí)行這兩個(gè)部分來(lái)做的事情?!?/p>

為快速變化的未來(lái)而設(shè)計(jì)

人工智能的一個(gè)大問(wèn)題是,算法和計(jì)算模型的發(fā)展和變化速度比它們從零開(kāi)始設(shè)計(jì)的速度要快。

Rambus Woo說(shuō):“如果你說(shuō)你要制造一個(gè)在LSTM(長(zhǎng)短期記憶)模型上非常出色的CPU,那么這個(gè)周期是幾年?!?/p>

“然后你會(huì)意識(shí)到,在兩年的時(shí)間里,LSTM模型來(lái)了又走,成為了主流。你想做專(zhuān)門(mén)的硬件,但你必須做得更快才能跟上。我們創(chuàng)造硬件的速度是否能和改變算法的速度一樣快?這當(dāng)然很好,但我們不能這么做,即使整個(gè)行業(yè)都在被迫這么做。

這也意味著處理人工智能工作負(fù)載的處理器的架構(gòu)將不同于不關(guān)注人工智能工作負(fù)載的處理器。“如果你看看這些用于訓(xùn)練的引擎,它們不會(huì)運(yùn)行Linux或Word,因?yàn)樗鼈儾皇菫橥ㄓ梅种?、廣泛的指令或支持廣泛的語(yǔ)言而設(shè)計(jì)的,”Woo說(shuō)?!八鼈兓旧鲜亲罨镜囊?,在少數(shù)類(lèi)型的操作中運(yùn)行得非???。它們對(duì)執(zhí)行計(jì)算所需的特定數(shù)據(jù)移動(dòng)模式進(jìn)行了高度調(diào)優(yōu)。例如,在谷歌TPU中,收縮陣列架構(gòu)自20世紀(jì)80年代以來(lái)一直存在。它非常擅長(zhǎng)在大型數(shù)據(jù)陣列上完成一種特定類(lèi)型的均勻分布的工作,所以它非常適合這些密集的神經(jīng)網(wǎng)絡(luò)。但是運(yùn)行通用代碼并不是這些東西的設(shè)計(jì)目的。它們更像是大規(guī)模的協(xié)處理器,可以很好地完成大部分計(jì)算,但它們?nèi)匀恍枰c其他可以管理其余計(jì)算的東西連接?!?/p>

甚至基準(zhǔn)測(cè)試也是困難的,因?yàn)樗⒉豢偸且粋€(gè)蘋(píng)果與蘋(píng)果的比較,這使得開(kāi)發(fā)架構(gòu)變得困難?!斑@是一個(gè)很難的話題,因?yàn)椴煌娜耸褂貌煌墓ぞ邅?lái)導(dǎo)航,”Expedera的Chole說(shuō)?!霸谠O(shè)計(jì)工程師的日常工作中,這項(xiàng)任務(wù)看起來(lái)像是系統(tǒng)級(jí)的基準(zhǔn)測(cè)試。SoC的每個(gè)部分都要單獨(dú)進(jìn)行基準(zhǔn)測(cè)試,并試圖根據(jù)這些數(shù)字推斷所需的帶寬是多少。這是性能,這是我將得到的延遲。在此基礎(chǔ)上,你要試著估計(jì)整個(gè)系統(tǒng)的樣子。但隨著我們?cè)谠O(shè)計(jì)過(guò)程中取得更多進(jìn)展,我們正在研究某種基于模擬的方法,而不是完全的模擬,比如模擬中的事務(wù)精確模擬,以獲得不同設(shè)計(jì)塊的精確性能和精確帶寬要求。例如,有一個(gè)RISC-V和一個(gè)NPU,它們必須一起工作,完全共存。它們必須被流水線化嗎?他們的工作量可以流水線化嗎?RISC需要多少個(gè)精確的周期?為此,我們必須在RISC-V上編譯程序,在NPU上編譯程序,然后共同模擬?!?/p>

人工智能工作負(fù)載對(duì)處理器設(shè)計(jì)的影響

所有這些變量都會(huì)影響設(shè)計(jì)的處理器的功率、性能和面積/成本。

根據(jù)Arm的研究員兼高級(jí)技術(shù)總監(jiān)Ian Bratt的說(shuō)法,“PPA對(duì)ML工作負(fù)載的權(quán)衡與所有架構(gòu)師在考慮加速時(shí)所面臨的權(quán)衡類(lèi)似——能效與面積。在過(guò)去的幾年里,cpu在機(jī)器學(xué)習(xí)工作負(fù)載上有了明顯的提高,增加了特定于機(jī)器學(xué)習(xí)的加速指令。許多機(jī)器學(xué)習(xí)工作負(fù)載將在現(xiàn)代CPU上運(yùn)行得很好。但是,如果您處于高度受限的能源環(huán)境中,那么可能值得支付額外的硅面積成本來(lái)添加專(zhuān)用npu,這比用于ML推理的CPU更節(jié)能。這種效率是以額外的硅面積和犧牲靈活性為代價(jià)的;NPU IP通常只能運(yùn)行神經(jīng)網(wǎng)絡(luò)。此外,像NPU這樣的專(zhuān)用單元也可能比像CPU這樣更靈活的組件具有更高的整體性能(更低的延遲)。”

西門(mén)子EDA CATAPULT軟件部門(mén)的項(xiàng)目主管Russell Klein解釋說(shuō):“設(shè)計(jì)中有兩個(gè)主要方面將對(duì)其工作特性(PPA)產(chǎn)生最重要的影響。一個(gè)是計(jì)算中使用的數(shù)據(jù)表示。對(duì)于大多數(shù)機(jī)器學(xué)習(xí)計(jì)算來(lái)說(shuō),浮點(diǎn)數(shù)的效率非常低。使用更合適的表示可以使設(shè)計(jì)更快、更小、更低功耗?!?/p>

另一個(gè)主要因素是設(shè)計(jì)中計(jì)算單元的數(shù)量??巳R因說(shuō):“從本質(zhì)上講,設(shè)計(jì)中將內(nèi)置多少乘法器。”“這帶來(lái)了提供性能所需的并行性。一個(gè)設(shè)計(jì)可以有大量的乘法器,使其體積大、耗電量大、速度快。或者它可以只有幾個(gè),使其體積小,功耗低,但速度要慢得多。除了功率、性能和面積之外,另一個(gè)非常重要的度量是每次推理的能量。任何由電池供電或收集能量的東西,都可能比功率更敏感?!?/p>

特征和權(quán)重的數(shù)字表示也會(huì)對(duì)設(shè)計(jì)的PPA產(chǎn)生重大影響。

“在數(shù)據(jù)中心,一切都是32位浮點(diǎn)數(shù)。替代表示可以減少操作符的大小以及需要移動(dòng)和存儲(chǔ)的數(shù)據(jù)量,”他指出?!按蠖鄶?shù)人工智能算法不需要浮點(diǎn)數(shù)支持的全部范圍,并且可以很好地處理定點(diǎn)數(shù)。定點(diǎn)乘法器的面積和功率通常是相應(yīng)的浮點(diǎn)乘法器的1 / 2,而且運(yùn)行速度更快。通常,32位的定點(diǎn)表示也不需要。許多算法可以將特征和權(quán)重的位寬度減小到16位,或者在某些情況下減小到8位甚至更小。乘法器的大小和功率與它所操作的數(shù)據(jù)大小的平方成正比。因此,16位乘法器的面積和功率是32位乘法器的四分之一。8位定點(diǎn)乘法器的面積和功耗大約是32位浮點(diǎn)乘法器的3%。如果算法可以使用8位定點(diǎn)數(shù)而不是32位浮點(diǎn)數(shù),則只需要?的內(nèi)存來(lái)存儲(chǔ)數(shù)據(jù),并且只需要?的總線帶寬來(lái)移動(dòng)數(shù)據(jù)。這大大節(jié)省了面積和電力。通過(guò)量化感知訓(xùn)練,可以進(jìn)一步減小所需的比特寬度。通常,以量化感知方式訓(xùn)練的網(wǎng)絡(luò)需要的比特寬度大約是訓(xùn)練后量化網(wǎng)絡(luò)的二分之一。這將存儲(chǔ)和通信成本降低了1 / 2,乘法器的面積和功率降低了3 / 4。量化感知訓(xùn)練網(wǎng)絡(luò)通常只需要3-8位的定點(diǎn)表示。有時(shí)候,有些層可能只有一個(gè)位。一個(gè)1位乘法器是一個(gè)“與”門(mén)。

此外,當(dāng)積極量化網(wǎng)絡(luò)時(shí),溢出會(huì)成為一個(gè)重要問(wèn)題。使用32位浮點(diǎn)數(shù),開(kāi)發(fā)人員不需要擔(dān)心值超出表示的容量。但是對(duì)于小的定點(diǎn)數(shù),必須解決這個(gè)問(wèn)題。很可能會(huì)經(jīng)常發(fā)生溢出。使用飽和運(yùn)算符是解決這個(gè)問(wèn)題的一種方法。該操作將存儲(chǔ)表示的最大可能值,而不是溢出。事實(shí)證明,這對(duì)于機(jī)器學(xué)習(xí)算法非常有效,因?yàn)橐粋€(gè)大的中間和的確切大小并不重要,只要它變大就足夠了。使用飽和數(shù)學(xué)可以讓開(kāi)發(fā)人員從他們使用的固定點(diǎn)數(shù)的大小中減去1或2位。一些神經(jīng)網(wǎng)絡(luò)確實(shí)需要浮點(diǎn)表示提供的動(dòng)態(tài)范圍。它們?cè)谵D(zhuǎn)換為定點(diǎn)時(shí)失去了太多的精度,或者需要超過(guò)32位的表示才能提供良好的精度。在這種情況下,可以使用幾種浮點(diǎn)表示。谷歌為其N(xiāo)PU開(kāi)發(fā)的B-float16(或“腦浮點(diǎn)數(shù)”)是一個(gè)16位浮點(diǎn)數(shù),可以很容易地轉(zhuǎn)換為傳統(tǒng)浮點(diǎn)數(shù)。與較小的固定點(diǎn)數(shù)一樣,它會(huì)導(dǎo)致更小的乘數(shù)和更少的數(shù)據(jù)存儲(chǔ)和移動(dòng)。還有IEEE-754 16位浮點(diǎn)數(shù)和NVIDIA的Tensorfloat。”

使用這些方法中的任何一種都將導(dǎo)致更小、更快、更低功耗的設(shè)計(jì)。

此外,Woo說(shuō):“如果你有一個(gè)通用的核心,它確實(shí)擅長(zhǎng)做很多事情,但它不會(huì)做得很好。它只是一般的。在處理工作負(fù)載的任何時(shí)間點(diǎn),都會(huì)有通用核心的某些部分正在使用,某些部分沒(méi)有使用。擁有這些東西需要面積,需要力量。人們開(kāi)始意識(shí)到摩爾定律仍然會(huì)給我們帶來(lái)更多的晶體管,所以也許正確的做法是構(gòu)建這些擅長(zhǎng)AI流水線上某些任務(wù)的專(zhuān)門(mén)核心。有時(shí)你會(huì)關(guān)閉它們,有時(shí)你會(huì)打開(kāi)它們。但這比使用這些通用內(nèi)核要好,因?yàn)橥ㄓ脙?nèi)核總是浪費(fèi)一些面積和功率,而且永遠(yuǎn)無(wú)法獲得最佳性能。再加上一個(gè)愿意支付的市場(chǎng)——一個(gè)非常高利潤(rùn)、高美元的市場(chǎng)——這是一個(gè)很好的組合。”

在硬件工程領(lǐng)域,這也是一種相對(duì)容易理解的方法。Ansys的產(chǎn)品營(yíng)銷(xiāo)總監(jiān)Marc Swinnen說(shuō):“你打開(kāi)第一個(gè)版本,一旦安裝了它,你就會(huì)發(fā)現(xiàn)哪些是可行的,哪些是不可行的,然后嘗試解決問(wèn)題?!薄澳氵\(yùn)行的應(yīng)用程序?qū)τ诶斫膺@些權(quán)衡是至關(guān)重要的。如果您可以使您的硬件與您想要運(yùn)行的應(yīng)用程序相匹配,那么您將獲得比使用現(xiàn)成的東西更有效的設(shè)計(jì)。你為自己做的芯片正好適合你想做的事情?!?/p>

這就是為什么一些生成式人工智能開(kāi)發(fā)者正在探索構(gòu)建自己的芯片,這表明在他們看來(lái),即使是目前的半導(dǎo)體也不足以滿足他們未來(lái)想要做的事情。這是人工智能如何改變處理器設(shè)計(jì)和周?chē)袌?chǎng)動(dòng)態(tài)的又一個(gè)例子。

人工智能也可能在CHIPLET領(lǐng)域發(fā)揮重要作用,在這個(gè)領(lǐng)域,半定制和定制硬件模塊可以被表征并添加到設(shè)計(jì)中,而無(wú)需從頭開(kāi)始創(chuàng)建所有東西。像英特爾和AMD這樣的大型芯片制造商已經(jīng)在內(nèi)部這樣做了一段時(shí)間,但無(wú)晶圓廠公司處于劣勢(shì)。

“問(wèn)題在于,你的CHIPLET必須與現(xiàn)有的解決方案競(jìng)爭(zhēng),”弗勞恩霍夫研究所(Fraunhofer IIS)自適應(yīng)系統(tǒng)工程部高效電子部門(mén)主管安迪·海尼格(Andy Heinig)說(shuō)?!叭绻悻F(xiàn)在不專(zhuān)注于表現(xiàn),你就無(wú)法競(jìng)爭(zhēng)。人們專(zhuān)注于讓這個(gè)生態(tài)系統(tǒng)啟動(dòng)并運(yùn)行。但從我們的角度來(lái)看,這是一個(gè)先有雞還是先有蛋的問(wèn)題。你需要性能,特別是因?yàn)檫@些芯片比SoC解決方案更昂貴。但你目前還不能真正專(zhuān)注于性能,因?yàn)槟惚仨毾茸屵@個(gè)生態(tài)系統(tǒng)啟動(dòng)并運(yùn)行起來(lái)。

正確的開(kāi)始

與過(guò)去不同的是,許多芯片都是為插槽設(shè)計(jì)的,而人工智能則完全取決于工作負(fù)載。

Expedera的Chole說(shuō):“當(dāng)這些權(quán)衡發(fā)生時(shí),心中有一個(gè)目標(biāo)的概念是非常重要的?!薄叭绻阒皇钦f(shuō),‘我想做所有的事情,支持所有的事情’,那么你并沒(méi)有真正優(yōu)化任何事情。你基本上只是把一個(gè)通用的解決方案放在里面,希望它能滿足你的功率需求。在我們看來(lái),這種做法很少奏效。每個(gè)神經(jīng)網(wǎng)絡(luò)和邊緣設(shè)備上的每個(gè)部署案例都是獨(dú)一無(wú)二的。如果把你的芯片安放在耳機(jī)里并運(yùn)行RNN,而不是在ADAS芯片中運(yùn)行變換器,這是一個(gè)完全不同的用例。npu、內(nèi)存系統(tǒng)、配置、功耗完全不同。因此,了解我們想要嘗試的重要工作負(fù)載集是非常重要的。這些可以是多個(gè)網(wǎng)絡(luò)。您必須讓團(tuán)隊(duì)在重要的網(wǎng)絡(luò)上達(dá)成一致,并在此基礎(chǔ)上進(jìn)行優(yōu)化。當(dāng)工程團(tuán)隊(duì)考慮npu時(shí),這是缺失的。他們只是想要得到世界上最好的東西,但是你不可能在沒(méi)有交易的情況下得到最好的東西。我能給你最好的,但你想在哪個(gè)方面做到最好呢?”

Cadence的米特拉指出,每個(gè)人都以類(lèi)似的方式思考PPA,但后來(lái)人們強(qiáng)調(diào)他們關(guān)心的是功率、性能、面積/成本(PPAC)的哪一部分?!叭绻闶且粋€(gè)數(shù)據(jù)中心的人,你可能會(huì)接受犧牲一點(diǎn)面積,因?yàn)槟阈枰氖欠浅8咄掏铝康臋C(jī)器,因?yàn)槟阈枰鰯?shù)十億的人工智能推理或人工智能的事情,這一次是在交易市場(chǎng)份額的同時(shí)運(yùn)行巨大的模型,導(dǎo)致大量的數(shù)據(jù)。很久以前,你可以考慮一個(gè)桌面運(yùn)行的東西,用于人工智能模型開(kāi)發(fā),用于推理,但即使是一些大型語(yǔ)言模型的推理也變得非常棘手。這意味著你需要一個(gè)大規(guī)模的數(shù)據(jù)集群,你需要在超大規(guī)模的數(shù)據(jù)中心規(guī)模上進(jìn)行大規(guī)模的數(shù)據(jù)計(jì)算?!?/p>

還有其他的考慮。Synopsys EDA集團(tuán)產(chǎn)品管理總監(jiān)William Ruby表示:“硬件架構(gòu)決策推動(dòng)了這一點(diǎn),但軟件的作用也至關(guān)重要?!彼赋?,性能與能效是關(guān)鍵?!靶枰嗌賰?nèi)存?”如何對(duì)內(nèi)存子系統(tǒng)進(jìn)行分區(qū)?軟件代碼可以優(yōu)化能源效率嗎?(是的,它可以。)出于所有PPAC的原因,工藝技術(shù)的選擇也很重要?!?/p>

此外,Synopsys人工智能/機(jī)器學(xué)習(xí)處理器產(chǎn)品經(jīng)理Gordon Cooper表示,如果能效不是優(yōu)先考慮的問(wèn)題,可以使用嵌入式GPU?!八鼤?huì)給你最好的編碼靈活性,但永遠(yuǎn)不會(huì)像專(zhuān)用處理器那樣節(jié)能。如果你在設(shè)計(jì)一個(gè)NPU,那么在面積和功率的平衡方面仍然需要做出權(quán)衡。最小化片上內(nèi)存將大大減少您的總面積預(yù)算,但將增加從外部存儲(chǔ)器傳輸?shù)臄?shù)據(jù),這將大大增加功率。增加片上內(nèi)存將降低外部存儲(chǔ)器讀寫(xiě)的功耗?!?/p>

結(jié)論

所有這些問(wèn)題越來(lái)越成為系統(tǒng)問(wèn)題,而不僅僅是芯片問(wèn)題。

“人們認(rèn)為人工智能訓(xùn)練部分是,‘哦,哇,這真的是計(jì)算量很大。這是大量的數(shù)據(jù)移動(dòng),’”Woo說(shuō)?!耙坏┠阆胍獙⑺羞@些加速硬件投入其中,那么系統(tǒng)的其余部分就會(huì)開(kāi)始成為阻礙。出于這個(gè)原因,我們?cè)絹?lái)越多地看到像英偉達(dá)和其他公司的這些平臺(tái),他們有精心設(shè)計(jì)的人工智能訓(xùn)練引擎,但他們也可能有英特爾至強(qiáng)芯片。這是因?yàn)槿斯ぶ悄芤娌惶m合做計(jì)算的另一部分。它們不是為運(yùn)行通用代碼而設(shè)計(jì)的,所以這越來(lái)越成為一個(gè)異構(gòu)系統(tǒng)問(wèn)題。你必須讓所有的東西協(xié)同工作?!?/p>

另一個(gè)難題是在軟件方面,可以通過(guò)各種方法(如簡(jiǎn)化)提高效率。“這是一種認(rèn)識(shí),在人工智能中,有一個(gè)特定的算法部分和一個(gè)特定的計(jì)算稱(chēng)為減少,這是一種將大量數(shù)字減少到一個(gè)數(shù)字或一小組數(shù)字的奇特方式,”Woo解釋說(shuō)?!八赡苁菍⑺鼈?nèi)考釉谝黄鸹蝾?lèi)似的東西。傳統(tǒng)的做法是,如果你有所有來(lái)自其他處理器的數(shù)據(jù),通過(guò)互聯(lián)網(wǎng)絡(luò)發(fā)送到一個(gè)處理器,然后讓這個(gè)處理器把所有的數(shù)據(jù)都加起來(lái)。所有這些數(shù)字都通過(guò)這個(gè)網(wǎng)絡(luò)通過(guò)交換機(jī)到達(dá)處理器。我們?yōu)槭裁床话阉鼈兗拥介_(kāi)關(guān)里呢,因?yàn)樗鼈兌际峭ㄟ^(guò)開(kāi)關(guān)的?優(yōu)點(diǎn)是它類(lèi)似于內(nèi)聯(lián)處理。有趣的是,一旦你在交換機(jī)中添加了所有內(nèi)容,你只需要傳遞一個(gè)號(hào)碼,這意味著網(wǎng)絡(luò)流量會(huì)下降?!?/p>

像這樣的架構(gòu)考慮是值得考慮的,因?yàn)樗鼈兺瑫r(shí)解決了幾個(gè)問(wèn)題,Woo說(shuō)。首先,數(shù)據(jù)在網(wǎng)絡(luò)上的移動(dòng)速度非常慢,這告訴您要盡可能少地移動(dòng)數(shù)據(jù)。其次,它消除了將數(shù)據(jù)傳遞給處理器的冗余工作,只是讓處理器完成所有的數(shù)學(xué)運(yùn)算,然后將結(jié)果傳遞回來(lái)。這一切都在網(wǎng)絡(luò)中完成,第三,它是非常并行的,所以你可以讓每個(gè)交換機(jī)做部分計(jì)算。

同樣,Expedera的Chole表示,人工智能工作負(fù)載現(xiàn)在可以通過(guò)單幅圖來(lái)定義?!氨仨毲宄@個(gè)圖并不是為了一小組指令。我們不是做單次加法。我們一次要做數(shù)百萬(wàn)個(gè)加法,或者一次要做1000萬(wàn)個(gè)矩陣乘法運(yùn)算。這就改變了你對(duì)執(zhí)行的思維模式,改變了你對(duì)指令的思維方式,改變了你對(duì)指令的壓縮方式,改變了你對(duì)指令的預(yù)測(cè)和調(diào)度方式。在通用CPU中這樣做是不實(shí)際的。這樣做的成本太高了。然而,作為一個(gè)神經(jīng)網(wǎng)絡(luò),同時(shí)活動(dòng)的mac數(shù)量是巨大的,你可以生成指令的方式,創(chuàng)建指令,壓縮指令,調(diào)度指令,在利用率和帶寬方面改變了很多。這就是人工智能在處理器架構(gòu)方面的巨大影響?!?/p>






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20343

    瀏覽量

    255359
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110143
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50370

    瀏覽量

    267082
  • RISC
    +關(guān)注

    關(guān)注

    6

    文章

    485

    瀏覽量

    86873
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    307

    瀏覽量

    6562

原文標(biāo)題:AI正在顛覆處理器設(shè)計(jì)

文章出處:【微信號(hào):AI智勝未來(lái),微信公眾號(hào):AI智勝未來(lái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    淺談人工智能(2)

    。 強(qiáng)人工智能(Strong AI),又稱(chēng)通用人工智能(Artificial General Intelligence)或完全人工智能,指的是可以勝任人類(lèi)所有工作
    的頭像 發(fā)表于 02-22 08:24 ?382次閱讀
    淺談<b class='flag-5'>人工智能</b>(2)

    自然智能與人工智能融合如何重塑芯片設(shè)計(jì)

    人類(lèi)大腦是所有處理器中最復(fù)雜的,能夠構(gòu)思出不可思議的創(chuàng)意,解決復(fù)雜、微妙的問(wèn)題。相比之下,人工智能擅長(zhǎng)快速分析海量數(shù)據(jù)并高效執(zhí)行任務(wù)。當(dāng)自然智能人工智能融合的結(jié)果,就是芯片設(shè)計(jì)領(lǐng)域
    的頭像 發(fā)表于 01-15 13:58 ?717次閱讀

    Ceva在恩智浦的軟件定義車(chē)輛處理器上實(shí)現(xiàn) 實(shí)時(shí)人工智能加速

    恩智浦 * S32Z2 和 S32E2 實(shí)時(shí)處理器集成 Ceva**的* * AI DSP* ,為軟件定義車(chē)輛提供預(yù)測(cè)分析、能量管理和智能控制功能 隨著車(chē)輛向軟件定義平臺(tái)演進(jìn),對(duì)實(shí)時(shí)處理、安全性
    的頭像 發(fā)表于 01-09 11:14 ?750次閱讀
    Ceva在恩智浦的軟件定義車(chē)輛<b class='flag-5'>處理器</b>上實(shí)現(xiàn) 實(shí)時(shí)<b class='flag-5'>人工智能</b>加速

    人工智能正在重新定義嵌入式系統(tǒng)

    人工智能(AI)正在從設(shè)計(jì)到功能等各個(gè)層面重新定義嵌入式系統(tǒng)。
    的頭像 發(fā)表于 09-04 16:57 ?2321次閱讀

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    nRF52805),只占用幾千字節(jié)的非易失性存儲(chǔ)(NVM)。這使得以前被認(rèn)為不可能的應(yīng)用也能增加 ML 功能。例如,您現(xiàn)在可以在廣泛的傳感網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)上進(jìn)行人工智能處理,而在這
    發(fā)表于 08-31 20:54

    挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器

    科技大學(xué)、山東大學(xué)青島校區(qū)等眾多高校落地使用,廣受好評(píng)。如果你也對(duì)人工智能感興趣,或者正在從事相關(guān)教學(xué)、學(xué)習(xí)工作,不妨考慮一下比鄰星人工智能綜合實(shí)驗(yàn)箱,真的入股不虧!#比鄰星
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!

    科技大學(xué)、山東大學(xué)青島校區(qū)等眾多高校落地使用,廣受好評(píng)。如果你也對(duì)人工智能感興趣,或者正在從事相關(guān)教學(xué)、學(xué)習(xí)工作,不妨考慮一下比鄰星人工智能綜合實(shí)驗(yàn)箱,真的入股不虧!#比鄰星
    發(fā)表于 08-07 14:23

    關(guān)于人工智能處理器的11個(gè)誤解

    本文轉(zhuǎn)自:TechSugar編譯自ElectronicDesign人工智能浪潮已然席卷全球,將人工智能加速處理器整合到各類(lèi)應(yīng)用中也變得愈發(fā)普遍。然而,圍繞它們是什么、如何運(yùn)作、能如
    的頭像 發(fā)表于 08-07 13:21 ?1278次閱讀
    關(guān)于<b class='flag-5'>人工智能</b><b class='flag-5'>處理器</b>的11個(gè)誤解

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    可以在廣泛的傳感網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)上進(jìn)行人工智能處理,而在這種網(wǎng)絡(luò)中,傳感的尺寸和成本是關(guān)鍵,空間也非常寶貴。
    發(fā)表于 07-31 11:38

    格羅方德擬收購(gòu)人工智能處理器IP供應(yīng)商MIPS

    近日,格羅方德(GlobalFoundries)宣布達(dá)成一項(xiàng)最終協(xié)議,擬收購(gòu)人工智能(AI)和處理器IP領(lǐng)域的領(lǐng)先供應(yīng)商MIPS。此次戰(zhàn)略收購(gòu)將拓展格羅方德可定制IP產(chǎn)品的陣容,使其能夠借助IP和軟件能力,進(jìn)一步凸顯工藝技術(shù)的差異化優(yōu)勢(shì)。
    的頭像 發(fā)表于 07-09 18:03 ?1359次閱讀

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門(mén)學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會(huì)發(fā)展的當(dāng)下,無(wú)論是探索未來(lái)職業(yè)方向,還是更新技術(shù)儲(chǔ)備,掌握大模型知識(shí)都已成為新時(shí)代的必修課。從職場(chǎng)上輔助工作智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模
    發(fā)表于 07-04 11:10

    人工智能正在改變世界

    它需要大量的處理能力,需求每一百天就會(huì)翻一番,這推動(dòng)了人工智能基礎(chǔ)設(shè)施的投資熱潮。未來(lái)的數(shù)據(jù)中心需要滿足和管理對(duì)計(jì)算資源前所未有的需求:既要能智能高效地提供支持,又要滿足相應(yīng)的計(jì)算、內(nèi)存和網(wǎng)絡(luò)性能。
    的頭像 發(fā)表于 06-13 10:19 ?938次閱讀

    邊緣計(jì)算如何顛覆人工智能變革

    2025年以來(lái),DeepSeek發(fā)布的大模型熱度居高不下,再次點(diǎn)燃了全球?qū)?b class='flag-5'>人工智能的無(wú)限熱情。深度學(xué)習(xí)模型以指數(shù)級(jí)速度膨脹,性能不斷突破極限,成本效益也在向著更低的趨勢(shì)發(fā)展,這為各行各業(yè)帶來(lái)了顛覆
    的頭像 發(fā)表于 05-30 09:29 ?1185次閱讀

    新思科技推出新型ARC VPX6 1024位矢量處理器

    數(shù)字信號(hào)處理技術(shù)無(wú)處不在。如今的設(shè)備常常配備數(shù)十個(gè)傳感,這些傳感采集的數(shù)據(jù)要經(jīng)過(guò)篩選與聚合處理后,才能為人工智能(AI)模型所用。隨著
    的頭像 發(fā)表于 05-12 16:31 ?1205次閱讀
    新思科技推出新型ARC VPX6 1024位矢量<b class='flag-5'>處理器</b>

    是德科技如何破解人工智能的基礎(chǔ)設(shè)施困局

    人工智能正在改變世界。然而,它需要大量的處理能力。需求每 100 天翻一番,這推動(dòng)了人工智能基礎(chǔ)設(shè)施的投資熱潮。
    的頭像 發(fā)表于 05-09 15:53 ?982次閱讀
    平顺县| 六枝特区| 社会| 马边| 卢龙县| 德安县| 米脂县| 日喀则市| 高清| 诸城市| 万荣县| 内乡县| 搜索| 红桥区| 鲜城| 南充市| 广西| 宜章县| 林芝县| 邢台市| 海晏县| 寿阳县| 上虞市| 怀安县| 萨迦县| 宝鸡市| 周口市| 万宁市| 江油市| 江油市| 北安市| 温宿县| 广丰县| 林口县| 犍为县| 囊谦县| 聂拉木县| 文山县| 福海县| 通江县| 永平县|