日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學(xué)習(xí)如何滿足DNN推理的要求

lPCU_elecfans ? 來源:電子發(fā)燒友網(wǎng) ? 作者:電子發(fā)燒友網(wǎng) ? 2022-09-14 09:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/周凱揚)10年前谷歌作為互聯(lián)網(wǎng)巨頭,就已經(jīng)嗅到了機器學(xué)習(xí)的潛力,尤其是在深度神經(jīng)網(wǎng)絡(luò)(DNN)模型上。就拿語音識別這樣的功能來說,如果要考慮到1億安卓用戶每天和手機對話三分鐘這樣的高并發(fā)情況,單單只靠CPU的話,他們需要將現(xiàn)有數(shù)據(jù)中心的規(guī)模擴大至兩倍,才能滿足DNN推理的要求。

但擴建數(shù)據(jù)中心是一個投入極高的工作,于是他們考慮用定制的特定域架構(gòu)的硬件來減少完成推理任務(wù)的總擁有成本,而且又要能運行已經(jīng)為CPU和GPU開發(fā)的應(yīng)用。谷歌在2014年開啟了TPUv1的項目,15個月后,全新的TPU硬件就已經(jīng)應(yīng)用到了谷歌的數(shù)據(jù)中心里,連帶架構(gòu)、編譯器、測試和部署都全部更新了一遍。

那時GPU在推理這塊的性能也還是超過CPU的,但TPU的出現(xiàn)改變了這個格局。與當(dāng)時英特爾的Haswell CPU相比,TPUv1的能耗比有了80倍的提升,相較當(dāng)時的英偉達Tesla K80 GPU,其能耗比也高達它的30倍。

8da5c3c4-33b8-11ed-ba43-dac502259ad0.png

每代TPU的性能指標 / 谷歌

谷歌此舉引爆了整個市場,大家發(fā)現(xiàn)了還有除了CPU、GPU之外的方案。英特爾察覺后也收購了一系列深度學(xué)習(xí)DSA芯片公司,比如Nervana、Movidius、Mobileye和Habana。谷歌在云服務(wù)上的競爭對手們,阿里巴巴和亞馬遜也開始打造自己的推理、訓(xùn)練芯片。能耗比之戰(zhàn)下,大家很快也意識到機器學(xué)習(xí)帶來的碳足跡成了下一個急需解決的問題。

碳足跡的反噬

根據(jù)去年在IEEE Spectrum上發(fā)布的《深度學(xué)習(xí)受益遞減》一文中提到,隨著機器學(xué)習(xí)的發(fā)展,到了2025年,最強的深度學(xué)習(xí)系統(tǒng)在ImageNet數(shù)據(jù)集中進行物體識別時,錯誤率最高只有5%。但訓(xùn)練這樣一個系統(tǒng)所需要的算力和能耗都是龐大的,更糟糕的是,其排放的二氧化碳將是紐約市一整個月的排放量。

機器學(xué)習(xí)的碳排放可以被分為兩種,一種是運營排放,也就是數(shù)據(jù)中心在運行機器學(xué)習(xí)硬件中產(chǎn)生的碳排放;第二種是整個生命周期內(nèi)的排放,不僅包含運營排放,還包含了各個環(huán)節(jié)的碳排放,比如芯片制造、數(shù)據(jù)中心建造等等??紤]到后者涉及更加復(fù)雜的研究,所以大部分碳足跡的研究都集中在運營排放上。

至于如何記錄碳排放,這也很簡單,只需要將訓(xùn)練/推理的時長x處理器數(shù)量x每個處理器的平均功耗x PUE x 每千瓦時的二氧化碳排放即可。除了最后一項參數(shù)需要從數(shù)據(jù)中心那獲取外,其他的數(shù)據(jù)基本都是公開,或取決于機器學(xué)習(xí)研究者自己的選擇。

如何減少機器學(xué)習(xí)的碳足跡圖靈獎得主、谷歌杰出工程師David Patterson教授對現(xiàn)有的機器學(xué)習(xí)的研究和工作提出了以下幾點建議。首先,從模型開始著手,機器學(xué)習(xí)研究者需要繼續(xù)開發(fā)效率更高的模型,比如谷歌去年發(fā)布的GLaM通用稀疏語言模型,相較GPT-3,它多出了7倍的參數(shù),在自然語言推理等任務(wù)上都要優(yōu)于GPT-3。但同樣重要的是它的能耗和碳足跡指標,根據(jù)谷歌公布的數(shù)據(jù),與使用V100的GPT-3相比,使用TPUv4的GLaM二氧化碳排放減少了14倍,可見模型對于碳足跡的影響。其次,在發(fā)布新模型的時候,他建議也把能耗和碳足跡這樣的數(shù)據(jù)公開,這樣有助于促進機器學(xué)習(xí)模型在質(zhì)量上的良性競爭。

接著是硬件,他指出我們需要像TPUv4或者A100 GPU等,這類機器學(xué)習(xí)能效比更高的硬件。其實這一點反倒是最不需要擔(dān)心的,這幾乎是每個初創(chuàng)AI芯片公司都在嘗試的做法,即便在峰值上不敵這些硬件,也絕對會在能效比上盡可能做大極致。

8de675fe-33b8-11ed-ba43-dac502259ad0.png

全球大規(guī)模數(shù)據(jù)中心的平均PUE / Uptime Institute

還有就是常見的能效衡量指標PUE,大型機器學(xué)習(xí)負載往往要在數(shù)據(jù)中心上運行,而要讓數(shù)據(jù)中心的PUE接近1并不是一件簡單的事。根據(jù)Uptime Institute的統(tǒng)計,各家廠商旗下最大數(shù)據(jù)中心的年度PUE為1.57,就連我國工信部印發(fā)的《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023)》中提出的最終目標也只是將新建大型數(shù)據(jù)中心PUE降低至1.3以下。但好在新建的數(shù)據(jù)中心往往都不會只滿足于這個目標,而是往1.1乃至1.06這樣的指標推進。

可這個指標并不是一個死數(shù)據(jù),隨著負載和用量的變動,PUE是在持續(xù)波動的,不少數(shù)據(jù)中心僅僅在建成時發(fā)布了能效指標,之后就再未公布過任何數(shù)據(jù)了。在這塊做得最好的也還是谷歌,谷歌每年都會發(fā)布年度能效報告,將各個數(shù)據(jù)中心每個季度的PUE公布出來。

不過僅僅只有極低的PUE只能體現(xiàn)出高能耗比,David Patterson教授認為還必須一并公布每個地區(qū)數(shù)據(jù)中心的清潔能源占比。比如阿里巴巴首次發(fā)布的《2022阿里巴巴環(huán)境、社會和治理報告》中就提到了2021年,阿里巴巴在中國企業(yè)可再生能源購買者中排名第一,2022財年阿里云21.6%的電力來自清潔能源。

在雙碳目標的提出下,我國其實已經(jīng)落實到了機器學(xué)習(xí)的硬件上,但在軟件和碳足跡透明度這方面還有可以改善的空間。機器學(xué)習(xí)要想做到消耗更低的算力來實現(xiàn)更優(yōu)的效果,就必須從各個環(huán)節(jié)做到節(jié)能減排。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11354

    瀏覽量

    226188
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108276
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    67

    文章

    8569

    瀏覽量

    137342

原文標題:機器學(xué)習(xí)的雙碳目標

文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【地平線征程 5 域控試用】激光雷達數(shù)據(jù)獲取與 BPU 推理實現(xiàn)

    :8192 字節(jié),確保能完整接收數(shù)據(jù)包 2.BPU 模型加載與推理 模型文件 : 路徑 : /userdata/test/model.hbm 類型 :Horizon 打包模型(.hbm) 模型
    發(fā)表于 04-20 21:31

    鐵路機器人用鋰電池完整設(shè)計方案要求

    作為一種高效、長壽命的能源解決方案,成為鐵路機器人應(yīng)用的理想選擇。 為了滿足鐵路機器人對高功率、長續(xù)航和高安全性的要求,電池設(shè)計方案需要考慮多種因素,包括高效能量管理、耐環(huán)境能力、溫度
    的頭像 發(fā)表于 04-13 16:34 ?207次閱讀

    利用ExecuTorch和Arm SME2加速端側(cè)機器學(xué)習(xí)推理

    貼紙、分離主體以替換背景,或是對圖像局部進行選擇性增強。這些效果背后,是輕量級分割模型在運行,這些模型通過 ExecuTorch(PyTorch 的開源端側(cè)推理運行時)以及第二代 Arm 可伸縮矩陣擴展技術(shù) (Arm SME2) 運行。
    的頭像 發(fā)表于 03-03 10:27 ?760次閱讀
    利用ExecuTorch和Arm SME2加速端側(cè)<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>推理</b>

    上銀晶圓搬運機器人的重復(fù)定位精度能否滿足半導(dǎo)體高精度傳輸要求

    滿足我們對高精度傳輸?shù)?b class='flag-5'>要求嗎?”答案是肯定的——通過核心技術(shù)的持續(xù)迭代,上銀晶圓搬運機器人的重復(fù)定位精度已達到±0.1mm,這一指標不僅符合SEMI國際標準,更在實際應(yīng)用中經(jīng)受住了半導(dǎo)體前道、后道工藝的嚴苛考驗。 ??
    的頭像 發(fā)表于 02-06 09:22 ?311次閱讀

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當(dāng)前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?782次閱讀
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    基于NVIDIA模組與軟件套件推動邊緣與機器人AI推理

    NVIDIA 正式推出 NVIDIA Jetson T4000,將高性能 AI 與實時推理能力帶入更廣泛的機器人和邊緣 AI 應(yīng)用。T4000 針對更嚴格的功耗和散熱限制進行了優(yōu)化,最高可提供
    的頭像 發(fā)表于 01-14 09:46 ?854次閱讀
    基于NVIDIA模組與軟件套件推動邊緣與<b class='flag-5'>機器</b>人AI<b class='flag-5'>推理</b>

    機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)、模型架構(gòu)
    的頭像 發(fā)表于 01-07 15:37 ?378次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    通過采用先進組件滿足汽車設(shè)計不斷發(fā)展的要求

    。由于汽車環(huán)境惡劣,需要更緊湊的子系統(tǒng),以及向高壓電動汽車 (EV) 和混合動力汽車發(fā)展趨勢需要,滿足這些要求具有挑戰(zhàn)性。 開發(fā)人員需要種類繁多的電容器、電路保護器件和射頻 (RF) 天線,這些產(chǎn)品既要達到或超過 AEC-Q200 標準,又要
    的頭像 發(fā)表于 10-04 18:11 ?1773次閱讀
    通過采用先進組件<b class='flag-5'>滿足</b>汽車設(shè)計不斷發(fā)展的<b class='flag-5'>要求</b>

    一文了解Arm神經(jīng)超級采樣 (Arm Neural Super Sampling, Arm NSS) 深入探索架構(gòu)、訓(xùn)練和推理

    本文將從訓(xùn)練、網(wǎng)絡(luò)架構(gòu)到后處理和推理等方面,深入探討 Arm 神經(jīng)超級采樣 (Arm Neural Super Sampling, Arm NSS) 的工作原理,希望為機器學(xué)習(xí) (ML) 工程師和移動端圖形開發(fā)者來詳細解釋 Ar
    的頭像 發(fā)表于 08-14 16:11 ?3324次閱讀

    利用NVIDIA推理模型構(gòu)建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務(wù)、網(wǎng)絡(luò)安全、制造、物流和機器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1817次閱讀
    利用NVIDIA<b class='flag-5'>推理</b>模型構(gòu)建AI智能體

    FPGA在機器學(xué)習(xí)中的具體應(yīng)用

    隨著機器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?3152次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    學(xué)習(xí)、大規(guī)模數(shù)據(jù)分析等前沿技術(shù)。DeepSeek-R1具備卓越的邏輯推理、多模態(tài)分析(文本/圖像/語音)和實時交互能力,能夠高效處理代碼生成、復(fù)雜問題求解、跨模態(tài)學(xué)習(xí)等高階任務(wù)。憑借其開源、高效、多
    發(fā)表于 07-16 15:29

    Aux-Think打破視覺語言導(dǎo)航任務(wù)的常規(guī)推理范式

    視覺語言導(dǎo)航(VLN)任務(wù)的核心挑戰(zhàn),是讓機器人在復(fù)雜環(huán)境中聽懂指令、看懂世界,并果斷行動。我們系統(tǒng)性地引入推理任務(wù),探索其在導(dǎo)航策略學(xué)習(xí)中的作用,并首次揭示了VLN中的“推理崩塌”現(xiàn)
    的頭像 發(fā)表于 07-08 10:00 ?775次閱讀
    Aux-Think打破視覺語言導(dǎo)航任務(wù)的常規(guī)<b class='flag-5'>推理</b>范式

    大模型推理顯存和計算量估計方法研究

    過程中需要占用大量顯存,導(dǎo)致推理速度變慢,甚至無法進行。 計算量過大:大模型的計算量較大,導(dǎo)致推理速度慢,難以滿足實時性要求。 為了解決這些問題,本文將針對大模型
    發(fā)表于 07-03 19:43

    邊緣計算中的機器學(xué)習(xí):基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來到Medium的這一角落。在本文中,我們將把一個機器學(xué)習(xí)模型(神經(jīng)網(wǎng)絡(luò))部署到邊緣設(shè)備上,利用從ModbusTCP寄存器獲取的實時數(shù)據(jù)來預(yù)測一臺復(fù)古音頻放大器的當(dāng)前健康狀況。你將
    的頭像 發(fā)表于 06-11 17:22 ?1181次閱讀
    邊緣計算中的<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>:基于 Linux 系統(tǒng)的實時<b class='flag-5'>推理</b>模型部署與工業(yè)集成!
    嘉兴市| 萍乡市| 澄迈县| 澜沧| 定西市| 尼玛县| 绩溪县| 饶平县| 中牟县| 高台县| 大安市| 彭州市| 广昌县| 平谷区| 临漳县| 邹城市| 新绛县| 东源县| 吉木萨尔县| 连南| 民县| 汉寿县| 和平县| 富蕴县| 汾西县| 延吉市| 汶川县| 屏南县| 永丰县| 沙洋县| 临沭县| 栾川县| 哈密市| 合山市| 庆安县| 诸暨市| 获嘉县| 栖霞市| 湖南省| 南城县| 黄浦区|