日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文理清CPU、GPU和TPU的關(guān)系

羅欣 ? 來(lái)源:Google Cloud ? 作者:Kaz Sato ? 2018-09-04 11:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

很多讀者可能分不清楚 CPU、GPU 和 TPU 之間的區(qū)別,因此 Google Cloud 將在這篇博客中簡(jiǎn)要介紹它們之間的區(qū)別,并討論為什么 TPU 能加速深度學(xué)習(xí)。

張量處理單元(TPU)是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計(jì),并專門用于機(jī)器學(xué)習(xí)工作負(fù)載。TPU 為谷歌的主要產(chǎn)品提供了計(jì)算支持,包括翻譯、照片、搜索助理和 Gmail 等。Cloud TPU 將 TPU 作為可擴(kuò)展的云計(jì)算資源,并為所有在 Google Cloud 上運(yùn)行尖端 ML 模型的開發(fā)者與數(shù)據(jù)科學(xué)家提供計(jì)算資源。在 Google Next’18 中,我們宣布 TPU v2 現(xiàn)在已經(jīng)得到用戶的廣泛使用,包括那些免費(fèi)試用用戶,而 TPU v3 目前已經(jīng)發(fā)布了內(nèi)部測(cè)試版。

第三代 Cloud TPU

如上為 tpudemo.com 截圖,該網(wǎng)站 PPT 解釋了 TPU 的特性與定義。在本文中,我們將關(guān)注 TPU 某些特定的屬性。

神經(jīng)網(wǎng)絡(luò)如何運(yùn)算

在我們對(duì)比 CPU、GPU 和 TPU 之前,我們可以先了解到底機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)需要什么樣的計(jì)算。如下所示,假設(shè)我們使用單層神經(jīng)網(wǎng)絡(luò)識(shí)別手寫數(shù)字。

如果圖像為 28×28 像素的灰度圖,那么它可以轉(zhuǎn)化為包含 784 個(gè)元素的向量。神經(jīng)元會(huì)接收所有 784 個(gè)值,并將它們與參數(shù)值(上圖紅線)相乘,因此才能識(shí)別為「8」。其中參數(shù)值的作用類似于用「濾波器」從數(shù)據(jù)中抽取特征,因而能計(jì)算輸入圖像與「8」之間的相似性:

這是對(duì)神經(jīng)網(wǎng)絡(luò)做數(shù)據(jù)分類最基礎(chǔ)的解釋,即將數(shù)據(jù)與對(duì)應(yīng)的參數(shù)相乘(上圖兩種顏色的點(diǎn)),并將它們加在一起(上圖右側(cè)收集計(jì)算結(jié)果)。如果我們能得到最高的預(yù)測(cè)值,那么我們會(huì)發(fā)現(xiàn)輸入數(shù)據(jù)與對(duì)應(yīng)參數(shù)非常匹配,這也就最可能是正確的答案。

簡(jiǎn)單而言,神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和參數(shù)之間需要執(zhí)行大量的乘法和加法。我們通常會(huì)將這些乘法與加法組合為矩陣運(yùn)算,這在我們大學(xué)的線性代數(shù)中會(huì)提到。所以關(guān)鍵點(diǎn)是我們?cè)撊绾慰焖賵?zhí)行大型矩陣運(yùn)算,同時(shí)還需要更小的能耗。

CPU 如何運(yùn)行

因此 CPU 如何來(lái)執(zhí)行這樣的大型矩陣運(yùn)算任務(wù)呢?一般 CPU 是基于馮諾依曼架構(gòu)的通用處理器,這意味著 CPU 與軟件和內(nèi)存的運(yùn)行方式如下:

CPU 如何運(yùn)行:該動(dòng)圖僅展示了概念性原理,并不反映 CPU 的實(shí)際運(yùn)算行為。

CPU 最大的優(yōu)勢(shì)是靈活性。通過(guò)馮諾依曼架構(gòu),我們可以為數(shù)百萬(wàn)的不同應(yīng)用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執(zhí)行銀行交易或者使用神經(jīng)網(wǎng)絡(luò)分類圖像。

但是,由于 CPU 非常靈活,硬件無(wú)法一直了解下一個(gè)計(jì)算是什么,直到它讀取了軟件的下一個(gè)指令。CPU 必須在內(nèi)部將每次計(jì)算的結(jié)果保存到內(nèi)存中(也被稱為寄存器或 L1 緩存)。內(nèi)存訪問(wèn)成為 CPU 架構(gòu)的不足,被稱為馮諾依曼瓶頸。雖然神經(jīng)網(wǎng)絡(luò)的大規(guī)模運(yùn)算中的每一步都是完全可預(yù)測(cè)的,每一個(gè) CPU 的算術(shù)邏輯單元(ALU,控制乘法器和加法器的組件)都只能一個(gè)接一個(gè)地執(zhí)行它們,每一次都需要訪問(wèn)內(nèi)存,限制了總體吞吐量,并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量,GPU 使用一種簡(jiǎn)單的策略:在單個(gè)處理器中使用成千上萬(wàn)個(gè) ALU。現(xiàn)代 GPU 通常在單個(gè)處理器中擁有 2500-5000 個(gè) ALU,意味著你可以同時(shí)執(zhí)行數(shù)千次乘法和加法運(yùn)算。

GPU 如何工作:這個(gè)動(dòng)畫僅用于概念展示。并不反映真實(shí)處理器的實(shí)際工作方式。

這種 GPU 架構(gòu)在有大量并行化的應(yīng)用中工作得很好,例如在神經(jīng)網(wǎng)絡(luò)中的矩陣乘法。實(shí)際上,相比 CPU,GPU 在深度學(xué)習(xí)的典型訓(xùn)練工作負(fù)載中能實(shí)現(xiàn)高幾個(gè)數(shù)量級(jí)的吞吐量。這正是為什么 GPU 是深度學(xué)習(xí)中最受歡迎的處理器架構(gòu)。

但是,GPU 仍然是一種通用的處理器,必須支持幾百萬(wàn)種不同的應(yīng)用和軟件。這又把我們帶回到了基礎(chǔ)的問(wèn)題,馮諾依曼瓶頸。在每次幾千個(gè) ALU 的計(jì)算中,GPU 都需要訪問(wèn)寄存器或共享內(nèi)存來(lái)讀取和保存中間計(jì)算結(jié)果。因?yàn)?GPU 在其 ALU 上執(zhí)行更多的并行計(jì)算,它也會(huì)成比例地耗費(fèi)更多的能量來(lái)訪問(wèn)內(nèi)存,同時(shí)也因?yàn)閺?fù)雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當(dāng)谷歌設(shè)計(jì) TPU 的時(shí)候,我們構(gòu)建了一種領(lǐng)域特定的架構(gòu)。這意味著,我們沒(méi)有設(shè)計(jì)一種通用的處理器,而是專用于神經(jīng)網(wǎng)絡(luò)工作負(fù)載的矩陣處理器。TPU 不能運(yùn)行文本處理軟件、控制火箭引擎或執(zhí)行銀行業(yè)務(wù),但它們可以為神經(jīng)網(wǎng)絡(luò)處理大量的乘法和加法運(yùn)算,同時(shí) TPU 的速度非常快、能耗非常小且物理空間占用也更小。

其主要助因是對(duì)馮諾依曼瓶頸的大幅度簡(jiǎn)化。因?yàn)樵撎幚砥鞯闹饕蝿?wù)是矩陣處理,TPU 的硬件設(shè)計(jì)者知道該運(yùn)算過(guò)程的每個(gè)步驟。因此他們放置了成千上萬(wàn)的乘法器和加法器并將它們直接連接起來(lái),以構(gòu)建那些運(yùn)算符的物理矩陣。這被稱作脈動(dòng)陣列(Systolic Array)架構(gòu)。在 Cloud TPU v2 的例子中,有兩個(gè) 128X128 的脈動(dòng)陣列,在單個(gè)處理器中集成了 32768 個(gè) ALU 的 16 位浮點(diǎn)值。

我們來(lái)看看一個(gè)脈動(dòng)陣列如何執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算。首先,TPU 從內(nèi)存加載參數(shù)到乘法器和加法器的矩陣中。

然后,TPU 從內(nèi)存加載數(shù)據(jù)。當(dāng)每個(gè)乘法被執(zhí)行后,其結(jié)果將被傳遞到下一個(gè)乘法器,同時(shí)執(zhí)行加法。因此結(jié)果將是所有數(shù)據(jù)和參數(shù)乘積的和。在大量計(jì)算和數(shù)據(jù)傳遞的整個(gè)過(guò)程中,不需要執(zhí)行任何的內(nèi)存訪問(wèn)。

這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)運(yùn)算上達(dá)到高計(jì)算吞吐量,同時(shí)能耗和物理空間都很小。

好處:成本降低至 1/5

因此使用 TPU 架構(gòu)的好處就是:降低成本。以下是截至 2018 年 8 月(寫這篇文章的時(shí)候)Cloud TPU v2 的使用價(jià)格。

Cloud TPU v2 的價(jià)格,截至 2018 年 8 月。

斯坦福大學(xué)發(fā)布了深度學(xué)習(xí)和推理的基準(zhǔn)套裝 DAWNBench。你可以在上面找到不同的任務(wù)、模型、計(jì)算平臺(tái)以及各自的基準(zhǔn)結(jié)果的組合。

DAWNBench:https://dawn.cs.stanford.edu/benchmark/

在 DAWNBench 比賽于 2018 年 4 月結(jié)束的時(shí)候,非 TPU 處理器的最低訓(xùn)練成本是 72.40 美元(使用現(xiàn)場(chǎng)實(shí)例訓(xùn)練 ResNet-50 達(dá)到 93% 準(zhǔn)確率)。而使用 Cloud TPU v2 搶占式計(jì)價(jià),你可以在 12.87 美元的價(jià)格完成相同的訓(xùn)練結(jié)果。這僅相當(dāng)于非 TPU 的不到 1/5 的成本。這正是神經(jīng)網(wǎng)絡(luò)領(lǐng)域特定架構(gòu)的威力之所在。

本文來(lái)源:Google Cloud Kaz Sato

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11332

    瀏覽量

    225975
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136095
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    173

    瀏覽量

    21721
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    谷歌發(fā)布第八代TPU,訓(xùn)練推理分離,搭載自研CPU

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)在2026年4月22日舉行的谷歌云Next大會(huì)上,谷歌正式發(fā)布了第八代張量處理單元(TPU)。此次發(fā)布的產(chǎn)品包含兩款獨(dú)立的芯片:TPU 8t和TPU 8i
    的頭像 發(fā)表于 04-24 09:03 ?6122次閱讀
    谷歌發(fā)布第八代<b class='flag-5'>TPU</b>,訓(xùn)練推理分離,搭載自研<b class='flag-5'>CPU</b>

    內(nèi)存要取代GPU?HBM之父警告:以英偉達(dá)GPU為核心的架構(gòu)要被顛覆

    主板和CPU成為了主角。 ? 而最近“HBM之父”金正浩教授也語(yǔ)出驚人,提出未來(lái)內(nèi)存將成為主角:“GPUCPU將會(huì)被集成到內(nèi)存(HBM和HBF)里,淪為內(nèi)存中的個(gè)組件”。 ? 倒反
    的頭像 發(fā)表于 04-03 09:54 ?7231次閱讀
    內(nèi)存要取代<b class='flag-5'>GPU</b>?HBM之父警告:以英偉達(dá)<b class='flag-5'>GPU</b>為核心的架構(gòu)要被顛覆

    AI智能體推動(dòng)芯片需求從GPU擴(kuò)展至CPU

    4月20日有消息稱,摩根士丹利分析指出,隨著AI自主性不斷提升,其對(duì)芯片的需求正從圖形處理器(GPU)向中央處理器(CPU)擴(kuò)展,這趨勢(shì)將重塑數(shù)據(jù)中心建設(shè)模式,并促使投資范疇從當(dāng)前主導(dǎo)AI領(lǐng)域
    的頭像 發(fā)表于 04-21 10:55 ?1968次閱讀

    GPU負(fù)重前行:組實(shí)驗(yàn)看懂視頻色彩空間轉(zhuǎn)換的真相

    GPU能加速視頻處理,工程師都知道。但它默默扛下了多少?ZLG致遠(yuǎn)電子D9340核心板實(shí)測(cè):開GPU,CPU占用砍半。GPU:視頻處理的隱形勞模GP
    的頭像 發(fā)表于 04-17 11:35 ?111次閱讀
    <b class='flag-5'>GPU</b>負(fù)重前行:<b class='flag-5'>一</b>組實(shí)驗(yàn)看懂視頻色彩空間轉(zhuǎn)換的真相

    基于openEuler平臺(tái)的CPU、GPU與FPGA異構(gòu)加速實(shí)戰(zhàn)

    隨著 AI、視頻處理、加密和高性能計(jì)算需求的增長(zhǎng),單 CPU 已無(wú)法滿足低延遲、高吞吐量的計(jì)算需求。openEuler 作為面向企業(yè)和云端的開源操作系統(tǒng),在 多樣算力支持 方面表現(xiàn)出色,能夠高效調(diào)度 CPU、
    的頭像 發(fā)表于 04-08 11:02 ?888次閱讀
    基于openEuler平臺(tái)的<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>與FPGA異構(gòu)加速實(shí)戰(zhàn)

    UPS電源能當(dāng)發(fā)電機(jī)用嗎?90%的人都搞錯(cuò)了,文理清區(qū)別與用法

    功能、工作原理完全不同,二者既不能替代,又能協(xié)同互補(bǔ)。今天就從原理、差異、用法三方面,徹底講清二者的區(qū)別,幫你避開使用誤區(qū)。、核心結(jié)論:UPS電源≠發(fā)電機(jī),二者本質(zhì)完全不
    的頭像 發(fā)表于 01-22 09:37 ?1256次閱讀
    UPS電源能當(dāng)發(fā)電機(jī)用嗎?90%的人都搞錯(cuò)了,<b class='flag-5'>一</b><b class='flag-5'>文理清</b>區(qū)別與用法

    什么是TPU?萬(wàn)協(xié)通帶你看懂AI算力的“變形金剛”

    當(dāng)我們?cè)诟袊@ChatGPT的妙語(yǔ)連珠時(shí),你是否好奇過(guò):究竟是什么樣的“心臟”,在支撐這些超級(jí)AI沒(méi)日沒(méi)夜地思考?答案不是你熟悉的CPU,也不僅僅是顯卡GPU,而是位更專注、更硬核的“特種兵
    的頭像 發(fā)表于 01-13 13:22 ?472次閱讀
    什么是<b class='flag-5'>TPU</b>?萬(wàn)協(xié)通帶你看懂AI算力的“變形金剛”

    AI芯片大單!Anthropic從博通采購(gòu)100萬(wàn)顆TPU v7p芯片

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)近日消息,AI企業(yè)Anthropic將直接從博通采購(gòu)近100萬(wàn)顆TPU v7?pIronwood AI芯片,本地部署在其控制的數(shù)據(jù)中心中。也就是說(shuō),博通將直接向
    的頭像 發(fā)表于 01-06 08:38 ?1.1w次閱讀

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,看懂!?

    CPU作為“通用基石”,支撐所有設(shè)備的基礎(chǔ)運(yùn)行;GPU憑借并行算力,成為AI訓(xùn)練與圖形處理的“主力”;TPU在Google生態(tài)中深耕云端大模型訓(xùn)練;NPU則讓AI從“云端”走向“身邊”(手機(jī)、手表
    的頭像 發(fā)表于 12-17 17:13 ?2356次閱讀
    AI硬件全景解析:<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>、NPU、<b class='flag-5'>TPU</b>的差異化之路,<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂!?

    不只是SAA:文理清澳洲電氣安全認(rèn)證與RCM的關(guān)系

    很多中國(guó)企業(yè)準(zhǔn)備把電器產(chǎn)品出口到澳大利亞時(shí),第反應(yīng)是:“要做SAA認(rèn)證”。但其實(shí),“SAA認(rèn)證”并不是官方強(qiáng)制要求,而是個(gè)被廣泛誤用的行業(yè)俗稱。真正決定產(chǎn)品能否在澳洲合法銷售的,是RCM標(biāo)志
    的頭像 發(fā)表于 11-24 09:50 ?912次閱讀
    不只是SAA:<b class='flag-5'>一</b><b class='flag-5'>文理清</b>澳洲電氣安全認(rèn)證與RCM的<b class='flag-5'>關(guān)系</b>

    電能表會(huì) “爆表” 嗎?機(jī)械 / 家用 / 快充樁場(chǎng)景的計(jì)量真相拆解

    文理清:為何家用電表難 “爆表”,快充樁卻會(huì)?
    的頭像 發(fā)表于 11-12 09:25 ?3429次閱讀
    電能表會(huì) “爆表” 嗎?機(jī)械 / 家用 / 快充樁場(chǎng)景的計(jì)量真相拆解

    如何看懂GPU架構(gòu)?分鐘帶你了解GPU參數(shù)指標(biāo)

    GPU架構(gòu)參數(shù)如CUDA核心數(shù)、顯存帶寬、TensorTFLOPS、互聯(lián)方式等,并非“冰冷的數(shù)字”,而是直接關(guān)系設(shè)備能否滿足需求、如何發(fā)揮最大價(jià)值、是否避免資源浪費(fèi)等問(wèn)題的核心要素。本篇文章將全面
    的頭像 發(fā)表于 10-09 09:28 ?1576次閱讀
    如何看懂<b class='flag-5'>GPU</b>架構(gòu)?<b class='flag-5'>一</b>分鐘帶你了解<b class='flag-5'>GPU</b>參數(shù)指標(biāo)

    CPUGPU,渲染技術(shù)如何重塑游戲、影視與設(shè)計(jì)?

    渲染技術(shù)是計(jì)算機(jī)圖形學(xué)的核心內(nèi)容之,它是將三維場(chǎng)景轉(zhuǎn)換為二維圖像的過(guò)程。渲染技術(shù)直在不斷演進(jìn),從最初的CPU渲染到后來(lái)的GPU渲染,性能和質(zhì)量都有了顯著提升。從
    的頭像 發(fā)表于 09-01 12:16 ?1156次閱讀
    從 <b class='flag-5'>CPU</b> 到 <b class='flag-5'>GPU</b>,渲染技術(shù)如何重塑游戲、影視與設(shè)計(jì)?

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】1、開箱初體驗(yàn)(刷系統(tǒng)+靜態(tài)IP設(shè)置+GPU跑分測(cè)評(píng))

    GPU跑分 首先用clinfo命令查看GPU,當(dāng)然也可以在debain-system setting-about界面看到BXE-4-32GPU benchmark軟件
    發(fā)表于 07-09 21:50

    智算加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉GPUTPU!

    隨著AI技術(shù)火得塌糊涂,大家都在談"大模型"、"AI加速"、"智能計(jì)算",可真到了落地環(huán)節(jié),算力才是硬通貨。你有沒(méi)有發(fā)現(xiàn),現(xiàn)在越來(lái)越多的AI企業(yè)不光用GPU,也不怎么迷信TPU了?他們嘴里多了
    的頭像 發(fā)表于 06-05 13:39 ?1930次閱讀
    智算加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉<b class='flag-5'>GPU</b>和<b class='flag-5'>TPU</b>!
    集贤县| 育儿| 揭西县| 扶风县| 丹棱县| 晋中市| 张家口市| 隆子县| 平湖市| 诸城市| 长治县| 于田县| 宾阳县| 临泽县| 辽阳市| 荣昌县| 保亭| 万盛区| 疏勒县| 旺苍县| 洛阳市| 西吉县| 青龙| 台中市| 饶阳县| 虞城县| 博野县| 砚山县| 秦皇岛市| 格尔木市| 芜湖县| 剑河县| 饶阳县| 南康市| 黎平县| 永丰县| 洱源县| 汉中市| 横峰县| 铅山县| 和硕县|