日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPipe是什么,效果如何?為什么要對(duì)跨加速器的模型進(jìn)行分區(qū)?

DPVg_AI_era ? 來(lái)源:lp ? 2019-03-06 09:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

加速DNN模型訓(xùn)練速度方法中,數(shù)據(jù)并行受到單個(gè)加速器可支持模型大小的限制;而模型并行因?yàn)镈NN順序性導(dǎo)致大量算力浪費(fèi)。目前Google推出GPipe,將兩種方法的優(yōu)勢(shì)進(jìn)行結(jié)合,解決了兩者的劣勢(shì),成功提升訓(xùn)練速度。

深度神經(jīng)網(wǎng)絡(luò)(DNN)已經(jīng)推動(dòng)了許多機(jī)器學(xué)習(xí)任務(wù),比如語(yǔ)音識(shí)別,視覺(jué)識(shí)別和語(yǔ)言處理。

BigGan、Bert和GPT2.0的最新進(jìn)展表明,越大的DNN模型,越能帶來(lái)更好的性能。

而視覺(jué)識(shí)別任務(wù)的過(guò)去進(jìn)展也表明,模型大小和分類(lèi)準(zhǔn)確性之間,存在很強(qiáng)的相關(guān)性。

例如2014年ImageNet視覺(jué)識(shí)別挑戰(zhàn)賽中,獲勝者GoogleNet使用400萬(wàn)參數(shù),精確度達(dá)到了74.8%。

而2017年ImageNet挑戰(zhàn)賽的獲勝者Squeeze-and-Excitation Networks,使用1.5億參數(shù),精確度達(dá)到了82.7%。

僅僅3年,數(shù)據(jù)處理能力翻了36番。而在同一時(shí)期,GPU內(nèi)存僅增加了約3倍。

當(dāng)前最先進(jìn)的圖像模型,已經(jīng)達(dá)到了云TPUv2內(nèi)存的可用上限。因此,迫切需要一種更高效、可擴(kuò)展的基礎(chǔ)設(shè)施,以實(shí)現(xiàn)大規(guī)模深度學(xué)習(xí),并克服當(dāng)前加速器的內(nèi)存限制。

ImageNet精度和模型大小之間的強(qiáng)相關(guān)性

基于以上目的,Google推出了GPipe。

GPipe是什么,效果如何?

GPipe是一個(gè)分布式機(jī)器學(xué)習(xí)、可擴(kuò)展的管道并行庫(kù),可以學(xué)習(xí)巨型深度神經(jīng)網(wǎng)絡(luò)。

使用同步隨機(jī)梯度下降和管道并行性進(jìn)行訓(xùn)練,適用于由多個(gè)連續(xù)層組成的任何DNN。

GPipe允許研究人員輕松部署更多加速器來(lái)訓(xùn)練更大的模型,并在不調(diào)整超參數(shù)的情況下,達(dá)到提升性能的效果。

GPipe將跨加速器和管道執(zhí)行的網(wǎng)絡(luò)層進(jìn)行分區(qū),以便實(shí)現(xiàn)對(duì)硬件更高的利用率,同時(shí)利用重新計(jì)算來(lái)將激活的內(nèi)存使用降至最低。

例如,使用8個(gè)加速器的分區(qū),GPipe就可以訓(xùn)練25倍大神經(jīng)網(wǎng)絡(luò)。

而GPipe也幾乎實(shí)現(xiàn)了線性加速。使用4倍數(shù)量的加速器,處理同一個(gè)模型的速度提升了3.5倍;16倍加速器速度提升11倍。

同時(shí)它也要保證計(jì)算的梯度和分區(qū)的數(shù)量保持一致,從而在不對(duì)模型的參數(shù)做任何改動(dòng)的前提下,都能保持線性加速。

目前,核心GPipe庫(kù)已在Lingvo框架下開(kāi)源。

為什么要對(duì)跨加速器的模型進(jìn)行分區(qū)?

有兩種標(biāo)準(zhǔn)方法可以加速DNN模型:

數(shù)據(jù)并行方法,使用更多的機(jī)器并將輸入數(shù)據(jù)分開(kāi)

模型并行性。將模型移動(dòng)到如GPU或TPU等具有加速模型訓(xùn)練的特殊硬件

然而加速器的內(nèi)存、與主機(jī)的通信帶寬均有限。因此模型并行性就需要將模型進(jìn)行分割,將不同的分區(qū)分配給不通過(guò)的加速器。

可是由于由于DNN的順序性,這種樸素的策略可能導(dǎo)致在計(jì)算期間,只有一個(gè)加速器處于激活狀態(tài),導(dǎo)致大量算力的浪費(fèi)。

而標(biāo)準(zhǔn)數(shù)據(jù)并行方法是允許在多個(gè)加速器上,同時(shí)訓(xùn)練不同輸入數(shù)據(jù)的相同模型,但每個(gè)加速器可支持模型大小又有限制。

GPipe的做法是將模型分割,并劃分給不同的加速器,自動(dòng)將小Batch拆分為更小的微Batch,這樣就實(shí)現(xiàn)了跨多個(gè)加速器的高效訓(xùn)練。

此外,因?yàn)樘荻纫恢痹谖⑴沃欣鄯e,所以分區(qū)數(shù)量不會(huì)影響模型質(zhì)量。

Time部分:由于網(wǎng)絡(luò)的連續(xù)性,幼稚模型并行策略導(dǎo)致嚴(yán)重的未充分利用。 一次只有一個(gè)加速器處于活動(dòng)狀態(tài)

Bubble部分:GPipe將輸入小批量分成較小的微批次,使不同的加速器可以同時(shí)在單獨(dú)的微批次上工作

使用GPipe和不使用,之間的差異有多大?

一個(gè)TPUv2有8個(gè)加速器核心和64GB內(nèi)存(每個(gè)加速器8GB),由于內(nèi)存限制,單個(gè)加速器可以訓(xùn)練的參數(shù)量上限是8200萬(wàn)。

借助反向傳播和批量分割中的重新計(jì)算,GPipe將中間激活內(nèi)存從6.26GB減少到3.46GB,將單個(gè)加速器參數(shù)處理上限提升至3.18億個(gè)。

我們還看到,通過(guò)管道并行性,最大模型大小與分區(qū)數(shù)成正比,如預(yù)期的那樣。

通過(guò)GPipe,AmoebaNet能夠在云TPUv2的8個(gè)加速器上加入18億個(gè)參數(shù),比沒(méi)有GPipe的情況下多25倍。

Google測(cè)量了GPipe對(duì)AmoebaNet-D模型吞吐量的影響。效率和加速器的數(shù)量幾乎是呈線性加速,8個(gè)加速器+8個(gè)分區(qū),比2個(gè)加速器+2個(gè)分區(qū)快2.5倍。

TPUv3效果更好。在1024個(gè)令牌句子上啟用了80億個(gè)參數(shù)Transformer語(yǔ)言模型,16個(gè)加速器將速度提升了11倍

使用GPipe加速AmoebaNet-D,這種模型不適合一個(gè)加速器

基線naive-2是將模型拆分為兩個(gè)分區(qū)時(shí)本機(jī)分區(qū)方法的性能

Pipeline-k指的是GPipe的性能,它將模型分成帶有k個(gè)加速器的k個(gè)分區(qū)

GPipe還可以通過(guò)使用更多加速器來(lái)擴(kuò)展訓(xùn)練,而無(wú)需更改超參數(shù)。因此,它可以與數(shù)據(jù)并行性相結(jié)合,以互補(bǔ)的方式使用更多的加速器來(lái)擴(kuò)展神經(jīng)網(wǎng)絡(luò)訓(xùn)練。

GPipe精確度能達(dá)到多少?

前面我們提到,處理的數(shù)據(jù)量越大,獲得的精度就越高。

Google在ImageNet ILSVRC-2012數(shù)據(jù)集上,使用Cloud TPUv2訓(xùn)練了一個(gè)有5.57億參數(shù)、480 x 480輸入圖像尺寸的AmoebaNet-B模型。

該網(wǎng)絡(luò)被分成4個(gè)分區(qū),這個(gè)巨型模型在多個(gè)流行數(shù)據(jù)集上表現(xiàn)良好,在沒(méi)有任何外部數(shù)據(jù)的情況下,精度達(dá)到了最先進(jìn)的84.3% top-1,以及97% top-5的single-crop驗(yàn)證準(zhǔn)確度。

大型神經(jīng)網(wǎng)絡(luò)不僅適用于ImageNet等數(shù)據(jù)集,還通過(guò)遷移學(xué)習(xí),與其他數(shù)據(jù)集息息相關(guān)。

目前我們已知ImageNet模型越好,遷移就越好。Google在CIFAR10和CIFAR100數(shù)據(jù)集上進(jìn)行了遷移學(xué)習(xí)實(shí)驗(yàn),將最佳公布的CIFAR-10精度提高到99%,將CIFAR-100精度提高到91.3%。

哪里能獲取到GPipe?

Github:

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:谷歌開(kāi)源效率怪獸GPipe,速度提升25倍,CIFAR-10精度達(dá)到99%

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    MAX20326雙精度總線加速器:電子設(shè)計(jì)的理想之選

    MAX20326雙精度總線加速器:電子設(shè)計(jì)的理想之選 在電子設(shè)備高度發(fā)展的今天,對(duì)于通信線路加速和高速數(shù)據(jù)傳輸?shù)男枨笕找嬖鲩L(zhǎng)。MAX20326作為一款雙精度總線加速器,以其獨(dú)特的性能和設(shè)計(jì),為電子
    的頭像 發(fā)表于 05-13 13:10 ?47次閱讀

    如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始實(shí)現(xiàn)中的一些功能?

    )。 如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始實(shí)現(xiàn)中的一些功能。 Example: I do not want to call arm_mat_trans_q15 powerquad
    發(fā)表于 04-03 06:37

    羅氏中國(guó)加速器科研坊正式啟動(dòng)

    "羅氏中國(guó)加速器科研坊"在上海舉辦,首批來(lái)自三甲醫(yī)院的二十多位臨床科研人員,參加了為期五天的腫瘤臨床開(kāi)發(fā)訓(xùn)練營(yíng)。
    的頭像 發(fā)表于 03-28 09:55 ?405次閱讀

    后摩智能M50芯片亮相聯(lián)想集團(tuán)首屆創(chuàng)新加速器開(kāi)放日

    2月5日,聯(lián)想集團(tuán)在京舉辦首屆創(chuàng)新加速器開(kāi)放日暨“新商業(yè)創(chuàng)新生態(tài)路演”,本次活動(dòng)聚焦于AI算力、核心部件及軟硬件應(yīng)用等領(lǐng)域的技術(shù)及產(chǎn)品。作為聯(lián)想創(chuàng)投旗下企業(yè),后摩智能集中展示了如何通過(guò)端邊大模型AI芯片M50,為AI PC等消費(fèi)端產(chǎn)品提供強(qiáng)大的本地大
    的頭像 發(fā)表于 02-09 15:59 ?714次閱讀

    AMD Alveo MA35D加速器:開(kāi)啟大規(guī)模交互式流媒體新時(shí)代

    AMD Alveo MA35D加速器:開(kāi)啟大規(guī)模交互式流媒體新時(shí)代 在當(dāng)今全球視頻市場(chǎng)被直播主導(dǎo)的背景下,低延遲應(yīng)用不斷涌現(xiàn),對(duì)基礎(chǔ)設(shè)施和視頻處理技術(shù)的成本結(jié)構(gòu)及部署策略產(chǎn)生了深遠(yuǎn)影響。AMD推出
    的頭像 發(fā)表于 12-15 14:35 ?621次閱讀

    工業(yè)級(jí)-專(zhuān)業(yè)液晶圖形顯示加速器RA8889ML3N簡(jiǎn)介+顯示方案選型參考表

    本帖最后由 MTCN2013 于 2025-11-17 15:23 編輯 專(zhuān)業(yè)液晶圖形顯示加速器能夠有效減少對(duì)MCU運(yùn)算資源的占用,對(duì)于只需普通單片機(jī)運(yùn)算資源的儀器儀表來(lái)說(shuō),專(zhuān)業(yè)圖形顯示加速器
    發(fā)表于 11-14 16:03

    邊緣計(jì)算中的AI加速器類(lèi)型與應(yīng)用

    人工智能正在推動(dòng)對(duì)更快速、更智能、更高效計(jì)算的需求。然而,隨著每秒產(chǎn)生海量數(shù)據(jù),將所有數(shù)據(jù)發(fā)送至云端處理已變得不切實(shí)際。這正是邊緣計(jì)算中AI加速器變得不可或缺的原因。這種專(zhuān)用硬件能夠直接在邊緣設(shè)備上
    的頭像 發(fā)表于 11-06 13:42 ?1081次閱讀
    邊緣計(jì)算中的AI<b class='flag-5'>加速器</b>類(lèi)型與應(yīng)用

    一些神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)優(yōu)化方案

    特征圖保留不變,完成和所有相關(guān)卷積核點(diǎn)積以后再加載,最多復(fù)用 R*R*M 次。 3.不同網(wǎng)絡(luò)模型效果 如圖所示,后者相對(duì)于前者,減少了連線資源和復(fù)雜度。 4.DNN加速器空間架構(gòu)片上存儲(chǔ)
    發(fā)表于 10-31 07:14

    亞馬遜云科技第三期創(chuàng)業(yè)加速器圓滿收官 助力初創(chuàng)釋放Agentic AI潛力 加速全球化進(jìn)程

    北京——2025年10月28日 ,亞馬遜云科技第三期創(chuàng)業(yè)加速器項(xiàng)目圓滿收官。35家入營(yíng)企業(yè)齊聚一堂,分享了各自的業(yè)務(wù)發(fā)展情況,以及參與本期加速器的收獲及體驗(yàn)。第三期創(chuàng)業(yè)加速器持續(xù)聚焦AI,特別是前沿
    的頭像 發(fā)表于 10-29 15:18 ?1106次閱讀

    SNN加速器內(nèi)部神經(jīng)元數(shù)據(jù)連接方式

    的數(shù)量級(jí),而且生物軸突的延遲和神經(jīng)元的時(shí)間常數(shù)比數(shù)字電路的傳播和轉(zhuǎn)換延遲要大得多,AER 的工作方式和神經(jīng)網(wǎng)絡(luò)的特點(diǎn)相吻合,所以受生物啟發(fā)的神經(jīng)形態(tài)處理中的NoC或SNN加速器通常使用AER協(xié)議來(lái)進(jìn)行
    發(fā)表于 10-24 07:34

    航裕電源以大電流技術(shù)為國(guó)內(nèi)外超導(dǎo)加速器項(xiàng)目提供優(yōu)質(zhì)方案

    航裕電源:以大電流技術(shù),護(hù)航尖端科技 大科學(xué)裝置建設(shè)熱潮中,超導(dǎo)加速器作為探索微觀世界、推動(dòng)前沿科研的 “國(guó)之重”,對(duì)供電系統(tǒng)的穩(wěn)定性、精度及功率提出極致要求。航裕電源以31.5kA、80kA萬(wàn)安
    的頭像 發(fā)表于 10-12 15:02 ?1823次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實(shí)現(xiàn)從模型訓(xùn)練的深度突破到推理部署的實(shí)時(shí)響應(yīng),為大模型
    的頭像 發(fā)表于 08-26 19:18 ?3428次閱讀
    英特爾Gaudi 2E AI<b class='flag-5'>加速器</b>為DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    創(chuàng)客總部加入MathWorks加速器計(jì)劃

    全球領(lǐng)先的數(shù)學(xué)計(jì)算軟件開(kāi)發(fā)商 MathWorks 日前宣布,創(chuàng)客總部已加入 MathWorks 加速器計(jì)劃。作為中關(guān)村科創(chuàng)孵化,創(chuàng)客總部致力于為人工智能創(chuàng)業(yè)企業(yè)、高校院所技術(shù)精英搭建推動(dòng)與實(shí)體經(jīng)濟(jì)
    的頭像 發(fā)表于 08-22 10:00 ?1431次閱讀

    高壓放大器在粒子加速器研究中的應(yīng)用

    粒子加速器是現(xiàn)代科學(xué)研究中不可或缺的大型實(shí)驗(yàn)裝置,廣泛應(yīng)用于物理學(xué)、化學(xué)、材料科學(xué)、生物學(xué)等多個(gè)領(lǐng)域。其核心原理是利用電場(chǎng)和磁場(chǎng)對(duì)帶電粒子進(jìn)行加速和約束,使粒子達(dá)到極高的能量,從而為研究微觀世界
    的頭像 發(fā)表于 06-19 17:09 ?738次閱讀
    高壓放大器在粒子<b class='flag-5'>加速器</b>研究中的應(yīng)用

    粒子加速器?——?科技前沿的核心裝置

    粒子加速器全稱(chēng)“荷電粒子加速器”,是一種利用電磁場(chǎng)在高真空環(huán)境中對(duì)帶電粒子(如電子、質(zhì)子、離子)進(jìn)行加速和控制,使其獲得高能量的特種裝置。粒子加速器
    的頭像 發(fā)表于 06-19 12:05 ?4339次閱讀
    粒子<b class='flag-5'>加速器</b>?——?科技前沿的核心裝置
    寻甸| 行唐县| 清涧县| 南漳县| 新乐市| 砚山县| 安宁市| 台江县| 永春县| 加查县| 巴彦县| 迭部县| 缙云县| 渝北区| 万载县| 阿巴嘎旗| 共和县| 北宁市| 峨眉山市| 迁安市| 泽普县| 钟山县| 水富县| 绩溪县| 九江市| 韩城市| 黔西县| 建湖县| 西安市| 金山区| 嫩江县| 铁岭县| 呼伦贝尔市| 稻城县| 体育| 白山市| 田林县| 浑源县| 旺苍县| 安陆市| 大姚县|