日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

富士通實(shí)驗(yàn)室在74.7秒內(nèi)完成了ImageNet上訓(xùn)練ResNet-50網(wǎng)絡(luò)

DPVg_AI_era ? 來(lái)源:lp ? 2019-04-08 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ImageNet 訓(xùn)練紀(jì)錄再次被刷新!富士通實(shí)驗(yàn)室在 74.7 秒內(nèi)完成了 ImageNet 上訓(xùn)練 ResNet-50 網(wǎng)絡(luò),使用 2048 個(gè) GPU,準(zhǔn)確率為 75.08%,刷新了此前谷歌 1.8 分鐘的記錄。

在過(guò)去兩年中,深度學(xué)習(xí)的速度加速了 30 倍。但是人們還是對(duì) “快速執(zhí)行機(jī)器學(xué)習(xí)算法” 有著強(qiáng)烈的需求。

Large mini-batch 分布式深度學(xué)習(xí)是滿足需求的關(guān)鍵技術(shù)。但是由于難以在不影響準(zhǔn)確性的情況下在大型集群上實(shí)現(xiàn)高可擴(kuò)展性,因此具有較大的挑戰(zhàn)難度。

最近,富士通實(shí)驗(yàn)室的一項(xiàng)研究刷新了一項(xiàng)紀(jì)錄:

論文地址:

https://arxiv.org/pdf/1903.12650.pdf

這項(xiàng)研究在74.7 秒內(nèi)完成了 ImageNet 上訓(xùn)練 ResNet-50 網(wǎng)絡(luò),使用 2048 個(gè) GPU,準(zhǔn)確率為 75.08%,刷新了此前谷歌 1.8 分鐘的記錄。

表1:ImageNet上訓(xùn)練ResNet-50的記錄

增加 mini-batch 大小,實(shí)現(xiàn)短時(shí)間內(nèi)的高準(zhǔn)確性

基于大數(shù)據(jù)集的深度神經(jīng)網(wǎng)絡(luò) (DNN) 模型在對(duì)象檢測(cè)、語(yǔ)言翻譯等領(lǐng)域取得了令人矚目的成果。然而,隨著 DNN 模型和數(shù)據(jù)集規(guī)模的增大,DNN 訓(xùn)練的計(jì)算量也隨之加劇。

具有數(shù)據(jù)并行性的分布式深度學(xué)習(xí)是加速集群訓(xùn)練的一種有效方法。

在這種方法中,集群上啟動(dòng)的所有進(jìn)程都具有相同的 DNN 模型和權(quán)重。每個(gè)過(guò)程都用不同的 mini-batch 訓(xùn)練模型,但是來(lái)自所有過(guò)程的權(quán)重梯度被組合以更新所有權(quán)重。

對(duì)于大型集群,這種通信開(kāi)銷成為一個(gè)重要的問(wèn)題。

為了減少大型集群的開(kāi)銷,該研究增加了 DNN 的 mini-batch 大小,且并行計(jì)算了 DNN 訓(xùn)練。然而,在 minni-batch 訓(xùn)練中,DNN 模型的驗(yàn)證精度普遍較差。

因此,研究者們采用了幾種技術(shù)來(lái)增加 mini-batch 的大小,這表明了在迭代中計(jì)算的輸入圖像的數(shù)量,而不會(huì)影響驗(yàn)證的準(zhǔn)確性。

在實(shí)驗(yàn)過(guò)程中,本文使用了人工智能橋接云基礎(chǔ)設(shè)備 (AI Bridging Cloud Infrastructure,ABCI) 集群 GPU和自優(yōu)化的 MXNet 深度學(xué)習(xí)框架。并在 ImageNet 上使用 81,920 mini-batch 大小,74.7 秒內(nèi)實(shí)現(xiàn)了 ResNet-50 的 75.08%驗(yàn)證準(zhǔn)確度。

技術(shù)方法三部曲

本文的技術(shù)方法主要分為三個(gè)部分:準(zhǔn)確性改良、框架優(yōu)化和通信優(yōu)化。

A. 準(zhǔn)確性改良

這部分采用了通常用于深度學(xué)習(xí)優(yōu)化器的隨機(jī)梯度下降(SGD)。在對(duì) large mini-batch 進(jìn)行訓(xùn)練時(shí),SGD 更新的數(shù)量隨著小型批大小的增加而減少,因此提高 large mini-batch 的最終驗(yàn)證精度是一個(gè)很大的挑戰(zhàn),本文采用了以下技術(shù)。

學(xué)習(xí)速率控制:由于更新數(shù)量較少,需要使用高學(xué)習(xí)率來(lái)加速訓(xùn)練。 然而,高學(xué)習(xí)率使得模型訓(xùn)練在早期階段不穩(wěn)定。 因此,我們通過(guò)使用逐漸提高學(xué)習(xí)率的預(yù)熱 (warmup) 來(lái)穩(wěn)定 SGD。此外,對(duì)于某些層,所有層的學(xué)習(xí)速率都太高了,還通過(guò)使用層次自適應(yīng)速率縮放(LARS)來(lái)穩(wěn)定訓(xùn)練,LARS 根據(jù)規(guī)范權(quán)重和梯度調(diào)整每層的學(xué)習(xí)速率。

其它技術(shù):據(jù)報(bào)道,標(biāo)簽平滑提高了 32,768 個(gè) mini-batch 的準(zhǔn)確性。本文也采用了這種方法,并對(duì) 81920 個(gè) mini-batch 進(jìn)行了精度改進(jìn)。

batch 標(biāo)準(zhǔn)化層的均值和方差的移動(dòng)平均 (moving average) 在每個(gè)過(guò)程中獨(dú)立計(jì)算,而權(quán)重是同步的。這些值在 large mini-batch 上變得不準(zhǔn)確;因此,本文調(diào)整了一些超參數(shù)來(lái)優(yōu)化移動(dòng)平均線。

B. 框架優(yōu)化

我們使用了 MXNet,MXNet 具有靈活性和可擴(kuò)展性,能夠在集群上高效地訓(xùn)練模型。然而,在中小型集群環(huán)境中只占總時(shí)間的一小部分的處理方式可能成為大規(guī)模集群環(huán)境中的瓶頸。我們使用了幾個(gè)分析器來(lái)分析 CPU 和 GPU 性能,找出了瓶頸。我們對(duì)瓶頸進(jìn)行了優(yōu)化,提高了訓(xùn)練吞吐量。

1) 并行 DNN 模型初始化:

在數(shù)據(jù)并行分布式深度學(xué)習(xí)中,必須初始化所有層,使所有進(jìn)程的權(quán)重相同。通常,根進(jìn)程初始化模型的所有權(quán)重。然后,進(jìn)程將這些權(quán)重傳遞 (broadcast) 給所有進(jìn)程。傳遞時(shí)間隨著進(jìn)程數(shù)量的增加而增加,在有成千上萬(wàn)個(gè)進(jìn)程進(jìn)行分布式深度學(xué)習(xí)時(shí),其成本不可忽視。

因此,我們采用了其他初始化方法,即每個(gè)進(jìn)程具有相同的種子并并行地初始化權(quán)重。這種方法無(wú)需 broadcast 操作就可以同步初始權(quán)重。

2) GPU 上的 Batch Norm 計(jì)算:

每層的 norm 計(jì)算都需要使用 LARS 更新權(quán)重。與 GPU 上的內(nèi)核數(shù)量相比,ResNet-50 的大多數(shù)層沒(méi)有足夠的權(quán)重。如果我們?cè)?GPU 上計(jì)算每一層的 weight norm,線程數(shù)不足以占據(jù)所有 CUDA 核心。因此,我們實(shí)現(xiàn)了一個(gè)特殊的 GPU 內(nèi)核,用于 batched norm 計(jì)算到 MXNet。該 GPU 內(nèi)核可以啟動(dòng)足夠數(shù)量的線程,并且可以并行計(jì)算層的范數(shù)。

C. 通信優(yōu)化

分布式并行深度學(xué)習(xí)要求所有 reduce 通信在所有進(jìn)程之間交換每一層的梯度。在大集群環(huán)境中,由于每個(gè) GPU 的 batch size 較小,使得通信時(shí)間變長(zhǎng),計(jì)算時(shí)間變短,因此 reduce communication 開(kāi)銷是不可忽略的。為了克服這些問(wèn)題,我們采用了以下兩種優(yōu)化方法。

1) 調(diào)整通信的數(shù)據(jù)大小

2) 通信的優(yōu)化調(diào)度

實(shí)驗(yàn)設(shè)置與實(shí)驗(yàn)結(jié)果

我們使用 ABCI 集群來(lái)評(píng)估基于 MXNet 的優(yōu)化框架的性能。ABCI 集群的每個(gè)節(jié)點(diǎn)由兩個(gè) Xeon Gold 6148 CPU 和四個(gè) NVIDIA Tesla V100 SXM2 GPU 組成。此外,節(jié)點(diǎn)上的 GPU 由 NVLink 連接,節(jié)點(diǎn)也有兩個(gè) InfiniBand 網(wǎng)絡(luò)接口卡。圖 1 為 ABCI 集群節(jié)點(diǎn)結(jié)構(gòu)示意圖。

圖 1:ABCI 集群中一個(gè)計(jì)算節(jié)點(diǎn)的示意圖。它由兩個(gè) GPU、四個(gè) GPU 和兩個(gè)連接到相應(yīng) CPU 的 HCA 組成。

我們使用混合精度方法,使用半精度浮點(diǎn)數(shù)計(jì)算和通信,并使用單精度浮點(diǎn)數(shù)更新權(quán)重。我們使用了原始優(yōu)化器,它可以很好地控制學(xué)習(xí)率。除了穩(wěn)定訓(xùn)練精度外,我們還使用了 warmup 和 LARS 技術(shù)。

我們對(duì) ResNet-50 訓(xùn)練的測(cè)量依據(jù) MLPerf v0.5.0 規(guī)則。也就是說(shuō),我們度量了從 “run start” 到 “run final” 的運(yùn)行時(shí)間,其中包括初始化和內(nèi)存分配時(shí)間。

結(jié)果表明,優(yōu)化后的 DNN 框架在 74.7 秒內(nèi)完成了 ImageNet 上 ResNet-50 的訓(xùn)練,驗(yàn)證精度為 75.08%。

圖 2:優(yōu)化后的框架的可擴(kuò)展性用實(shí)線表示,虛線表示理想曲線。

我們還測(cè)量了 ResNet-50 的可擴(kuò)展性。圖 2 顯示了根據(jù) GPU 數(shù)量計(jì)算的吞吐量。在圖 2 中,虛線表示理想的每秒圖像吞吐量,實(shí)線表示我們的結(jié)果。如圖表明,直到 2048 個(gè) GPU,我們的框架的可擴(kuò)展性都非常好。使用 2048 個(gè) GPU 的吞吐量為每秒 170 萬(wàn)張圖像,可擴(kuò)展性為 77.0%。

圖 3:在 49152 個(gè)或更大的 mini-batch 訓(xùn)練中,top-1 驗(yàn)證精度的變化

圖 3 顯示了 81,920 個(gè)或更大的 mini-batch 訓(xùn)練中 top-1 驗(yàn)證精度的結(jié)果。從圖 3 中可以看出, mini-batches 超過(guò) 81,920 個(gè)的驗(yàn)證精度低于 74.9%,不符合 MLPerf 規(guī)定。因此,ImageNet 數(shù)據(jù)集一個(gè) epoch 的圖像數(shù)量為 1,280,000 張,如果使用 81,920 mini-batch,一個(gè) epoch 中的更新數(shù)量?jī)H為 16 張,其中更新總數(shù)為 1,440 張。這個(gè)數(shù)字太小,SGD 求解器無(wú)法訓(xùn)練 DNN 權(quán)重。因此,使用大的 mini-batch 是一個(gè)很大的挑戰(zhàn),我們嘗試使用盡可能大的 mini-batch。

如表 1 所示,與其他工作相比,81,920 mini-batch size 已經(jīng)很大,驗(yàn)證精度達(dá)到 75% 以上。

圖 4:訓(xùn)練精度與驗(yàn)證精度之比較

圖 4 顯示了訓(xùn)練精度與驗(yàn)證精度的對(duì)比。從圖中可以看出,使用 batch normalization 和 label smoothing 技術(shù),我們的驗(yàn)證精度結(jié)果并沒(méi)有過(guò)擬合。

結(jié)論

我們開(kāi)發(fā)了一種新的技術(shù),可以在大規(guī)模 GPU 集群上使用 large mini-batch,而不會(huì)降低驗(yàn)證精度。我們將該技術(shù)應(yīng)用到基于 MXNet 的深度學(xué)習(xí)框架中。使用 81920 minibatch size,我們的 DNN 訓(xùn)練結(jié)果在 74.7 秒內(nèi)訓(xùn)練完 ResNet-50,驗(yàn)證精度達(dá)到 75.08%。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108203
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136099
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137255

原文標(biāo)題:74.7秒訓(xùn)練完ImageNet!刷新記錄,2048 GPU暴力出奇跡

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    錘子手機(jī)發(fā)布會(huì)羅永浩提到的富士通

    開(kāi)始推出普及型的商用網(wǎng)絡(luò)設(shè)備和多媒體處理設(shè)備。富士通于1988年新加坡建成了首個(gè)商用的ISDN服務(wù)網(wǎng)絡(luò)。1989年8月,帶有“∞”符號(hào)的鮮
    發(fā)表于 05-21 10:54

    【CANN訓(xùn)練營(yíng)第三季】基于Caffe ResNet-50網(wǎng)絡(luò)實(shí)現(xiàn)圖片分類

    【CANN訓(xùn)練營(yíng)第三季】基于Caffe ResNet-50網(wǎng)絡(luò)實(shí)現(xiàn)圖片分類
    發(fā)表于 12-19 22:34

    網(wǎng)絡(luò)實(shí)驗(yàn)室的構(gòu)建及其實(shí)驗(yàn)教學(xué)中的應(yīng)用

    本文介紹了以LabVIEW 和iLab 交互式結(jié)構(gòu)為基礎(chǔ)構(gòu)建的一個(gè)可以完成真實(shí)實(shí)驗(yàn)和虛擬實(shí)驗(yàn)相結(jié)合的的電工電子網(wǎng)絡(luò)實(shí)驗(yàn)室,并在此基礎(chǔ)構(gòu)建了
    發(fā)表于 09-17 11:50 ?15次下載

    富士通微電子攜手西安電子科技大學(xué)成立MCU“聯(lián)合實(shí)驗(yàn)室

    富士通微電子攜手西安電子科技大學(xué)成立MCU“聯(lián)合實(shí)驗(yàn)室富士通微電子(上海)有限公司今日宣布再拓SRTP發(fā)展計(jì)劃,與西安電子科技大學(xué)聯(lián)手建立MCU
    發(fā)表于 11-22 18:28 ?812次閱讀

    芯片實(shí)驗(yàn)室15就可完成流感檢測(cè)

    芯片實(shí)驗(yàn)室15就可完成流感檢測(cè) 也許2年后,一個(gè)沒(méi)有經(jīng)過(guò)充分醫(yī)護(hù)訓(xùn)練的人只用幾分鐘就可檢測(cè)出病人是否患有流感、被細(xì)菌感染、中毒甚至是否
    發(fā)表于 01-06 11:22 ?1083次閱讀
    芯片<b class='flag-5'>實(shí)驗(yàn)室</b>15<b class='flag-5'>秒</b>就可<b class='flag-5'>完成</b>流感檢測(cè)

    網(wǎng)絡(luò)虛擬實(shí)驗(yàn)室及實(shí)現(xiàn)方法

    文章描述了網(wǎng)絡(luò) 虛擬實(shí)驗(yàn)室 的定義、框架結(jié)構(gòu)、特點(diǎn)以及面臨的關(guān)鍵技術(shù),并且就當(dāng)前實(shí)現(xiàn)網(wǎng)絡(luò)虛擬實(shí)驗(yàn)室的幾種主流技術(shù)進(jìn)行了比較和概括.
    發(fā)表于 07-04 11:11 ?16次下載
    <b class='flag-5'>網(wǎng)絡(luò)</b>虛擬<b class='flag-5'>實(shí)驗(yàn)室</b>及實(shí)現(xiàn)方法

    富士通廣東設(shè)立信息通信技術(shù)實(shí)驗(yàn)室 全面部署中國(guó)

    日本富士通集團(tuán)于2012年7月11日宣布將在廣東省成立“信息通信技術(shù)產(chǎn)業(yè)應(yīng)用實(shí)驗(yàn)室”,推進(jìn)云計(jì)算、物聯(lián)網(wǎng)(M2M)等先進(jìn)技術(shù)的應(yīng)用研究及驗(yàn)證試驗(yàn),為廣東省的政府機(jī)關(guān)和企業(yè)等應(yīng)用
    發(fā)表于 07-13 12:47 ?767次閱讀

    美國(guó)實(shí)驗(yàn)室特寫(xiě):等離子物理實(shí)驗(yàn)室制造的微型太陽(yáng)

    這個(gè)月,popsci 專門為我們呈現(xiàn)了美國(guó)的十大實(shí)驗(yàn)室,這些實(shí)驗(yàn)室都是學(xué)生們做實(shí)驗(yàn)訓(xùn)練的場(chǎng)所。本篇介紹的實(shí)驗(yàn)室是坐落在普林斯頓大學(xué)的等離子
    的頭像 發(fā)表于 09-10 08:49 ?5836次閱讀
    美國(guó)<b class='flag-5'>實(shí)驗(yàn)室</b>特寫(xiě):等離子物理<b class='flag-5'>實(shí)驗(yàn)室</b>制造的微型太陽(yáng)

    深度學(xué)習(xí)上演“皇帝的新衣”如何剖析CoordConv?

    他們嘗試ImageNet上將坐標(biāo)特征添加到ResNet-50網(wǎng)絡(luò)的第一個(gè)圖層。我猜作者希望在這里看到較大的提升,因?yàn)?/div>
    的頭像 發(fā)表于 07-20 09:18 ?7958次閱讀

    索尼發(fā)布新的方法,ImageNet數(shù)據(jù)集224秒內(nèi)成功訓(xùn)練ResNet-50

    近年來(lái),許多研究人員提出了多種方案來(lái)解決這兩個(gè)問(wèn)題(見(jiàn)原文參考文獻(xiàn))。這些工作利用ImageNet/ResNet-50訓(xùn)練來(lái)衡量訓(xùn)練效果。Image
    的頭像 發(fā)表于 11-16 10:01 ?1w次閱讀

    華為云刷新深度學(xué)習(xí)加速紀(jì)錄

    華為云ModelArts國(guó)際權(quán)威的深度學(xué)習(xí)模型基準(zhǔn)測(cè)試平臺(tái)斯坦福DAWNBenchmark取得了當(dāng)前圖像識(shí)別訓(xùn)練時(shí)間最佳成績(jī),ResNet-50
    的頭像 發(fā)表于 12-03 10:29 ?3649次閱讀

    AI可識(shí)別語(yǔ)音情感模型 1.2秒內(nèi)判斷你的憤怒

    亞馬遜的Alexa可根據(jù)語(yǔ)音判斷你需要的選擇,但是人工智能(AI)卻可以感知你是否生氣。麻省理工學(xué)院媒體實(shí)驗(yàn)室的分支機(jī)構(gòu)Affectiva的聲聯(lián)網(wǎng)系統(tǒng),可在短短1.2秒內(nèi)從音頻數(shù)據(jù)中分辨出你的憤怒。無(wú)論是什么語(yǔ)言,這個(gè)時(shí)間剛好超過(guò)人類感知憤怒所需的時(shí)間。
    發(fā)表于 02-12 17:10 ?3794次閱讀

    富士通宣布打破了ImageNet訓(xùn)練速度記錄——74.7秒內(nèi)達(dá)到75%的準(zhǔn)確率

    研究人員介紹說(shuō):“眾所周知,具有數(shù)據(jù)并行性的分布式深度學(xué)習(xí)是加速集群訓(xùn)練的有效方法。通過(guò)這種方法,集群運(yùn)行的所有步驟都具有相同的DNN模型和權(quán)重?!?/div>
    的頭像 發(fā)表于 04-28 18:55 ?4870次閱讀

    基于改進(jìn)ResNet50網(wǎng)絡(luò)的自動(dòng)駕駛場(chǎng)景天氣識(shí)別算法

    ResNet50網(wǎng)絡(luò)4組模塊內(nèi)加入SE模塊,以便更好地?cái)M合通道間復(fù)雜的魯棒性?;谧詣?dòng)駕駛汽車路測(cè)圖像數(shù)據(jù)對(duì)所提算法進(jìn)行Python編程實(shí)現(xiàn),結(jié)果表明:SE模塊的加入能夠增加算法的魯
    的頭像 發(fā)表于 11-09 11:14 ?1905次閱讀
    基于改進(jìn)<b class='flag-5'>ResNet50</b><b class='flag-5'>網(wǎng)絡(luò)</b>的自動(dòng)駕駛場(chǎng)景天氣識(shí)別算法

    基于瑞芯微RK3576的resnet50訓(xùn)練部署教程

    Resnet50簡(jiǎn)介ResNet50網(wǎng)絡(luò)是2015年由微軟實(shí)驗(yàn)室的何愷明提出,獲得ILSVRC2015圖像分類競(jìng)賽第一名。
    的頭像 發(fā)表于 09-10 11:19 ?1485次閱讀
    基于瑞芯微RK3576的<b class='flag-5'>resnet50</b><b class='flag-5'>訓(xùn)練</b>部署教程
    顺昌县| 建平县| 霍城县| 江安县| 庆元县| 威宁| 开化县| 汝城县| 昌江| 车险| 双峰县| 怀安县| 乌苏市| 宁夏| 昌邑市| 九台市| 南宁市| 探索| 阿瓦提县| 濮阳市| 江门市| 龙里县| 新密市| 清水河县| 中超| 铜鼓县| 巴马| 信宜市| 彭泽县| 珲春市| 怀宁县| 繁峙县| 长顺县| 新建县| 屯留县| 丹凤县| 台中县| 宜州市| 云南省| 德化县| 徐闻县|