日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

1024塊TPU在燃燒!將BERT預(yù)訓(xùn)練模型的訓(xùn)練時長從3天縮減到了76分鐘

電子工程師 ? 來源:lp ? 2019-04-04 16:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“Jeff Dean稱贊,TensorFlow官方推特支持,BERT目前工業(yè)界最耗時的應(yīng)用,計算量遠高于ImageNet。我們將BERT的訓(xùn)練時間從三天縮短到了一小時多?!盪C Berkeley大學(xué)在讀博士尤洋如是說道。

近日,來自Google、UC Berkeley、UCLA研究團隊再度合作,成功燃燒1024塊TPU,將BERT預(yù)訓(xùn)練模型的訓(xùn)練時長從3天縮減到了76分鐘。batch size技術(shù)是加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”這篇論文中,作者提出了LAMB優(yōu)化器,它支持自適應(yīng)元素更新和分層校正。

論文傳送門:https://arxiv.org/pdf/1904.00962.pdf

論文摘要:batch size增加到很大時的模型訓(xùn)練是加速大型分布式系統(tǒng)中深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵。但是,這種模型訓(xùn)練很難,因為它會導(dǎo)致一種泛化差距。直接優(yōu)化通常會導(dǎo)致測試集上的準確性下降。

BERT是一種先進的深度學(xué)習(xí)模型,它建立在語義理解的深度雙向轉(zhuǎn)換器上。當(dāng)我們增加batch size的大?。ㄈ绯^8192)時,此前的模型訓(xùn)練技巧在BERT上表現(xiàn)得并不好。BERT預(yù)訓(xùn)練也需要很長時間才能完成,如在16個TPUv3上大約需要三天。

為了解決這個問題,我們提出了LAMB優(yōu)化器,可將batch size擴展到65536,且不會降低準確率。LAMB是一個通用優(yōu)化器,batch size大小均使用,且除了學(xué)習(xí)率之外不需要別的參數(shù)調(diào)整。

基線BERT-Large模型需要100萬次迭代才能完成預(yù)訓(xùn)練,而batch size大小為65536/32768的LAMB僅需要8599次迭代。我們還將batch size進行內(nèi)存限制,接近TPUv3 pod,結(jié)果可在76分鐘內(nèi)完成BERT訓(xùn)練。

據(jù)悉,該論文的一作是來自UC Berkeley計算機科學(xué)部的在讀博士尤洋,同時也是Google Brain的實習(xí)生。據(jù)公開信息顯示,尤洋的導(dǎo)師是美國科學(xué)院與工程院院士,ACM/IEEE fellow,伯克利計算機系主任,以及首批中關(guān)村海外顧問James Demmel教授。他當(dāng)前的研究重點是大規(guī)模深度學(xué)習(xí)訓(xùn)練算法的分布式優(yōu)化。2017年9月,尤洋等人的新算法以24分鐘完成ImageNet訓(xùn)練,刷新世界紀錄。

在此之前,他曾在英特爾實驗室、微軟研究院、英偉達、IBM沃森研究中心等機構(gòu)實習(xí)。尤洋本科就讀于中國農(nóng)業(yè)大學(xué)計算機系,碩士保送清華大學(xué)計算機系,是一名杠杠的理工學(xué)霸!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108206
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    173

    瀏覽量

    21721
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5610

    瀏覽量

    124656
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    37

    瀏覽量

    4082

原文標題:1024塊TPU在燃燒!BERT訓(xùn)練從3天縮短到76分鐘 | 技術(shù)頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    谷歌發(fā)布第八代TPU訓(xùn)練推理分離,搭載自研CPU

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)2026年4月22日舉行的谷歌云Next大會上,谷歌正式發(fā)布了第八代張量處理單元(TPU)。此次發(fā)布的產(chǎn)品包含兩款獨立的芯片:TPU 8t和TPU 8i
    的頭像 發(fā)表于 04-24 09:03 ?6158次閱讀
    谷歌發(fā)布第八代<b class='flag-5'>TPU</b>,<b class='flag-5'>訓(xùn)練</b>推理分離,搭載自研CPU

    《多模態(tài)大模型 前沿算法與實戰(zhàn)應(yīng)用 第一季》精品課程簡介

    為512維向量。 語言模態(tài) :BERT、GPT等預(yù)訓(xùn)練模型文本轉(zhuǎn)換為上下文相關(guān)的詞嵌入。例如\"蘋果\"
    發(fā)表于 05-01 17:46

    零基礎(chǔ)手寫大模型資料2026

    零基礎(chǔ)純代碼手寫大模型數(shù)學(xué)原理到工程實踐的技術(shù)解析 深度學(xué)習(xí)框架高度封裝的今天,理解大模型底層原理的開發(fā)者愈發(fā)稀缺。本文剝離復(fù)雜框架
    發(fā)表于 05-01 17:44

    AI Ceph 分布式存儲教程資料大模型學(xué)習(xí)資料2026

    瓶頸:傳統(tǒng)存儲向 AI 專用架構(gòu)演進 模型訓(xùn)練場景下,計算節(jié)點(GPU)的運算速度極快,往往毫秒級就能完成一輪數(shù)據(jù)的處理。如果后端
    發(fā)表于 05-01 17:35

    HM博學(xué)谷狂野AI大模型第四期

    ,抽象的數(shù)學(xué)概念轉(zhuǎn)化為具象的張量流動邏輯。開發(fā)者將不再被復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)圖所迷惑,而是能夠清晰地看到數(shù)據(jù)模型內(nèi)部的流動軌跡,為后續(xù)的模型優(yōu)化與定制打下堅實的算法地基。 二、
    發(fā)表于 05-01 17:30

    Edge Impulse 喚醒詞模型訓(xùn)練 | 技術(shù)集結(jié)

    今天,手把手帶領(lǐng)學(xué)習(xí)如何訓(xùn)練一個語音關(guān)鍵詞模型部署到嵌入式硬件上,采用Edgi-Talk平臺適配EdgeImpulse,當(dāng)然原理在其他的ARM嵌入式平臺也是通用的。讓我們看看如何讓
    的頭像 發(fā)表于 04-20 10:05 ?1263次閱讀
    Edge Impulse 喚醒詞<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b> | 技術(shù)集結(jié)

    AI模型訓(xùn)練與部署實戰(zhàn) | 線下免費培訓(xùn)

    流程與部署實戰(zhàn)”免費培訓(xùn)!以人形檢測模型部署與優(yōu)化實戰(zhàn)為基礎(chǔ),聚焦嵌入式AI落地的核心環(huán)節(jié),提供硬件,動手實操,帶你半天時間內(nèi),走通模型訓(xùn)練
    的頭像 發(fā)表于 04-07 13:08 ?696次閱讀
    AI<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>與部署實戰(zhàn) | 線下免費培訓(xùn)

    訓(xùn)練到推理:大模型算力需求的新拐點已至

    模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中模型訓(xùn)練所需的算力投入。一個萬億參數(shù)大模型
    的頭像 發(fā)表于 02-05 16:07 ?1057次閱讀
    <b class='flag-5'>從</b><b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,一文看懂!?

    CPU作為“通用基石”,支撐所有設(shè)備的基礎(chǔ)運行;GPU憑借并行算力,成為AI訓(xùn)練與圖形處理的“主力”;TPUGoogle生態(tài)中深耕云端大模型訓(xùn)練
    的頭像 發(fā)表于 12-17 17:13 ?2372次閱讀
    AI硬件全景解析:CPU、GPU、NPU、<b class='flag-5'>TPU</b>的差異化之路,一文看懂!?

    RA8P1部署ai模型指南:訓(xùn)練模型到部署?|?本周六

    嵌入式邊緣AI中,如何把“訓(xùn)練好的模型”穩(wěn)定地“跑板子上”,決定了項目能否落地。我們帶你基于RA8P1平臺,跑通數(shù)據(jù)準備、
    的頭像 發(fā)表于 11-20 18:06 ?2449次閱讀
    RA8P1部署ai<b class='flag-5'>模型</b>指南:<b class='flag-5'>從</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>到部署?|?本周六

    Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標是
    發(fā)表于 10-22 07:03

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1247次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發(fā)表于 07-30 08:15

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】 + 04 + 機器學(xué)習(xí)YOLO體驗

    的查找數(shù)字的模型 前提條件是我擁有9個分別是漢字1-9的物牌,從中任意拿走一個,通過對剩余物牌的識別,可以快速的得到被拿走的物牌并進行屏幕顯示。 相關(guān)演示見頂部和底部視頻
    發(fā)表于 07-24 21:35

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38
    贵南县| 淅川县| 玉山县| 西丰县| 龙陵县| 高雄市| 黄石市| 博爱县| 驻马店市| 抚宁县| 清新县| 昌邑市| 灵璧县| 襄汾县| 梁河县| 疏勒县| 贵溪市| 巴楚县| 寻甸| 玉环县| 长子县| 东兰县| 晋城| 峨山| 横山县| 兴城市| 扎赉特旗| 长泰县| 昭通市| 扶沟县| 大邑县| 桐梓县| 德兴市| 安化县| 盐城市| 永嘉县| 清新县| 皮山县| 绩溪县| 应城市| 寿阳县|