日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind又放福利:開源了一個(gè)內(nèi)部的分布式機(jī)器學(xué)習(xí)庫TF-Replicator

DPVg_AI_era ? 來源:lp ? 2019-03-10 09:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,DeepMind又放福利:開源了一個(gè)內(nèi)部的分布式機(jī)器學(xué)習(xí)TF-Replicator,可以幫助研究人員將TensorFlow模型輕松部署到GPU、TPU,并實(shí)現(xiàn)不同類型加速器之間的無縫切換。

最近AI領(lǐng)域的突破,從AlphaFold到BigGAN再到AlphaStar,一個(gè)反復(fù)出現(xiàn)的主題是,對(duì)方便、可靠的可擴(kuò)展性的需求。

研究人員已經(jīng)能夠獲取越來越多計(jì)算能力,得以訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò),然而,將模型擴(kuò)展到多個(gè)設(shè)備并不是一件容易的事情。

今天,DeepMind又將其內(nèi)部一個(gè)秘密武器公之于眾——TF-Replicator,一個(gè)可以幫助研究人員將他們的TensorFlow模型輕松部署到GPU、Cloud TPU的分布式機(jī)器學(xué)習(xí)框架,即使他們之前完全沒有使用分布式系統(tǒng)的經(jīng)驗(yàn)。

TF-Replicator由DeepMind的研究平臺(tái)團(tuán)隊(duì)開發(fā),初衷是為DeepMind的研究人員提供一個(gè)簡(jiǎn)單的接入TPU的API,現(xiàn)在,TF-Replicator已經(jīng)是DeepMind內(nèi)部最廣泛使用的TPU編程接口。

TF-Replicator允許研究人員針對(duì)機(jī)器學(xué)習(xí)定位不同的硬件加速器進(jìn)行,將工作負(fù)載擴(kuò)展到許多設(shè)備,并在不同類型的加速器之間無縫切換。

雖然它最初是作為TensorFlow上面的一個(gè)庫開發(fā)的,但目前TF-Replicator的API已經(jīng)集成到TensorFlow 2.0新的tf.distribute.Strategy中,作為 tf.distribute.Strategy的一部分開源:

https://www.tensorflow.org/alpha/guide/distribute_strategy

團(tuán)隊(duì)還公開了相關(guān)論文:TF-Replicator: Distributed Machine Learning for Researchers,全面描述了這個(gè)新框架的技術(shù)細(xì)節(jié)。

https://arxiv.org/abs/1902.00465

接下來,我們將介紹TF-Replicator背后的想法和技術(shù)挑戰(zhàn)。

構(gòu)建一個(gè)分布式機(jī)器學(xué)習(xí)庫

雖然TensorFlow為CPU、GPU和TPU設(shè)備都提供了直接支持,但是在目標(biāo)之間切換需要用戶付出大量的努力。這通常涉及為特定的硬件目標(biāo)專門編寫代碼,將研究想法限制在該平臺(tái)的功能上。

一些構(gòu)建在TensorFlow之上的現(xiàn)有框架,例如Estimators,已經(jīng)試圖解決這個(gè)問題。然而,它們通常針對(duì)生產(chǎn)用例,缺乏快速迭代研究思路所需的表達(dá)性和靈活性。

我們開發(fā)TF-Replicator的初衷是為DeepMind的研究人員提供一個(gè)使用TPU的簡(jiǎn)單API。TPU為機(jī)器學(xué)習(xí)工作負(fù)載提供了可擴(kuò)展性,實(shí)現(xiàn)了許多研究突破,例如使用我們的BigGAN模型實(shí)現(xiàn)了最先進(jìn)的圖像合成。

TensorFlow針對(duì)TPU的原生API與針對(duì)GPU的方式不同,這造成了使用TPU的障礙。TF-Replicator提供了一個(gè)更簡(jiǎn)單、更用戶友好的API,隱藏了TensorFlow的TPU API的復(fù)雜性。此外,研究平臺(tái)團(tuán)隊(duì)與不同機(jī)器學(xué)習(xí)領(lǐng)域的研究人員密切合作,開發(fā)了TF-Replicator API,以確保必要的靈活性和易用性。

TF-Replicator API

使用TF-Replicator編寫的代碼與使用TensorFlow中為單個(gè)設(shè)備編寫的代碼類似,允許用戶自由定義自己的模型運(yùn)行循環(huán)。用戶只需要定義(1)一個(gè)公開數(shù)據(jù)集的輸入函數(shù),以及(2)一個(gè)定義其模型邏輯的step函數(shù)(例如,梯度下降的單個(gè)step):

# Deploying a model with TpuReplicator.repl = tf_replicator.TpuReplicator( num_workers=1, num_tpu_cores_per_worker=8)with repl.context(): model = resnet_model() base_optimizer = tf.train.AdamOptimizer() optimizer = repl.wrap_optimizer(base_optimizer)# ... code to define replica input_fn and step_fn.per_replica_loss = repl.run(step_fn, input_fn)train_op = tf.reduce_mean(per_replica_loss)with tf.train.MonitoredSession() as session: repl.init(session) for i in xrange(num_train_steps): session.run(train_op) repl.shutdown(session)

將計(jì)算擴(kuò)展到多個(gè)設(shè)備需要設(shè)備之間進(jìn)行通信。在訓(xùn)練機(jī)器學(xué)習(xí)模型的背景下,最常見的通信形式是累積梯度(accumulate gradients)以用于優(yōu)化算法,如隨機(jī)梯度下降。

因此,我們提供了一種方便的方法來封裝TensorFlow Optimizers,以便在更新模型參數(shù)之前在設(shè)備之間累積梯度。對(duì)于更一般的通信模式,我們提供了類似于MPI的原語,如“all_reduce”和“broadcast”。這些使得實(shí)現(xiàn)諸如全局批標(biāo)準(zhǔn)化之類的操作變得非常簡(jiǎn)單,這是擴(kuò)展BigGAN模型訓(xùn)練的關(guān)鍵技術(shù)。

輸入數(shù)據(jù)從主機(jī)發(fā)送到各個(gè)GPU, GPU立即開始處理。當(dāng)需要在GPU之間交換信息時(shí),它們會(huì)在發(fā)送數(shù)據(jù)之前進(jìn)行同步。

實(shí)現(xiàn)

對(duì)于多GPU計(jì)算,TF-Replicator依賴于“圖內(nèi)復(fù)制”(“in-graph replication)模式,其中每個(gè)設(shè)備的計(jì)算在同一個(gè)TensorFlow graph中復(fù)制。設(shè)備之間的通信是通過連接設(shè)備對(duì)應(yīng)子圖中的節(jié)點(diǎn)來實(shí)現(xiàn)的。在TF-Replicator中實(shí)現(xiàn)這一點(diǎn)很具挑戰(zhàn)性,因?yàn)樵赥ensorFlow graph中的任何位置都可能發(fā)生通信。因此,構(gòu)造計(jì)算的順序至關(guān)重要。

我們的第一個(gè)想法是在一個(gè)單獨(dú)的Python線程中同時(shí)構(gòu)建每個(gè)設(shè)備的子圖。當(dāng)遇到通信原語時(shí),線程同步,主線程插入所需的跨設(shè)備計(jì)算。之后,每個(gè)線程將繼續(xù)構(gòu)建其設(shè)備的計(jì)算。

然而,在我們考慮這種方法時(shí),TensorFlow的圖形構(gòu)建API不是線程安全的,這使得在不同線程中同時(shí)構(gòu)建子圖非常困難。相反,我們使用圖形重寫(graph rewriting)在所有設(shè)備的子圖構(gòu)建完成后插入通信。在構(gòu)造子圖時(shí),占位符被插入到需要通信的位置。然后,我們跨設(shè)備收集所有匹配占位符,并用適當(dāng)?shù)目缭O(shè)備計(jì)算替換它們。

當(dāng)TF-Replicator構(gòu)建一個(gè)in-graph replicated計(jì)算時(shí),它首先獨(dú)立地為每個(gè)設(shè)備構(gòu)建計(jì)算,并將占位符留給用戶指定的跨設(shè)備計(jì)算。構(gòu)建好所有設(shè)備的子圖之后,TF-Replicator通過用實(shí)際的跨設(shè)備計(jì)算替換占位符來連接它們。

為AI研究構(gòu)建一個(gè)平臺(tái)

通過在TF-Replicator的設(shè)計(jì)和實(shí)現(xiàn)過程中與研究人員密切合作,我們最終構(gòu)建一個(gè)庫,讓用戶能夠輕松地跨多個(gè)硬件加速器進(jìn)行大規(guī)模計(jì)算,同時(shí)讓他們擁有進(jìn)行前沿AI研究所需的控制和靈活性。

例如,在與研究人員討論之后,我們添加了MPI風(fēng)格的通信原語,如all-reduce。TF-Replicator和其他共享基礎(chǔ)架構(gòu)使我們能夠在穩(wěn)健的基礎(chǔ)上構(gòu)建越來越復(fù)雜的實(shí)驗(yàn),并在整個(gè)DeepMind快速傳播最佳實(shí)踐。

在撰寫本文時(shí),TF-Replicator已經(jīng)成為DeepMind應(yīng)用最廣泛的TPU編程接口。雖然這個(gè)庫本身并不局限于訓(xùn)練神經(jīng)網(wǎng)絡(luò),但它最常用來訓(xùn)練大量數(shù)據(jù)。例如,BigGAN模型是在一個(gè)512核的TPUv3 pod訓(xùn)練的,batch size為2048。

在采用分布式actor-learner設(shè)置的增強(qiáng)學(xué)習(xí)智能體中,例如我們的重要性加權(quán)actor-learner架構(gòu),可擴(kuò)展性是通過讓許多actor通過與環(huán)境的交互生成新的體驗(yàn)來實(shí)現(xiàn)的。然后,learner對(duì)這些數(shù)據(jù)進(jìn)行處理,以改進(jìn)agent的策略,表示為一個(gè)神經(jīng)網(wǎng)絡(luò)。為了應(yīng)對(duì)越來越多的actor,TF-Replicator可以很輕松地將learner分布在多個(gè)硬件加速器上。

這些以及更多例子在我們的arXiv論文中有更詳細(xì)的描述。

Blog:

https://deepmind.com/blog/tf-replicator-distributed-machine-learning/

Paper:

https://arxiv.org/abs/1902.00465

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:你的模型可以輕松使用TPU了!DeepMind 開源分布式機(jī)器學(xué)習(xí)庫TF-Replicator

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI Ceph 分布式存儲(chǔ)教程資料大模型學(xué)習(xí)資料2026

    。如何構(gòu)建高性能、高吞吐、高可擴(kuò)展的 AI 分布式存儲(chǔ)系統(tǒng),已成為解鎖大模型基建能力的核心科技命題。這不僅關(guān)乎數(shù)據(jù)存得下、讀得快,更直接決定 GPU 集群的利用率與模型訓(xùn)練的最終效率。 、 突破 I/O
    發(fā)表于 05-01 17:35

    2022全新版!Java分布式架構(gòu)設(shè)計(jì)與開發(fā)實(shí)戰(zhàn)(完結(jié))

    ,而UUID雖然能保證唯性,但無序性會(huì)嚴(yán)重影響B(tài)+樹索引性能。雪花算法通過時(shí)間戳、機(jī)器ID和序列號(hào)組合生成64位長(zhǎng)整型ID,既保證全局唯性,又具備趨勢(shì)遞增特性,成為
    發(fā)表于 03-30 15:20

    分布式迭代求解策略:分布式混合電推進(jìn)系統(tǒng)飛發(fā)體化設(shè)計(jì)與能量管理協(xié)同優(yōu)化方法

    隨著全球航空業(yè)對(duì)綠色環(huán)保要求的不斷提高,分布式混合電推進(jìn)系統(tǒng)作為傳統(tǒng)航空動(dòng)力向全電飛行器過渡的關(guān)鍵技術(shù),展現(xiàn)出巨大的發(fā)展?jié)摿Α1疚膰@半渦電分布式推進(jìn)系統(tǒng)的動(dòng)態(tài)實(shí)時(shí)建模與控制方法展開系統(tǒng)研究。
    的頭像 發(fā)表于 03-27 08:54 ?271次閱讀
    <b class='flag-5'>分布式</b>迭代求解策略:<b class='flag-5'>分布式</b>混合電推進(jìn)系統(tǒng)飛發(fā)<b class='flag-5'>一</b>體化設(shè)計(jì)與能量管理協(xié)同優(yōu)化方法

    TiDB分布式數(shù)據(jù)庫運(yùn)維實(shí)踐

    TiDB 是 PingCAP 開發(fā)的開源分布式關(guān)系型數(shù)據(jù),兼容 MySQL 5.7 協(xié)議,底層存儲(chǔ)基于 TiKV(分布式 KV 存儲(chǔ))和 RocksDB。它解決的核心問題是:當(dāng)單機(jī)
    的頭像 發(fā)表于 03-04 15:44 ?353次閱讀

    如何解決分布式光伏計(jì)量難題?

    分布式光伏成增長(zhǎng)主力 據(jù)《2025-2030年中國(guó)分布式光伏行業(yè)市場(chǎng)前景預(yù)測(cè)及未來發(fā)展趨勢(shì)研究報(bào)告》顯示,2024年中國(guó)分布式光伏新增裝機(jī)118.18GW,同比增長(zhǎng)23%,占光伏新增裝機(jī)總量的43
    的頭像 發(fā)表于 11-07 14:55 ?450次閱讀
    如何解決<b class='flag-5'>分布式</b>光伏計(jì)量難題?

    工業(yè)數(shù)采網(wǎng)關(guān)在分布式設(shè)備運(yùn)維管理中的作用

    支撐。以下從核心功能與運(yùn)維價(jià)值兩個(gè)維度展開分析: 、核心功能:打通分布式設(shè)備的數(shù)據(jù)孤島 多協(xié)議兼容與數(shù)據(jù)統(tǒng)采集 分布式設(shè)備常涉及PLC、
    的頭像 發(fā)表于 09-19 10:53 ?874次閱讀
    工業(yè)數(shù)采網(wǎng)關(guān)在<b class='flag-5'>分布式</b>設(shè)備運(yùn)維管理中的作用

    【節(jié)能學(xué)院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW 分布式光伏中應(yīng)用

    分布式光伏本地和遠(yuǎn)程通信方案,并研究分布式光伏采集模型的構(gòu)建、多源數(shù)據(jù)融合估計(jì)、面向分布式光伏的有功、無功功率優(yōu)化控制等關(guān)鍵技術(shù),實(shí)現(xiàn)對(duì)小容量工商業(yè)
    的頭像 發(fā)表于 08-23 08:04 ?3702次閱讀
    【節(jié)能學(xué)院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中應(yīng)用

    分布式光伏發(fā)電監(jiān)測(cè)系統(tǒng)技術(shù)方案

    分布式光伏發(fā)電監(jiān)測(cè)系統(tǒng)技術(shù)方案 柏峰【BF-GFQX】、系統(tǒng)目標(biāo) :分布式光伏發(fā)電監(jiān)測(cè)系統(tǒng)旨在通過智能化的監(jiān)測(cè)手段,實(shí)現(xiàn)對(duì)分布式光伏電站的全方位、高精度、實(shí)時(shí)化管理。該系統(tǒng)能
    的頭像 發(fā)表于 08-22 10:51 ?3531次閱讀
    <b class='flag-5'>分布式</b>光伏發(fā)電監(jiān)測(cè)系統(tǒng)技術(shù)方案

    MR30分布式IO在噴繪機(jī)器人的應(yīng)用

    噴繪機(jī)器人憑借高效、精確、穩(wěn)定、節(jié)能等優(yōu)點(diǎn),在汽車、航空航天、電子等多個(gè)行業(yè)廣泛應(yīng)用。本文以 MR30分布式IO在噴繪機(jī)器人中的應(yīng)用為核心,介紹噴繪
    的頭像 發(fā)表于 08-15 13:48 ?849次閱讀
    MR30<b class='flag-5'>分布式</b>IO在噴繪<b class='flag-5'>機(jī)器</b>人的應(yīng)用

    鍵部署無損網(wǎng)絡(luò):EasyRoCE助力分布式存儲(chǔ)效能革命

    分布式存儲(chǔ)的性能瓶頸往往在于網(wǎng)絡(luò)。如何構(gòu)建個(gè)高帶寬、超低時(shí)延、零丟包的無損網(wǎng)絡(luò),是釋放分布式存儲(chǔ)全部潛力、賦能企業(yè)關(guān)鍵業(yè)務(wù)(如實(shí)時(shí)數(shù)據(jù)、
    的頭像 發(fā)表于 08-04 11:34 ?1863次閱讀
    <b class='flag-5'>一</b>鍵部署無損網(wǎng)絡(luò):EasyRoCE助力<b class='flag-5'>分布式</b>存儲(chǔ)效能革命

    分布式光伏總出問題?安科瑞分布式光伏監(jiān)控系統(tǒng)來“救場(chǎng)”

    、分布式光伏的痛點(diǎn)大揭秘 在 “雙碳” 目標(biāo)的大力推動(dòng)下,分布式光伏作為綠色能源領(lǐng)域的重要力量,正以前所未有的速度蓬勃發(fā)展,越來越多的企業(yè)和家庭選擇安裝分布式光伏系統(tǒng)。然而,隨著
    的頭像 發(fā)表于 07-16 16:50 ?992次閱讀
    <b class='flag-5'>分布式</b>光伏總出問題?安科瑞<b class='flag-5'>分布式</b>光伏監(jiān)控系統(tǒng)來“救場(chǎng)”

    Ceph分布式存儲(chǔ)系統(tǒng)解析

    在當(dāng)今數(shù)據(jù)爆炸的時(shí)代,企業(yè)對(duì)存儲(chǔ)系統(tǒng)的需求日益增長(zhǎng),傳統(tǒng)的集中式存儲(chǔ)已經(jīng)無法滿足大規(guī)模數(shù)據(jù)處理的要求。分布式存儲(chǔ)系統(tǒng)應(yīng)運(yùn)而生,而Ceph作為開源分布式存儲(chǔ)系統(tǒng)的佼佼者,以其高可用性、高擴(kuò)展性和統(tǒng)
    的頭像 發(fā)表于 07-14 11:15 ?1274次閱讀

    雙電機(jī)分布式驅(qū)動(dòng)汽車高速穩(wěn)定性機(jī)電耦合控制

    和控制器的工作強(qiáng)度。 純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:雙電機(jī)分布式驅(qū)動(dòng)汽車高速穩(wěn)定性機(jī)電耦合控制.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請(qǐng)第時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 06-18 16:37

    曙光存儲(chǔ)領(lǐng)跑中國(guó)分布式存儲(chǔ)市場(chǎng)

    近日,賽迪顧問發(fā)布《中國(guó)分布式存儲(chǔ)市場(chǎng)研究報(bào)告(2025)》,指出2024 年中國(guó)分布式存儲(chǔ)市場(chǎng)首次超過集中式存儲(chǔ),規(guī)模達(dá) 198.2 億元,增速 43.7%。
    的頭像 發(fā)表于 05-19 16:50 ?1493次閱讀

    分布式光纖傳感的用途

    生態(tài)災(zāi)難。這些場(chǎng)景中,種名為"分布式光纖傳感"的技術(shù)正悄然編織著張無形的感知網(wǎng)絡(luò),用光信號(hào)的"語言"實(shí)時(shí)翻譯著環(huán)境的細(xì)微變化。 、技術(shù)原理:光與物質(zhì)的"對(duì)話"
    的頭像 發(fā)表于 05-11 17:26 ?1664次閱讀
    磴口县| 临清市| 德兴市| 彭泽县| 谢通门县| 夏邑县| 望城县| 安康市| 綦江县| 肇源县| 扬州市| 黄陵县| 余姚市| 从化市| 巴楚县| 山阴县| 广德县| 山东| 卢湾区| 正镶白旗| 梁山县| 云梦县| 津市市| 闽清县| 伽师县| 江陵县| 清远市| 启东市| 剑阁县| 望都县| 泸溪县| 康保县| 满城县| 高邑县| 云龙县| 大安市| 黄山市| 专栏| 枞阳县| 舒城县| 阜新市|