日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HugeCTR能夠高效地利用GPU來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-04-01 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. Introduction

HugeCTR 能夠高效地利用 GPU 來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開(kāi)發(fā)了 SparseOperationKit (SOK),來(lái)將 HugeCTR 中的高級(jí)特性封裝為 TensorFlow 可直接調(diào)用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級(jí)特性來(lái)加速他們的推薦系統(tǒng)。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù),然后在 SOK 內(nèi)部做黑盒式地模型轉(zhuǎn)換,最后將計(jì)算結(jié)果以數(shù)據(jù)并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼,以更方便、快捷地在多個(gè) GPU 上進(jìn)行擴(kuò)展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據(jù)業(yè)界中的實(shí)際需求提供了對(duì)應(yīng)的新解決方案,比如說(shuō) GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來(lái)作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標(biāo)準(zhǔn)模型 DLRM 來(lái)對(duì) SOK 的性能進(jìn)行測(cè)試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測(cè)試數(shù)據(jù)

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓(xùn)練速度以及更高的吞吐量。

3. API

SOK 提供了簡(jiǎn)潔的、類(lèi) TensorFlow 的 API;使用 SOK 的方式非常簡(jiǎn)單、直接;讓用戶通過(guò)修改幾行代碼就可以使用 SOK。

1. 定義模型結(jié)構(gòu)

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側(cè)是使用 TensorFlow 的 API 來(lái)搭建模型,右側(cè)是使用 SOK 的 API 來(lái)搭建相同的模型。使用 SOK 來(lái)搭建模型的時(shí)候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對(duì)應(yīng)的 API 即可。

2. 使用 Horovod 來(lái)定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側(cè)是使用 TensorFlow 來(lái)定義 training loop,右側(cè)是使用 SOK 時(shí),training loop 的定義方式。可以看到,使用 SOK 時(shí),只需要對(duì) Embedding Variables 和 Dense Variables 進(jìn)行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來(lái)定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類(lèi)似的,還可以使用 TensorFlow 自帶的通信工具來(lái)定義 training loop。

4. 開(kāi)始訓(xùn)練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開(kāi)始訓(xùn)練過(guò)程時(shí),使用 SOK 與使用 TensorFlow 時(shí)所用代碼完全一致。

4. 結(jié)語(yǔ)

SOK 將 HugeCTR 中的高級(jí)特性包裝為 TensorFlow 可以直接使用的模塊,通過(guò)修改少數(shù)幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進(jìn)設(shè)計(jì)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5289

    瀏覽量

    136110
  • SOK
    SOK
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6476

原文標(biāo)題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI Ceph 分布式存儲(chǔ)教程資料大模型學(xué)習(xí)資料2026

    。如何構(gòu)建高性能、高吞吐、高可擴(kuò)展的 AI 分布式存儲(chǔ)系統(tǒng),已成為解鎖大模型基建能力的核心科技命題。這不僅關(guān)乎數(shù)據(jù)存得下、讀得快,更直接決定了 GPU 集群的利用率與模型訓(xùn)練的最終效率
    發(fā)表于 05-01 17:35

    基于openEuler平臺(tái)的CPU、GPU與FPGA異構(gòu)加速實(shí)戰(zhàn)

    隨著 AI、視頻處理、加密和高性能計(jì)算需求的增長(zhǎng),單一 CPU 已無(wú)法滿足低延遲、高吞吐量的計(jì)算需求。openEuler 作為面向企業(yè)和云端的開(kāi)源操作系統(tǒng),在 多樣算力支持 方面表現(xiàn)出色,能夠高效調(diào)度 CPU、GPU、FPGA
    的頭像 發(fā)表于 04-08 11:02 ?969次閱讀
    基于openEuler平臺(tái)的CPU、<b class='flag-5'>GPU</b>與FPGA異構(gòu)加速實(shí)戰(zhàn)

    GPU 利用率<30%?這款開(kāi)源智算云平臺(tái)讓算力不浪費(fèi) 1%

    作為 AI 開(kāi)發(fā)者,你是否早已受夠這些困境:花數(shù)百萬(wàn)采購(gòu)的 GPU 集群,利用率常年低于 30%,算力閑置如同燒錢(qián);跨 CPU/GPU/NPU 異構(gòu)資源調(diào)度難如登天,模型訓(xùn)練卡在資源分
    的頭像 發(fā)表于 01-26 14:20 ?301次閱讀

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護(hù)科學(xué)

    )可以部署在難以通過(guò)基于視覺(jué)的方法(例如視覺(jué)調(diào)查,例如攝像機(jī)、航拍或樣線)進(jìn)行研究的偏遠(yuǎn)棲息地。 海洋就是這樣一個(gè)成本高昂且難以大規(guī)模采樣的地方。在研究海洋哺乳動(dòng)物的棲息地利用/存在情況時(shí),天氣和能見(jiàn)度
    發(fā)表于 10-27 09:18

    在Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫(xiě)數(shù)字識(shí)
    發(fā)表于 10-22 07:03

    提高RISC-V在Drystone測(cè)試中得分的方法

    速度。 優(yōu)化內(nèi)存系統(tǒng):優(yōu)化內(nèi)存控制器設(shè)計(jì),提高內(nèi)存的讀寫(xiě)速度、降低延遲,或者增大內(nèi)存帶寬。 優(yōu)化指令集和編譯器:通過(guò)優(yōu)化或定制指令集,以及優(yōu)化編譯器來(lái)生成更高效的機(jī)器代碼。 軟件優(yōu)化:對(duì)運(yùn)行的軟件進(jìn)行優(yōu)化
    發(fā)表于 10-21 13:58

    NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA Isaac Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開(kāi)發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動(dòng)的物理仿真,縮小仿真與現(xiàn)實(shí)世界之間的差距。
    的頭像 發(fā)表于 09-23 17:15 ?2665次閱讀
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多節(jié)點(diǎn)<b class='flag-5'>訓(xùn)練</b>指南

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    400G/800G光模塊已實(shí)現(xiàn)規(guī)?;慨a(chǎn),并基于AI工廠與AI云的核心需求進(jìn)行深度優(yōu)化: 速率突破:采用PAM4調(diào)制技術(shù),單通道速率達(dá)100Gbps,整模塊實(shí)現(xiàn)800Gbps傳輸能力,為GPU集群的高效協(xié)同
    發(fā)表于 08-13 19:01

    PCIe協(xié)議分析儀能測(cè)試哪些設(shè)備?

    場(chǎng)景:監(jiān)測(cè)GPU與主機(jī)之間的PCIe通信,分析數(shù)據(jù)傳輸效率、延遲和帶寬利用率。 應(yīng)用價(jià)值:優(yōu)化大規(guī)模AI訓(xùn)練任務(wù)的數(shù)據(jù)加載和模型參數(shù)同步,例如在多GPU
    發(fā)表于 07-25 14:09

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問(wèn)有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了
    發(fā)表于 07-25 08:18

    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems進(jìn)行GPU性能分析

    在大語(yǔ)言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,GPU 性能優(yōu)化至關(guān)重要。隨著模型規(guī)模不斷擴(kuò)大,如何高效地分析和優(yōu)化 GPU 性能成為開(kāi)發(fā)者面臨的主要挑戰(zhàn)之一。
    的頭像 發(fā)表于 07-23 10:34 ?2603次閱讀
    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems<b class='flag-5'>進(jìn)行</b><b class='flag-5'>GPU</b>性能分析

    別讓 GPU 故障拖后腿,捷智算GPU維修室來(lái)救場(chǎng)!

    在AI浪潮洶涌的當(dāng)下,GPU已然成為眾多企業(yè)與科研機(jī)構(gòu)的核心生產(chǎn)力。從深度學(xué)習(xí)模型訓(xùn)練,到影視渲染、復(fù)雜科學(xué)計(jì)算,GPU憑借強(qiáng)大并行計(jì)算能力,極大提升運(yùn)算效率。然而,就像高速運(yùn)轉(zhuǎn)的精密儀器易出狀況
    的頭像 發(fā)表于 07-17 18:56 ?1341次閱讀
    別讓 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>維修室<b class='flag-5'>來(lái)</b>救場(chǎng)!

    利用API提升電商用戶體驗(yàn):個(gè)性化推薦系統(tǒng)

    ? 在當(dāng)今競(jìng)爭(zhēng)激烈的電商環(huán)境中,個(gè)性化推薦系統(tǒng)已成為提升用戶粘性和轉(zhuǎn)化率的核心工具。通過(guò)API(Application Programming Interface)集成,電商平臺(tái)能夠高效接入先進(jìn)
    的頭像 發(fā)表于 07-14 14:45 ?782次閱讀
    <b class='flag-5'>利用</b>API提升電商用戶體驗(yàn):個(gè)性化推薦<b class='flag-5'>系統(tǒng)</b>

    SL3075 dcdc65V耐壓 5A電流高效率降壓芯片替換TPS54340

    某些應(yīng)用場(chǎng)景下,可能無(wú)法完全滿足設(shè)計(jì)者的需求。本文將介紹一款能夠高效替換TPS54340的芯片——SL3075,詳細(xì)闡述其特性、優(yōu)勢(shì)及應(yīng)用場(chǎng)景。 SL3075概述SL3075是由深圳市森利威爾電子
    發(fā)表于 07-10 17:25

    Vicor高效電源模塊優(yōu)化自動(dòng)駕駛系統(tǒng)

    低壓(48V)自動(dòng)駕駛電動(dòng)穿梭車(chē)配備了先進(jìn)的自動(dòng)駕駛系統(tǒng)能夠在復(fù)雜的城市道路上自動(dòng)行駛。GPU 和傳感器是自動(dòng)駕駛系統(tǒng)的關(guān)鍵組件,依賴高性能的 ATX 電源。這些電源必須緊湊輕便以適
    的頭像 發(fā)表于 05-26 11:29 ?1162次閱讀
    林口县| 邵武市| 永年县| 永顺县| 海门市| 门头沟区| 莫力| 沽源县| 平度市| 闵行区| 都安| 梧州市| 怀仁县| 衡东县| 迁西县| 合江县| 桓仁| 正蓝旗| 宁德市| 忻州市| 扬中市| 宁乡县| 凤翔县| 长治市| 藁城市| 道真| 永和县| 金门县| 德江县| 武穴市| 马关县| 眉山市| 太保市| 澳门| 尚志市| 那曲县| 合江县| 康保县| 澄迈县| 剑河县| 抚松县|