日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高效框架互操作性第2部分:數(shù)據(jù)加載傳輸瓶頸和RDMA解決方案

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-04-07 14:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高效的管道設(shè)計(jì)對(duì)數(shù)據(jù)科學(xué)家至關(guān)重要。在編寫(xiě)復(fù)雜的端到端工作流時(shí),您可以從各種構(gòu)建塊中進(jìn)行選擇,每種構(gòu)建塊都專門(mén)用于特定任務(wù)。不幸的是,在數(shù)據(jù)格式之間重復(fù)轉(zhuǎn)換容易出錯(cuò),而且會(huì)降低性能。讓我們改變這一點(diǎn)!

在本系列文章中,我們將討論高效框架互操作性的不同方面:

在第一個(gè)職位中,討論了不同內(nèi)存布局以及異步內(nèi)存分配的內(nèi)存池的優(yōu)缺點(diǎn),以實(shí)現(xiàn)零拷貝功能。

在這篇文章中,我們將重點(diǎn)介紹數(shù)據(jù)加載/傳輸過(guò)程中出現(xiàn)的瓶頸,以及如何使用遠(yuǎn)程直接內(nèi)存訪問(wèn)( RDMA )技術(shù)來(lái)緩解這些瓶頸。

在第三篇文章中,我們深入討論了端到端管道的實(shí)現(xiàn),展示了所討論的跨數(shù)據(jù)科學(xué)框架的最佳數(shù)據(jù)傳輸技術(shù)。

要了解有關(guān)框架互操作性的更多信息,請(qǐng)查看 NVIDIA GTC 2021 年會(huì)議上的演示。

數(shù)據(jù)加載和數(shù)據(jù)傳輸瓶頸

數(shù)據(jù)加載瓶頸

到目前為止,我們假設(shè)數(shù)據(jù)已經(jīng)加載到內(nèi)存中,并且使用了單個(gè) GPU 。本節(jié)重點(diǎn)介紹了 MIG 在將數(shù)據(jù)集從存儲(chǔ)器加載到設(shè)備內(nèi)存或使用單節(jié)點(diǎn)或多節(jié)點(diǎn)設(shè)置在兩個(gè) GPU 之間傳輸數(shù)據(jù)時(shí)出現(xiàn)的幾個(gè)瓶頸。然后我們討論如何克服它們。

在傳統(tǒng)工作流(圖 1 )中,當(dāng)數(shù)據(jù)集從存儲(chǔ)器加載到 GPU 內(nèi)存時(shí),數(shù)據(jù)將使用 CPU 和 PCIe 總線從磁盤(pán)復(fù)制到 GPU 內(nèi)存。加載數(shù)據(jù)至少需要兩份數(shù)據(jù)副本。第一種情況發(fā)生在將數(shù)據(jù)從存儲(chǔ)器傳輸?shù)街鳈C(jī)內(nèi)存( CPU RAM )時(shí)。將數(shù)據(jù)從主機(jī)內(nèi)存?zhèn)鬏數(shù)皆O(shè)備內(nèi)存( GPU VRAM )時(shí),會(huì)出現(xiàn)數(shù)據(jù)的第二個(gè)副本。

圖 1 :在傳統(tǒng)設(shè)置下,存儲(chǔ)器 CPU 內(nèi)存和 GPU 內(nèi)存之間的數(shù)據(jù)移動(dòng)。

或者,使用利用 NVIDIA Magnum IO GPUDirect Storage 技術(shù)的基于 GPU 的工作流(見(jiàn)圖 2 ),數(shù)據(jù)可以使用 PCIe 總線直接從存儲(chǔ)器流向 GPU 存儲(chǔ)器,而無(wú)需使用 CPU 或主機(jī)存儲(chǔ)器。由于數(shù)據(jù)只復(fù)制一次,因此總體執(zhí)行時(shí)間縮短。不涉及此任務(wù)的 CPU 和主機(jī)內(nèi)存也使這些資源可用于管道中其他基于 CPU 的作業(yè)。

圖 2 :?jiǎn)⒂?GPU 直接存儲(chǔ)技術(shù)時(shí),存儲(chǔ)器和 GPU 內(nèi)存之間的數(shù)據(jù)移動(dòng)。

節(jié)點(diǎn)內(nèi)數(shù)據(jù)傳輸瓶頸

某些工作負(fù)載要求位于同一節(jié)點(diǎn)(服務(wù)器)中的兩個(gè)或多個(gè) GPU 之間進(jìn)行數(shù)據(jù)交換。在 NVIDIA GPUDirect Peer to Peer 技術(shù)不可用的情況下,來(lái)自源 GPU 的數(shù)據(jù)將首先通過(guò) CPU 和 PCIe 總線復(fù)制到主機(jī)固定共享內(nèi)存。然后,數(shù)據(jù)將通過(guò) CPU 和 PCIe 總線從主機(jī)固定共享內(nèi)存復(fù)制到目標(biāo) GPU 。請(qǐng)注意,數(shù)據(jù)在到達(dá)目的地之前復(fù)制了兩次,更不用說(shuō) CPU 和主機(jī)內(nèi)存都參與了這個(gè)過(guò)程。圖 3 描述了前面描述的數(shù)據(jù)移動(dòng)。

圖 3 :當(dāng) NVIDIA GPU 直接 P2P 不可用時(shí),同一節(jié)點(diǎn)中兩個(gè) GPU 之間的數(shù)據(jù)移動(dòng)。

當(dāng) GPU 直接對(duì)等技術(shù)可用時(shí),將數(shù)據(jù)從源 GPU 復(fù)制到同一節(jié)點(diǎn)中的另一 GPU 不再需要將數(shù)據(jù)臨時(shí)轉(zhuǎn)移到主機(jī)內(nèi)存中。如果兩個(gè) GPU 都連接到同一 PCIe 總線, GPU 直接 P2P 允許在不涉及 CPU 的情況下訪問(wèn)其相應(yīng)的內(nèi)存。前者將執(zhí)行相同任務(wù)所需的復(fù)制操作數(shù)量減半。圖 4 描述了剛才描述的行為。

圖 4 :?jiǎn)⒂?NVIDIA GPU 直接 P2P 時(shí),同一節(jié)點(diǎn)中兩個(gè) GPU 之間的數(shù)據(jù)移動(dòng)。

節(jié)點(diǎn)間數(shù)據(jù)傳輸瓶頸

在 NVIDIA GPUDirect Remote Direct Memory Access 技術(shù)不可用的多節(jié)點(diǎn)環(huán)境中,在不同節(jié)點(diǎn)的兩個(gè) GPU 之間傳輸數(shù)據(jù)需要五個(gè)復(fù)制操作:

第一次復(fù)制發(fā)生在將數(shù)據(jù)從源 GPU 傳輸?shù)皆垂?jié)點(diǎn)中主機(jī)固定內(nèi)存的緩沖區(qū)時(shí)。

然后,該數(shù)據(jù)被復(fù)制到源節(jié)點(diǎn)的 NIC 驅(qū)動(dòng)程序緩沖區(qū)。

在第三步中,數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸?shù)侥繕?biāo)節(jié)點(diǎn)的 NIC 驅(qū)動(dòng)程序緩沖區(qū)。

將數(shù)據(jù)從目標(biāo)節(jié)點(diǎn) NIC 的驅(qū)動(dòng)程序緩沖區(qū)復(fù)制到目標(biāo)節(jié)點(diǎn)中主機(jī)固定內(nèi)存的緩沖區(qū)時(shí),會(huì)發(fā)生第四次復(fù)制。

最后一步需要使用 PCIe 總線將數(shù)據(jù)復(fù)制到目標(biāo) GPU 。

這樣總共進(jìn)行了五次復(fù)制操作。真是一次旅行,不是嗎?圖 5 描述了前面描述的過(guò)程。

圖 5 :當(dāng) NVIDIA GPU 直接 RDMA 不可用時(shí),不同節(jié)點(diǎn)中兩個(gè) GPU 之間的數(shù)據(jù)移動(dòng)。

啟用 GPU 直接 RDMA 后,數(shù)據(jù)拷貝數(shù)將減少到一個(gè)。共享固定內(nèi)存中不再有中間數(shù)據(jù)拷貝。我們可以在一次運(yùn)行中直接將數(shù)據(jù)從源 GPU 復(fù)制到目標(biāo) GPU 。與傳統(tǒng)設(shè)置相比,這為我們節(jié)省了四個(gè)不必要的復(fù)制操作。圖 6 描述了這個(gè)場(chǎng)景。

圖 6 :當(dāng) NVIDIA GPU 直接 RDMA 可用時(shí),不同節(jié)點(diǎn)中兩個(gè) GPU 之間的數(shù)據(jù)移動(dòng)。

結(jié)論

在我們的第二篇文章中,您已經(jīng)了解了如何利用 NVIDIA GPU 直接功能來(lái)進(jìn)一步加快管道的數(shù)據(jù)加載和數(shù)據(jù)分發(fā)階段。

在我們?nèi)壳牡谌糠种校覀儗⑸钊胙芯酷t(yī)學(xué)數(shù)據(jù)科學(xué)管道的實(shí)現(xiàn)細(xì)節(jié),該管道用于連續(xù)測(cè)量的心電(ECG)流中的心跳異常檢測(cè)。

關(guān)于作者

Christian Hundt 在德國(guó)美因茨的 Johannes Gutenberg 大學(xué)( JGU )獲得了理論物理的文憑學(xué)位。在他的博士論文中,他研究了時(shí)間序列數(shù)據(jù)挖掘算法在大規(guī)模并行架構(gòu)上的并行化。作為并行和分布式體系結(jié)構(gòu)組的博士后研究員,他專注于各種生物醫(yī)學(xué)應(yīng)用的高效并行化,如上下文感知的元基因組分類、基因集富集分析和胸部 mri 的深層語(yǔ)義圖像分割。他目前的職位是深度學(xué)習(xí)解決方案架構(gòu)師,負(fù)責(zé)協(xié)調(diào)盧森堡的 NVIDIA 人工智能技術(shù)中心( NVAITC )的技術(shù)合作。

Miguel Martinez 是 NVIDIA 的高級(jí)深度學(xué)習(xí)數(shù)據(jù)科學(xué)家,他專注于 RAPIDS 和 Merlin 。此前,他曾指導(dǎo)過(guò) Udacity 人工智能納米學(xué)位的學(xué)生。他有很強(qiáng)的金融服務(wù)背景,主要專注于支付和渠道。作為一個(gè)持續(xù)而堅(jiān)定的學(xué)習(xí)者, Miguel 總是在迎接新的挑戰(zhàn)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110141
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5610

    瀏覽量

    124654
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    為什么選擇 Nordic 的低功耗藍(lán)牙解決方案?

    ,我們的協(xié)議棧可提供具有行業(yè)領(lǐng)先操作性的強(qiáng)大藍(lán)牙 LE 通信。 經(jīng)過(guò)驗(yàn)證的質(zhì)量、可靠操作性: 在數(shù)以千計(jì)的開(kāi)發(fā)人員和數(shù)十億無(wú)線 So
    發(fā)表于 04-16 10:40

    吉事勵(lì)引領(lǐng)電動(dòng)汽車充電操作性與兼容測(cè)試新風(fēng)向

    在電動(dòng)汽車行業(yè)蓬勃發(fā)展的進(jìn)程中,充電樁的操作性與兼容已成為決定行業(yè)能否持續(xù)穩(wěn)健前行的核心要素。這不僅關(guān)系到用戶充電體驗(yàn)的優(yōu)劣,更影響著整個(gè)產(chǎn)業(yè)生態(tài)的健康發(fā)展。
    的頭像 發(fā)表于 03-30 15:27 ?634次閱讀
    吉事勵(lì)引領(lǐng)電動(dòng)汽車充電<b class='flag-5'>互</b><b class='flag-5'>操作性</b>與兼容<b class='flag-5'>性</b>測(cè)試新風(fēng)向

    是德科技攜手愛(ài)立信賦能Pre-6G操作性驗(yàn)證

    是德科技(NYSE: KEYS )近日宣布,與愛(ài)立信攜手合作,使用是德科技的WaveJudge無(wú)線分析儀解決方案,對(duì)愛(ài)立信Pre-6G基站(gNB)與Pre-6G原型設(shè)備間的操作性進(jìn)行故障排查
    的頭像 發(fā)表于 03-03 16:10 ?594次閱讀

    通過(guò)恩智浦RW612三頻無(wú)線MCU提升多協(xié)議操作性

    無(wú)線連接是現(xiàn)代智能家居和工業(yè)系統(tǒng)的基石,推動(dòng)著無(wú)數(shù)更智能、更自主設(shè)備的普及。恩智浦非常重視無(wú)線操作性,確保生態(tài)合作體系中的每臺(tái)設(shè)備能夠無(wú)縫協(xié)同工作的關(guān)鍵能力。
    的頭像 發(fā)表于 03-03 11:47 ?1392次閱讀

    IO序列化操作:提升系統(tǒng)操作性的關(guān)鍵技術(shù)

    在異構(gòu)系統(tǒng)并存的今天,IO序列化操作成為實(shí)現(xiàn)系統(tǒng)間操作性的核心技術(shù)。通過(guò)標(biāo)準(zhǔn)化的數(shù)據(jù)格式(如JSON、Protobuf、Hessian等),不同語(yǔ)言、平臺(tái)的系統(tǒng)得以無(wú)縫交換信息。合理
    的頭像 發(fā)表于 02-25 16:02 ?211次閱讀
    IO序列化<b class='flag-5'>操作</b>:提升系統(tǒng)<b class='flag-5'>互</b><b class='flag-5'>操作性</b>的關(guān)鍵技術(shù)

    RDMA設(shè)計(jì)5:RoCE V2 IP架構(gòu)

    控制的核心模塊。RoCE v2 高速數(shù)據(jù)傳輸IP內(nèi)部集成了多種功能,包括 RDMA 建鏈、RDMA 隊(duì)列管理、DMA 傳輸和系統(tǒng)監(jiān)控等。 這
    發(fā)表于 11-25 10:34

    RDMA設(shè)計(jì)4:技術(shù)需求分析2

    專注高性能存儲(chǔ)與傳輸,希望對(duì)初學(xué)者有用。注意這里只是拋磚引玉,切莫認(rèn)為參考這就可以完成商用IP設(shè)計(jì)。若有NVME或RDMA 產(chǎn)品及項(xiàng)目需求,請(qǐng)看B站視頻后聯(lián)系。 根據(jù)IP適用技術(shù)需求分析,總結(jié)
    發(fā)表于 11-24 09:09

    RDMA設(shè)計(jì)2:開(kāi)發(fā)必要之性能簡(jiǎn)介

    專注高性能存儲(chǔ)與傳輸,這里分享RDMA設(shè)計(jì),之前已介紹RDMA相關(guān)知識(shí),在本博客已給出相關(guān)博文已100多篇,希望對(duì)初學(xué)者有用。注意這里只是拋磚引玉,切莫認(rèn)為參考這就可以完成商用IP設(shè)計(jì)。若有NVME
    發(fā)表于 11-20 10:57

    RDMA設(shè)計(jì)1:開(kāi)發(fā)必要1之設(shè)計(jì)考慮

    。 一. 選擇 RDMA IP 開(kāi)發(fā)必要 為了滿足大批量數(shù)據(jù)的采集、 存儲(chǔ)與傳輸需求, 如機(jī)器學(xué)習(xí)、 雷達(dá)、 ?融?控、 航空航天等, 如何在 FPGA 上實(shí)現(xiàn)高帶寬、 低延時(shí)的
    發(fā)表于 11-19 14:30

    是德科技與HEAD acoustics成功完成新一代eCall系統(tǒng)操作性測(cè)試

    是德科技(NYSE: KEYS )近日宣布,其基于UXM的新一代eCall(NG eCall)解決方案,已成功與全球汽車聲學(xué)測(cè)試領(lǐng)導(dǎo)者HEAD acoustics GmbH完成操作性測(cè)試。
    的頭像 發(fā)表于 11-18 11:29 ?778次閱讀

    Microchip與AVIVA Links實(shí)現(xiàn)ASA-ML操作性驗(yàn)證

    汽車行業(yè)正加速?gòu)膶S写衅?解串器(SerDes)解決方案向汽車串行器/解串器聯(lián)盟(Automotive SerDes Alliance)及其首個(gè)開(kāi)放標(biāo)準(zhǔn)——ASA Motion Link(ASA-ML)構(gòu)建的可操作系統(tǒng)生態(tài)過(guò)
    的頭像 發(fā)表于 10-23 17:13 ?1466次閱讀

    RDMA over RoCE V2設(shè)計(jì)2:ip 整體框架設(shè)計(jì)考慮

    )多隊(duì)列并行管理及控制。支持系統(tǒng)運(yùn)行過(guò)程中進(jìn)行創(chuàng)建隊(duì)列、刪除隊(duì)列、隊(duì)列更改等操作。 6)DMA 傳輸。通過(guò)配置 DMA 寄存器實(shí)現(xiàn)直接的數(shù)據(jù)傳輸請(qǐng)求,同時(shí)使用突發(fā)傳輸來(lái)提高
    發(fā)表于 07-16 08:51

    RDMA簡(jiǎn)介4之ROcE V2初析

    RoCE v2原語(yǔ) (1)RDMA READ操作將遠(yuǎn)端主機(jī)內(nèi)存中的數(shù)據(jù)讀取到本地。具體流程為:本地主機(jī)將需要請(qǐng)求數(shù)據(jù)的地址、長(zhǎng)度及對(duì)應(yīng)的遠(yuǎn)
    發(fā)表于 06-05 15:20

    RDMA簡(jiǎn)介2之A技術(shù)優(yōu)勢(shì)分析

    數(shù)據(jù)包時(shí),應(yīng)用程序?qū)⒁?b class='flag-5'>傳輸的數(shù)據(jù)拷貝到TCP/IP協(xié)議棧的BUFFER中,TCP/IP協(xié)議棧組包后,再經(jīng)由驅(qū)動(dòng)程序下發(fā)到網(wǎng)卡內(nèi)的BUFFER中。右側(cè)部分則為
    發(fā)表于 06-04 11:35

    RDMA簡(jiǎn)介1之RDMA開(kāi)發(fā)必要

    協(xié)議(iWARP)等RDMA實(shí)現(xiàn)方法,RoCE v2協(xié)議具有可通過(guò)以太網(wǎng)路由、低成本、無(wú)TCP/IP依賴等優(yōu)勢(shì)。因此,RoCE v2協(xié)議是數(shù)據(jù)采集系統(tǒng)拓展
    發(fā)表于 06-03 14:38
    正蓝旗| 花垣县| 灵武市| 东乌珠穆沁旗| 松阳县| 囊谦县| 右玉县| 哈密市| 抚松县| 荆门市| 页游| 海盐县| 肇州县| 宜兰市| 交城县| 富平县| 张家川| 新巴尔虎左旗| 信宜市| 香河县| 漳平市| 福安市| 祁东县| 平乡县| 中西区| 思茅市| 微山县| 无锡市| 桦川县| 湘潭市| 阳高县| 新河县| 肇庆市| 东明县| 榕江县| 台中县| 嘉定区| 都江堰市| 太保市| 雅安市| 南华县|