欧美激情精品,岛国福利在线,精品区久久久91vr

NVIDIA 集合通信庫(kù)（NCCL）可實(shí)現(xiàn)針對(duì) NVIDIA GPU 和網(wǎng)絡(luò)進(jìn)行性能優(yōu)化的多 GPU 和多節(jié)點(diǎn)通信基元。

關(guān)于 NVIDIA 集合通信庫(kù)（NCCL）

NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程，這些例程均經(jīng)過(guò)優(yōu)化，可通過(guò)節(jié)點(diǎn)內(nèi)的 PCIe 和 NVLink 高速互聯(lián)以及節(jié)點(diǎn)間的 NVIDIA Mellanox 網(wǎng)絡(luò)實(shí)現(xiàn)高帶寬和低延遲。

先進(jìn)的深度學(xué)習(xí)框架（例如 Caffe2、Chainer、MXNet、PyTorch和 TensorFlow）已集成 NCCL，以在多 GPU 多節(jié)點(diǎn)的系統(tǒng)上加快深度學(xué)習(xí)訓(xùn)練速度。

便捷性能

使用 NCCL，開發(fā)者無(wú)需針對(duì)特定機(jī)器優(yōu)化其應(yīng)用，因而更加便捷。NCCL 可在節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間實(shí)現(xiàn)多個(gè) GPU 的快速集合。

簡(jiǎn)化編程

NCCL 使用可從多種編程語(yǔ)言輕松訪問(wèn)的簡(jiǎn)單 C API，且嚴(yán)格遵循 MPI（消息傳遞接口）定義的主流集合 API。

兼容性

NCCL 幾乎可與任何多 GPU 并行模型兼容，例如：?jiǎn)尉€程、多線程（每個(gè) GPU 使用一個(gè)線程）和多進(jìn)程模型（MPI 與 GPU 上的多線程操作相結(jié)合）。

主要特性

對(duì) AMD、Arm、PCI Gen4 和 IB HDR 上的高帶寬路徑進(jìn)行自動(dòng)拓?fù)錂z測(cè)

憑借利用 SHARPV2 的網(wǎng)絡(luò)內(nèi) all reduce 操作，將峰值帶寬提升 2 倍

通過(guò)圖形搜索，找到更佳的高帶寬、低延遲的環(huán)和樹集合

支持多線程和多進(jìn)程應(yīng)用

InfiniBand verbs、libfabric、RoCE 和 IP Socket 節(jié)點(diǎn)間通信

使用 Infiniband 動(dòng)態(tài)路由重新路由流量，緩解端口擁塞

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴