日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA開源模型實現(xiàn)更快的訓練和推理

星星科技指導員 ? 來源:NVIDIA ? 作者:Alexandre Milesi ? 2022-04-20 15:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

SE(3)-Transformers 是在NeurIPS 2020上推出的多功能圖形神經網(wǎng)絡。 NVIDIA 剛剛發(fā)布了一款開源優(yōu)化實現(xiàn),它使用的內存比基線正式實施少9倍,速度比基線正式實施快21倍。

SE(3)-Transformer 在處理幾何對稱性問題時非常有用,如小分子處理、蛋白質精制或點云應用。它們可以是更大的藥物發(fā)現(xiàn)模型的一部分,如RoseTTAFold和此 AlphaFold2 的復制。它們也可以用作點云分類和分子性質預測的獨立網(wǎng)絡(圖 1 )。

pYYBAGJfvUKAcxmPAAE4jmo8Pmc186.png

圖 1 用于分子性質預測的典型 SE ( 3 ) – transformer 的結構。

在/PyTorch/DrugDiscovery/SE3Transformer存儲庫中, NVIDIA 提供了在QM9 數(shù)據(jù)集上為分子性質預測任務訓練優(yōu)化模型的方法。 QM9 數(shù)據(jù)集包含超過 10 萬個有機小分子和相關的量子化學性質。

訓練吞吐量提高 21 倍

與基線實施相比, NVIDIA 實現(xiàn)提供了更快的訓練和推理。該實現(xiàn)對 SE(3)-Transformers 的核心組件,即張量場網(wǎng)絡( TFN )以及圖形中的自我注意機制進行了優(yōu)化。

考慮到注意力層超參數(shù)的某些條件得到滿足,這些優(yōu)化大多采取操作融合的形式。

由于這些,與基線實施相比,訓練吞吐量增加了 21 倍,利用了最近 GPU NVIDIA 上的張量核。

poYBAGJfvUSAGrvvAAA_pAADmac256.png

圖 2 A100 GPU 上的訓練吞吐量。批次大小為 100 的 QM9 數(shù)據(jù)集。

此外, NVIDIA 實現(xiàn)允許使用多個 GPU 以數(shù)據(jù)并行方式訓練模型,充分利用 DGX A100 ( 8x A100 80GB )的計算能力。

把所有東西放在一起,在 NVIDIA DGX A100 上, SE(3)-Transformer現(xiàn)在可以在 QM9 數(shù)據(jù)集上在 27 分鐘內進行訓練。作為比較,原始論文的作者指出,培訓在硬件上花費了 2 。 5 天( NVIDIA GeForce GTX 1080 Ti )。

更快的培訓使您能夠在搜索最佳體系結構的過程中快速迭代。隨著內存使用率的降低,您現(xiàn)在可以訓練具有更多注意層或隱藏通道的更大模型,并向模型提供更大的輸入。

內存占用率降低 9 倍

SE(3)-Transformer 是已知的記憶重模型,這意味著喂養(yǎng)大輸入,如大蛋白質或許多分批小分子是一項挑戰(zhàn)。對于 GPU 內存有限的用戶來說,這是一個瓶頸。

這一點在DeepLearningExamples上的 NVIDIA 實現(xiàn)中已經改變。圖 3 顯示,由于 NVIDIA 優(yōu)化和對混合精度的支持,與基線實現(xiàn)相比,訓練內存使用減少了 9 倍。

pYYBAGJfvUSAJlq7AAAyUas0Vkk109.png

圖 3 SE ( 3 ) – transformer s 的基線實現(xiàn)和 NVIDIA 實現(xiàn)之間的訓練峰值內存消耗比較。在 QM9 數(shù)據(jù)集上每批使用 100 個分子。 V100 32-GB GPU 。

除了對單精度和混合精度進行改進外,還提供了低內存模式。啟用此標志后,模型在 TF32 ( NVIDIA 安培體系結構)或 FP16 ( NVIDIA 安培體系結構、 NVIDIA 圖靈體系結構和 NVIDIA 伏特體系結構)精度上運行,模型將切換到以吞吐量換取額外內存節(jié)省的模式。

實際上,在具有 V100 32-GB GPU 的 QM9 數(shù)據(jù)集上,基線實現(xiàn)可以在內存耗盡之前擴展到 100 的批大小。 NVIDIA 實現(xiàn)每批最多可容納 1000 個分子(混合精度,低內存模式)。

對于處理以氨基酸殘基為節(jié)點的蛋白質的研究人員來說,這意味著你可以輸入更長的序列并增加每個殘基的感受野。

SE(3)-Transformers 優(yōu)化

與基線相比, NVIDIA 實現(xiàn)提供了一些優(yōu)化。

融合鍵與值計算

在“自我注意”層中,將計算關鍵幀、查詢和值張量。查詢是圖形節(jié)點特征,是輸入特征的線性投影。另一方面,鍵和值是圖形邊緣特征。它們是使用 TFN 層計算的。這是 SE(3)-Transformer 中大多數(shù)計算發(fā)生的地方,也是大多數(shù)參數(shù)存在的地方。

基線實現(xiàn)使用兩個獨立的 TFN 層來計算鍵和值。在 NVIDIA 實現(xiàn)中,這些被融合在一個 TFN 中,通道數(shù)量增加了一倍。這將啟動的小型 CUDA 內核數(shù)量減少一半,并更好地利用 GPU 并行性。徑向輪廓是 TFN 內部完全連接的網(wǎng)絡,也與此優(yōu)化融合。概覽如圖 4 所示。

poYBAGJfvUWAMrW0AABoHVJXxEs672.png

圖 4 NVIDIA 實現(xiàn)中的鍵、查詢和值計算。鍵和值一起計算,然后沿通道維度分塊。

TFN 合并

SE(3)-Transformer 內部的功能除了其通道數(shù)量外,還有一個degreed,它是一個正整數(shù)。程度特征d有維度2d+1. TFN 接受不同程度的特征,使用張量積組合它們,并輸出不同程度的特征。

對于輸入為 4 度、輸出為 4 度的圖層,將考慮所有度的組合:理論上,必須計算 4 × 4 = 16 個子圖層。

這些子層稱為成對 TFN 卷積。圖 5 顯示了所涉及的子層的概述,以及每個子層的輸入和輸出維度。對給定輸出度(列)的貢獻相加,以獲得最終特征。

pYYBAGJfvUaARF2GAAFMcAG5jOI476.png

圖 5 TFN 層中涉及的成對卷積,輸入為 4 度,輸出為 4 度。

NVIDIA 在滿足 TFN 層上的某些條件時,提供多級融合以加速這些卷積。通過創(chuàng)建尺寸為 16 倍的形狀,熔合層可以更有效地使用張量核。以下是應用熔合卷積的三種情況:

輸出功能具有相同數(shù)量的通道

輸入功能具有相同數(shù)量的通道

這兩種情況都是正確的

第一種情況是,所有輸出特征具有相同數(shù)量的通道,并且輸出度數(shù)的范圍從 0 到最大度數(shù)。在這種情況下,使用輸出融合特征的融合卷積。該融合層用于 SE(3)-Transformers 的第一個 TFN 層。

pYYBAGJfvUeAILrMAAC_JHUK2b0720.png

圖 6 每個輸出度的部分熔融 TFN 。

第二種情況是,所有輸入特征具有相同數(shù)量的通道,并且輸入度數(shù)的范圍從 0 到最大度數(shù)。在這種情況下,使用對融合輸入特征進行操作的融合卷積。該融合層用于 SE(3)-Transformers 的最后一層 TFN 。

poYBAGJfvUiAZ-WtAADEV4igJyM069.png

圖 7 每個輸入度的部分熔融 TFN 。

在最后一種情況下,當兩個條件都滿足時,使用完全融合的卷積。這些卷積作為輸入融合特征,輸出融合特征。這意味著每個 TFN 層只需要一個子層。內部 TFN 層使用此融合級別。

pYYBAGJfvUiAY4E7AAB8ctJYwlM494.png

圖 8 全熔合 TFN

基預計算

除了輸入節(jié)點特性外, TFN 還需要基矩陣作為輸入。每個圖邊都有一組矩陣,這些矩陣取決于目標節(jié)點和源節(jié)點之間的相對位置。

在基線實現(xiàn)中,這些矩陣在前向傳遞開始時計算,并在所有 TFN 層中共享。它們依賴于球形 h ARM ,計算起來可能很昂貴。由于輸入圖不會隨著 QM9 數(shù)據(jù)集而改變(沒有數(shù)據(jù)擴充,沒有迭代位置細化),這就引入了跨時代的冗余計算。

NVIDIA 實現(xiàn)提供了在培訓開始時預計算這些基礎的選項。整個數(shù)據(jù)集迭代一次,基緩存在 RAM 中。前向傳遞開始時的計算基數(shù)過程被更快的 CPU 到 GPU 內存拷貝所取代。

關于作者

Alexandre Milesi 是 NVIDIA 的深度學習算法工程師。他擁有法國 UTC 的機器學習碩士學位,以及法國索邦大學的機器人和多智能體系統(tǒng)碩士學位。在加入 NVIDIA 之前, Alexandre 是伯克利實驗室的附屬研究員,使用深度強化學習解決電子 CTR ical 網(wǎng)格問題。在 NVIDIA ,他的工作集中于藥物發(fā)現(xiàn)和計算機視覺的 DL 算法,包括等變圖神經網(wǎng)絡。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5696

    瀏覽量

    110143
  • 機器學習
    +關注

    關注

    67

    文章

    8567

    瀏覽量

    137265
  • 深度學習
    +關注

    關注

    73

    文章

    5610

    瀏覽量

    124656
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA推出代理式AI藍圖與電信推理模型

    借助全新開源大型電信模型NVIDIA Blueprint,電信運營商能夠利用自有數(shù)據(jù)訓練 AI 智能體,構建自主網(wǎng)絡。
    的頭像 發(fā)表于 03-06 17:37 ?3114次閱讀

    訓練推理:大模型算力需求的新拐點已至

    在大模型產業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓練所需的算力投入。一個萬億參數(shù)大模型訓練可能需要數(shù)千張GPU芯片連續(xù)運行數(shù)月,成本高
    的頭像 發(fā)表于 02-05 16:07 ?1057次閱讀
    從<b class='flag-5'>訓練</b>到<b class='flag-5'>推理</b>:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    新聞摘要 : l NVIDIA 率先發(fā)布為應對輔助駕駛長尾場景挑戰(zhàn)而設計的開源視覺-語言-動作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列還包含賦能輔助
    的頭像 發(fā)表于 01-06 09:40 ?530次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo 系列<b class='flag-5'>開源</b> AI <b class='flag-5'>模型</b>與工具,加速安全可靠的<b class='flag-5'>推理</b>型輔助駕駛汽車開發(fā)

    NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領域的全新 AI 工具,其中包括面向移動出行領域的行業(yè)級開源視覺-語言-動作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發(fā)表于 12-13 09:50 ?1580次閱讀

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型

    為助力打造實時、動態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語言模型(SLM),可實現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1456次閱讀

    在Ubuntu20.04系統(tǒng)中訓練神經網(wǎng)絡模型的一些經驗

    模型。 我們使用MNIST數(shù)據(jù)集,訓練一個卷積神經網(wǎng)絡(CNN)模型,用于手寫數(shù)字識別。一旦模型訓練并保存,就可以用于對新圖像進行
    發(fā)表于 10-22 07:03

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應用開發(fā)者都可以構建并部署帶有先進動畫的高精度角色。NVIDIA
    的頭像 發(fā)表于 10-21 11:11 ?1039次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>開源</b>Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為
    的頭像 發(fā)表于 10-21 11:04 ?1465次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程

    科研人員及開發(fā)者打造功能更強大、適應性更強的機器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎模型將為機器人賦予接近人類的推理能力,使其能夠拆解復雜指令,并借助已有知
    的頭像 發(fā)表于 09-30 09:52 ?3231次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新<b class='flag-5'>開源</b><b class='flag-5'>模型</b>與仿真庫加速機器人研發(fā)進程

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?1522次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2053次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構上優(yōu)化了這兩款全新的開放權重模型實現(xiàn)推理
    的頭像 發(fā)表于 08-15 20:34 ?2542次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,<b class='flag-5'>實現(xiàn)</b>150萬TPS<b class='flag-5'>推理</b>

    利用NVIDIA推理模型構建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務、網(wǎng)絡安全、制造、物流和機器人等領域的 AI 智能體生成更明智的結果。
    的頭像 發(fā)表于 08-13 14:32 ?1790次閱讀
    利用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理模型</b>構建AI智能體

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開源其物理 AI 平臺 NVIDIA Cosmos 中的關鍵模型——NVIDIA Cosmos Reason-1-7B。
    的頭像 發(fā)表于 07-09 10:17 ?1039次閱讀

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發(fā)布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態(tài)大語言模型 (MLLM),它們經過了“物理 AI 監(jiān)督微調”和“物理 AI 強化學習”兩個階段的訓練。其中
    的頭像 發(fā)表于 06-04 13:43 ?1225次閱讀
    静安区| 利川市| 宣威市| 兴宁市| 喀什市| 于都县| 依兰县| 瑞昌市| 淮阳县| 建阳市| 蕲春县| 开远市| 林周县| 长子县| 广南县| 家居| 广宗县| 霸州市| 绥宁县| 曲阳县| 敦化市| 古丈县| 夹江县| 平远县| 许昌市| 扶绥县| 涟水县| 安丘市| 马公市| 吴忠市| 渝北区| 揭西县| 遂平县| 商南县| 阿图什市| 玛多县| 普陀区| 尼玛县| 会理县| 喀喇沁旗| 义马市|