日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

采用NVIDIA GPU加速HPC應(yīng)用性能提升

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-06-08 10:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文作者:

Ashraf EassaNVIDIA 加速計(jì)算部門高級產(chǎn)品營銷經(jīng)理

Chris PorterNVIDIA HPC & AI 高級技術(shù)營銷經(jīng)理

高性能計(jì)算(HPC)已經(jīng)成為必不可少的科學(xué)研究工具。

無論是研發(fā)出拯救生命的新藥,還是抵御氣候變化,或是精確模擬我們的世界,這些解決方案都需要強(qiáng)大的處理能力,而且這一需求正在快速增長,日益超出傳統(tǒng)計(jì)算方法能夠應(yīng)對的范疇。

因此,業(yè)界紛紛采用 NVIDIA 的 GPU 進(jìn)行加速計(jì)算。結(jié)合 AI,它能帶來數(shù)百萬倍的性能加速,推動科學(xué)的進(jìn)步。如今,已有 2700 個應(yīng)用受益于 NVIDIA GPU 加速,而在日益增長的 300 萬開發(fā)者共同組成的社區(qū)支持下,這一數(shù)字仍在不斷攀升。

HPC 應(yīng)用性能提升

為將所有 HPC 應(yīng)用的速度提升數(shù)倍,我們需要在堆棧的每個層面進(jìn)行不斷的創(chuàng)新,包括芯片、系統(tǒng)以及應(yīng)用框架本身。

隨著架構(gòu)和 NVIDIA 軟件棧整體上的不斷進(jìn)步, NVIDIA 平臺的性能每年都會顯著提高。與六年前發(fā)布的 P100 相比, H100 Tensor Core GPU 的性能提高 26 倍,比摩爾定律快 3 倍以上。

NVIDIA 平臺的核心是一個功能豐富的高性能軟件堆棧。為了方便各種 HPC 應(yīng)用實(shí)現(xiàn) GPU 加速,該平臺加入了 NVIDIA HPC SDK。SDK 使開發(fā)者能夠使用標(biāo)準(zhǔn)語言、導(dǎo)語指令以及 CUDA 來編寫和移植 GPU 加速應(yīng)用,為開發(fā)者帶來了無與倫比的靈活性。

NVIDIA HPC SDK 的強(qiáng)大之處在于其龐大且高度優(yōu)化的 GPU 加速數(shù)學(xué)庫,使用戶能夠充分發(fā)揮 NVIDIA GPU 的性能潛力。為了實(shí)現(xiàn)最佳的多 GPU 和多節(jié)點(diǎn)擴(kuò)展性能, NVIDIA HPC SDK 還提供強(qiáng)大的通信庫:

NVSHMEM 為跨多個 GPU 內(nèi)存的數(shù)據(jù)創(chuàng)建了一個全局地址空間。

NVIDIA 集合通信庫(NCCL)優(yōu)化了 GPU 之間的通信。

總之,該平臺提供最高的性能和靈活性,為龐大的、不斷增長的 GPU 加速 HPC 應(yīng)用提供支持。

HPC 的性能和能效

為了展示 NVIDIA 全棧創(chuàng)新如何助力加速 HPC 實(shí)現(xiàn)最高性能, 我們將一臺配備 4 顆 NVIDIA GPU 的慧與(HPE)服務(wù)器與一臺配備另一家廠商同等數(shù)量加速器模塊且配置相似的服務(wù)器進(jìn)行了性能比較。

我們使用多種算例測試了廣泛使用的五個 HPC 應(yīng)用。盡管在各個行業(yè)中有約 2700 個應(yīng)用基于 NVIDIA 平臺實(shí)現(xiàn)了加速,但由于另一家廠商的加速器只支持部分軟件和應(yīng)用版本,我們在此次比較中所能使用的應(yīng)用有限。

對于除 NAMD (用于分子動力學(xué)模擬的軟件)以外的所有應(yīng)用,我們首先獲得多個算例的結(jié)果,然后使用它們的幾何平均值作為計(jì)算結(jié)果,這樣可以將異常值的影響最小化并反映客戶的體驗(yàn)。

我們還在多 GPU 和單 GPU 場景下測試了這些應(yīng)用。

在多 GPU 場景中,測試系統(tǒng)中的所有加速器都被用來運(yùn)行一個模擬,基于 A100 Tensor Core GPU 的服務(wù)器所提供的性能比起另一臺服務(wù)器高出 2.1 倍。

得益于計(jì)算性能的持續(xù)進(jìn)步,分子動力學(xué)領(lǐng)域正朝著模擬更大的原子體系和更長的時間的方向發(fā)展。這使研究者能夠模擬越來越多的生物化學(xué)機(jī)制,例如光合電子傳遞和視覺信號轉(zhuǎn)導(dǎo)。對于此類過程,由于模擬這一主要驗(yàn)證方式耗時過長,之前無法通過模擬來對其進(jìn)行驗(yàn)證,導(dǎo)致這類過程也一直引發(fā)科學(xué)界的爭論。

但我們認(rèn)識到,并非所有用戶都會在每次模擬時使用多個 GPU 運(yùn)行。為了獲得最佳吞吐量,最好的方法往往是為每次模擬分配一個 GPU。

當(dāng)在單一加速器模塊( NVIDIA A100 上一個的完整 GPU 和另一款產(chǎn)品上的兩個計(jì)算芯片)上運(yùn)行這些應(yīng)用時,基于 NVIDIA A100 的系統(tǒng)提供了高達(dá) 1.9 倍的性能。

電力成本占據(jù)了數(shù)據(jù)中心和超級計(jì)算中心總擁有成本(TCO)中的很大一部分,這突出了高能效計(jì)算平臺的重要性。根據(jù)我們的測試, NVIDIA 平臺的每瓦吞吐量比其他產(chǎn)品高 2.8 倍。

多年來, 我們?yōu)榱俗畲笙薅鹊靥岣邞?yīng)用性能和效率而堅(jiān)持不懈地進(jìn)行軟硬件協(xié)同優(yōu)化,最終打造出具有卓越性能和能效的 NVIDIA A100 GPU。欲進(jìn)一步了解 NVIDIA Ampere 架構(gòu),請參見 NVIDIA A100 Tensor Core GPU 白皮書。

A100 在操作系統(tǒng)中也表現(xiàn)為一個單一的處理器,只需要啟動一個 MPI 線程就可以充分發(fā)揮它的性能。而且由于一個節(jié)點(diǎn)中所有 GPU 之間都采用 600-GB/s NVLink 互聯(lián),因此 A100 可以提供出色的擴(kuò)展性能。

AI 與 HPC 的融合

正如加速計(jì)算將模擬和仿真應(yīng)用的速度提高了數(shù)倍, AI 和 HPC 的結(jié)合也將進(jìn)一步提升性能,推動下一波科學(xué)研究的發(fā)展。

從我們首次提交 MLPerf 訓(xùn)練結(jié)果到最近一次提交,已有三年的時間。在這三年里, NVIDIA 平臺在這套由同行評審的行業(yè)標(biāo)準(zhǔn)基準(zhǔn)測試中將深度學(xué)習(xí)性能提高了 20 倍。這些成果來自于芯片、軟件和規(guī)模上的全面提高。

科學(xué)家和研究者已在使用 AI 大幅提升性能,加快科學(xué)研究的速度。

使識別引力波所需的時間減少為原來 10 萬分之一。

對呼吸道飛沫中的 Delta SARS-CoV-2 病毒(原子數(shù)超過 10 億)進(jìn)行模擬的速度提高 1000 倍。

加速清潔聚變能源的發(fā)展。

為余熱鍋爐(HRSG)工廠創(chuàng)建預(yù)測性數(shù)字孿生。

世界各地的超級計(jì)算中心都在持續(xù)使用加速 AI 超級計(jì)算機(jī)。

阿貢領(lǐng)導(dǎo)力計(jì)算設(shè)施(ALCF)的 Polaris 超級計(jì)算機(jī)、美國國家能源研究科學(xué)計(jì)算中心(NERSC)的 Perlmutter、意大利多所大學(xué)組建的 CINECA 聯(lián)盟建設(shè)的 Leonardo,均采用 A100 Tensor Core GPU 加速。

即將在 2023 年上線的 Alps 超級計(jì)算機(jī)基于 NVIDIA 的 Grace Hopper 超級芯片打造而成。

計(jì)劃于 2023 年交付的洛斯阿拉莫斯國家實(shí)驗(yàn)室的 Venado 系統(tǒng),將包含 Grace Hopper 超級芯片以及 Grace CPU 超級芯片節(jié)點(diǎn)。

原文標(biāo)題:NVIDIA 通過全棧創(chuàng)新推動高性能計(jì)算的發(fā)展

文章出處:【微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110144
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    350

    瀏覽量

    25083
  • 高性能計(jì)算
    +關(guān)注

    關(guān)注

    0

    文章

    97

    瀏覽量

    13829

原文標(biāo)題:NVIDIA 通過全棧創(chuàng)新推動高性能計(jì)算的發(fā)展

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA向Kubernetes社區(qū)捐贈動態(tài)資源分配GPU驅(qū)動程序

    此外,NVIDIA 在 KubeCon Europe 大會上宣布推出適用于 GPU 加速工作負(fù)載的機(jī)密容器解決方案、NVIDIA KAI Scheduler 更新,以及用于實(shí)現(xiàn)大規(guī)模
    的頭像 發(fā)表于 04-01 09:10 ?768次閱讀

    Oracle和NVIDIA合作加速向量搜索和企業(yè)數(shù)據(jù)處理

    Oracle 和 NVIDIA 正在與客戶合作,將 GPU 加速的向量索引構(gòu)建應(yīng)用于實(shí)際工作負(fù)載。Oracle Private AI Services Container 初期支持 CPU 執(zhí)行,現(xiàn)
    的頭像 發(fā)表于 03-23 15:26 ?470次閱讀

    NVIDIA推出cuEST量子化學(xué)加速

    本周,NVIDIA 發(fā)布了 NVIDIA cuEST。這是一款全新的 NVIDIA CUDA-X 庫,可將電子結(jié)構(gòu)計(jì)算遷移到 GPU 上執(zhí)行。應(yīng)用材料公司、三星、新思科技和 TSMC
    的頭像 發(fā)表于 03-23 15:11 ?533次閱讀

    NVIDIA cuDF和cuVS獲全球領(lǐng)先數(shù)據(jù)平臺采用

    企業(yè)每年產(chǎn)生數(shù)百 ZB (Zettabyte) 的數(shù)據(jù),并在爭相將這些信息轉(zhuǎn)化為洞察。NVIDIA cuDF 和 cuVS 作為基于 NVIDIA CUDA-X 構(gòu)建的加速數(shù)據(jù)庫,正在被各行業(yè)的數(shù)據(jù)平臺所應(yīng)用,帶來至高 5 倍
    的頭像 發(fā)表于 03-19 15:46 ?492次閱讀

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計(jì)目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限
    的頭像 發(fā)表于 02-10 10:31 ?559次閱讀

    RSoft GPU加速技術(shù)重塑光子元件設(shè)計(jì)效率革命

    設(shè)計(jì)效率。為了解決這個問題,RSoft 光子器件工具的 FullWAVE FDTD 模組中引入 GPU 加速,通過 NVIDIA GPU 的平行運(yùn)算能力,使得模擬速度相比 CPU 計(jì)算
    的頭像 發(fā)表于 01-12 14:09 ?439次閱讀
    RSoft <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>技術(shù)重塑光子元件設(shè)計(jì)效率革命

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級迭代產(chǎn)品,其各項(xiàng)核心指標(biāo)均針對 GPU 加速工作流的
    的頭像 發(fā)表于 01-06 09:51 ?4385次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評測

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    Generation 的全面超越。那么,這款劃時代的專業(yè) GPU 在真實(shí)應(yīng)用場景中的表現(xiàn)究竟如何?今天,我們將通過深度實(shí)測,為您揭曉 NVIDIA RTX PRO 4000 Blackwell 相較于前代產(chǎn)品的性能躍遷。
    的頭像 發(fā)表于 12-29 15:30 ?1945次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b><b class='flag-5'>性能</b>測試

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應(yīng)用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?7153次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b><b class='flag-5'>性能</b>測試

    NVIDIA推出NVQLink高速互連架構(gòu)

    NVIDIA 推出 NVIDIA NVQLink,這是一種開放式系統(tǒng)架構(gòu),可將 GPU 計(jì)算的極致性能與量子處理器緊密結(jié)合,以構(gòu)建加速的量子
    的頭像 發(fā)表于 11-03 14:53 ?917次閱讀

    NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能

    超大規(guī)模企業(yè)廣泛采用 NVIDIA 網(wǎng)絡(luò)解決方案,驅(qū)動十億瓦級(Giga-Scale)高性能 AI 數(shù)據(jù)中心 Meta 推出基于 NVIDIA Spectrum 以太網(wǎng)的交換機(jī),用于
    的頭像 發(fā)表于 10-14 10:26 ?2114次閱讀
    <b class='flag-5'>NVIDIA</b> Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle <b class='flag-5'>加速</b>網(wǎng)絡(luò)<b class='flag-5'>性能</b>

    Lambda采用Supermicro NVIDIA Blackwell GPU服務(wù)器集群構(gòu)建人工智能工廠

    大批量 Supermicro GPU 優(yōu)化服務(wù)器(包括基于 NVIDIA Blackwell 的系統(tǒng)),以擴(kuò)展其人工智能基礎(chǔ)設(shè)施并向客戶交付高性能計(jì)算系統(tǒng)。此次合作于今年 6 月率先在俄亥俄州哥倫布市的 Cologix COL4
    的頭像 發(fā)表于 08-30 16:55 ?969次閱讀

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品 NVIDIA RTX 450
    的頭像 發(fā)表于 08-28 11:02 ?4451次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測試分析

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?1685次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀(jì)錄:在 G
    的頭像 發(fā)表于 07-02 19:31 ?3649次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell <b class='flag-5'>GPU</b>優(yōu)化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1在最小延遲場景中的<b class='flag-5'>性能</b>紀(jì)錄
    古丈县| 宝兴县| 石景山区| 太原市| 惠东县| 横峰县| 象山县| 富锦市| 宜丰县| 大竹县| 上思县| 哈密市| 涟水县| 通辽市| 葫芦岛市| 镇宁| 托克逊县| 白银市| 临湘市| 宜兰市| 通河县| 淮滨县| 华阴市| 河东区| 祁连县| 广汉市| 绍兴市| 新泰市| 婺源县| 浪卡子县| 赤水市| 富顺县| 汉川市| 余姚市| 万全县| 怀来县| 思南县| 岑巩县| 阳谷县| 临猗县| 青海省|