日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta開發(fā)AITemplate,大幅簡(jiǎn)化多GPU后端部署

3D視覺工坊 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-04 17:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

眾所周知,GPU 在各種視覺、自然語言和多模態(tài)模型推理任務(wù)中都占據(jù)重要位置。然而,對(duì)于高性能 GPU 推理引擎,AI 從業(yè)者幾乎沒有選擇權(quán),必須使用一些平臺(tái)專有的黑盒系統(tǒng)。這意味著如果要切換 GPU 供應(yīng)商,就必須重新實(shí)現(xiàn)一遍部署系統(tǒng)。在生產(chǎn)環(huán)境中當(dāng)涉及復(fù)雜的依賴狀況時(shí),這種靈活性的缺失使維護(hù)迭代成本變得更加高昂。

在 AI 產(chǎn)品落地過程中,經(jīng)常需要模型快速迭代。盡管一些閉源系統(tǒng)(如 TensorRT)提供了一些定制化功能,但這些定制化功能完全不能滿足需求。更進(jìn)一步來說,這些閉源專有的解決方案,會(huì)使 debug 更加困難,對(duì)開發(fā)敏捷性造成影響。

針對(duì)這些業(yè)界難題,Meta AI 開發(fā)了擁有 NVIDIA GPU 和 AMD GPU 后端的統(tǒng)一推理引擎——AITemplate。

AITemplate 在 CNN、Transformer 和 Diffusion 模型上都能提供接近硬件上限的 TensorCore (NVIDIA GPU) 和 MatrixCore (AMD GPU) 性能。使用 AITemplate 后,在 NVIDIA GPU 上對(duì)比 PyTorch Eager 的提速最高能達(dá)到 12 倍,在 AMD GPU 上對(duì)比 PyTorch Eager 的提速達(dá)到 4 倍。

這意味著,當(dāng)應(yīng)用于超大規(guī)模集群時(shí),AITemplate 能夠節(jié)約的成本數(shù)額將是驚人的。

具體而言,AITemplate 是一個(gè)能把 AI 模型轉(zhuǎn)換成高性能 C++ GPU 模板代碼的 Python 框架。該框架在設(shè)計(jì)上專注于性能和簡(jiǎn)化系統(tǒng)。AITemplate 系統(tǒng)一共分為兩層:前段部分進(jìn)行圖優(yōu)化,后端部分針對(duì)目標(biāo) GPU 生成 C++ 模板代碼。AITemplate 不依賴任何額外的庫(kù)或 Runtime,如 cuBLAS、cudnn、rocBLAS、MIOpen、TensorRT、MIGraphX 等。任何 AITemplate 編譯的模型都是自洽的。

AITemplate 中提供了大量性能提升創(chuàng)新,包括更先進(jìn)的 GPU Kernel fusion,和一些專門針對(duì) Transformer 的先進(jìn)優(yōu)化。這些優(yōu)化極大提升了 NVIDIA TensorCore 和 AMD MatrixCore 的利用率。

目前,AITemplate 支持 NVIDIA A100 和 MI-200 系列 GPU,兩種 GPU 都被廣泛應(yīng)用在科技公司、研究實(shí)驗(yàn)室和云計(jì)算提供商的數(shù)據(jù)中心。

團(tuán)隊(duì)對(duì) AITemplate 進(jìn)行了一系列測(cè)試。下圖的測(cè)試展示了 AITemplate 和 PyTorch Eager 在 NVIDIA A100 上的主流模型中的加速比。

92189092-4576-11ed-96c9-dac502259ad0.png

在帶有 Cuda 11.6 的 Nvidia A100 上運(yùn)行 BERT 和 ResNet-50,AITemplate 在 ResNet-50 中提供了 3 到 12 倍的加速,在 BERT 上提供了 2 到 5 倍的加速。

經(jīng)測(cè)試,AITemplate 在 AMD MI250 GPU 上較 PyTorch Eager 也有較大的加速比。

922eea18-4576-11ed-96c9-dac502259ad0.png

使用 ROCm 5.2 和 MI250 加速器,ResNet-50 和 BERT 的加速在 1.5-2 倍范圍內(nèi)。

AITemplate 的統(tǒng)一 GPU 后端支持,讓深度學(xué)習(xí)開發(fā)者在最小開銷的情況下,擁有了更多的硬件提供商選擇。下圖直觀展示了 AITemplate 在 NVIDIA A100 GPU 和 AMD MI250 GPU 上的加速對(duì)比:

924a6572-4576-11ed-96c9-dac502259ad0.png

此外,AITemaplte 的部署較其他方案也更為簡(jiǎn)潔。由于 AI 模型被編譯成了自洽的二進(jìn)制文件并且不存在任何第三方庫(kù)的依賴,任何被編譯的二進(jìn)制文件都能在相同硬件、CUDA 11/ ROCm 5 或者更新的軟件環(huán)境中運(yùn)行,也不用擔(dān)心任何后向兼容問題。AITemplate 提供了開箱即用的模型樣例,如 Vision Transformer、BERT、Stable Diffusion、ResNet 和 MaskRCNN,使得部署 PyTorch 模型更加簡(jiǎn)單。

AITemplate 的優(yōu)化

AITemplate 提供了目前最先進(jìn)的 GPU Kernel 融合技術(shù):支持縱向、水平和內(nèi)存融合為一體的多維融合技術(shù)??v向融合將同一條鏈上的操作進(jìn)行融合;水平融合將并行無依賴的操作進(jìn)行融合;內(nèi)存融合把所有內(nèi)存移動(dòng)操作和計(jì)算密集算子進(jìn)行融合。

9265ec70-4576-11ed-96c9-dac502259ad0.png

在水平融合中,AITemplate 目前可以把不同輸入形狀的矩陣乘法 (GEMM)、矩陣乘法和激活函數(shù),以及 LayerNorm、LayerNorm 和激活函數(shù)進(jìn)行融合。

在縱向融合中,AITemplate 支持超過傳統(tǒng)標(biāo)準(zhǔn)的 Elementwise 融合,包括:

通過 CUTLASS 和 Composable Kernel 支持了矩陣和 Elementwise 算子融合;

為 Transformer 的 Multi-head Attention 提供了矩陣乘法和內(nèi)存布局轉(zhuǎn)置融合;

通過張量訪問器對(duì)內(nèi)存操作,如 split、slice、concatenate 等進(jìn)行融合來消除內(nèi)存搬運(yùn)。

在標(biāo)準(zhǔn)的 Transformer Multi head attention 模塊,目前 AITemplate 在 CUDA 平臺(tái)使用了 Flash Attention,在 AMD 平臺(tái)上使用了 Composable Kernel 提供的通用背靠背矩陣乘法融合。兩種解決方案都能大幅減小內(nèi)存帶寬需求,在長(zhǎng)序列問題中,提升更為明顯。如下圖所示:

928121ca-4576-11ed-96c9-dac502259ad0.png

AITemplate 與 Composable Kernel 的廣義背靠背融合顯著提高了長(zhǎng)序列 Transformer 的推理效率。在 batch size 為 1 時(shí),使用 AITemplate 的兩張 GPU 均比原生框架加速了 80%。

開發(fā) AITemplate

AITemplate 有兩層模版系統(tǒng):第一層在 Python 中使用 Jinja2 模板,第二層在 GPU TensorCore/MatrixCore 中使用 C++ 模板(NVIDIA GPU 上使用 CUTLASS,AMD GPU 上使用 Composable Kernel)。AITemplate 在 Python 中找到性能最優(yōu)的 GPU 模板參數(shù),再通過 Jinja2 渲染出最終的 C++ 代碼。

在代碼生成后,就能使用 GPU C++ 編譯器(NVIDIA 平臺(tái)上的 NVCC 和 AMD 平臺(tái)上的 HIPCC)編譯出最終的二進(jìn)制代碼。AITemplate 提供了一套類似于 PyTorch 的前端,方便用戶直接將模型轉(zhuǎn)換到 AITemplate 而不是通過多層 IR 轉(zhuǎn)換。

總體來看,AITemplate 對(duì)當(dāng)前一代及下一代 NVIDIA GPU 和 AMD GPU 提供了 SOTA 性能并大幅簡(jiǎn)化了系統(tǒng)復(fù)雜度。

Meta 表示,這只是創(chuàng)建高性能多平臺(tái)推理引擎旅程的開始:「我們正在積極擴(kuò)展 AITemplate 的完全動(dòng)態(tài)輸入支持。我們也有計(jì)劃推廣 AITemplate 到其他平臺(tái),例如 Apple 的 M 系列 GPU,以及來自其他供應(yīng)商的 CPU 等等?!?/p>

此外,AITemplate 團(tuán)隊(duì)也正在開發(fā)自動(dòng) PyTorch 模型轉(zhuǎn)換系統(tǒng),使其成為開箱即用的 PyTorch 部署方案?!窤ITemplate 對(duì)支持 ONNX 和 Open-XLA 也持開放態(tài)度。我們希望能構(gòu)建一個(gè)更為綠色高效的 AI 推理系統(tǒng),能擁有更高的性能,更強(qiáng)的靈活性和更多的后端選擇?!箞F(tuán)隊(duì)表示。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5292

    瀏覽量

    136113
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41432

    瀏覽量

    302777

原文標(biāo)題:推理速度數(shù)倍提升,大幅簡(jiǎn)化多GPU后端部署:Meta發(fā)布全新推理引擎AITemplate

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AMD獲Meta千億美元芯片大單,AI芯片市場(chǎng)格局生變

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近日,Meta與AMD共同宣布達(dá)成一項(xiàng)重磅的多年期協(xié)議。Meta將在其AI數(shù)據(jù)中心大規(guī)模部署6吉瓦的AMD GPU,并配套使用AI優(yōu)化型CPU,首批搭載M
    的頭像 發(fā)表于 02-26 09:19 ?6085次閱讀
    AMD獲<b class='flag-5'>Meta</b>千億美元芯片大單,AI芯片市場(chǎng)格局生變

    鎖定未來三年合作!“Meta+博通”2nm ASIC芯片開造,劍指“英偉達(dá)+AMD”?

    至?2029?年。根據(jù)協(xié)議,Meta?初步承諾將部署高達(dá)?1GW?采用博通技術(shù)的訓(xùn)練與推理專用的?MTIA?芯片,未來更將把部署規(guī)模擴(kuò)展至數(shù)個(gè)GW。這一長(zhǎng)期綁定,是Meta作為AI巨頭
    的頭像 發(fā)表于 04-16 09:06 ?4341次閱讀
    鎖定未來三年合作!“<b class='flag-5'>Meta</b>+博通”2nm ASIC芯片開造,劍指“英偉達(dá)+AMD”?

    登臨科技GPU本地部署OpenClaw全攻略

    “養(yǎng)”在本地,不僅可以大幅度節(jié)省token消耗量,而且可以實(shí)現(xiàn)數(shù)據(jù)隱私、低延遲等諸多優(yōu)勢(shì)。 登臨KS20 GPU 憑借其強(qiáng)大的端側(cè)算力和CUDA兼容優(yōu)勢(shì),成為解鎖本地OpenClaw全新玩法的理想硬件選擇。
    的頭像 發(fā)表于 03-17 14:19 ?2364次閱讀
    登臨科技<b class='flag-5'>GPU</b>本地<b class='flag-5'>部署</b>OpenClaw全攻略

    Pickering發(fā)布測(cè)試系統(tǒng)架構(gòu)—極大簡(jiǎn)化信號(hào)路徑設(shè)計(jì)與部署

    全新工具集加快設(shè)計(jì)進(jìn)程、規(guī)避潛在錯(cuò)誤,并簡(jiǎn)化測(cè)試全生命周期中的文檔管理 2026年3月 6 日,英國(guó)濱??死祟D——作為電子測(cè)試與驗(yàn)證領(lǐng)域模塊化信號(hào)開關(guān)和仿真解決方案的領(lǐng)先供應(yīng)商,Pickering
    的頭像 發(fā)表于 03-06 11:34 ?434次閱讀
    Pickering發(fā)布測(cè)試系統(tǒng)架構(gòu)—極大<b class='flag-5'>簡(jiǎn)化</b>信號(hào)路徑設(shè)計(jì)與<b class='flag-5'>部署</b>

    Meta與NVIDIA達(dá)成多年戰(zhàn)略合作伙伴關(guān)系

    NVIDIA 今天宣布與 Meta 達(dá)成一項(xiàng)多年期、跨代產(chǎn)品的戰(zhàn)略合作伙伴關(guān)系,涵蓋本地部署、云計(jì)算和 AI 基礎(chǔ)設(shè)施。
    的頭像 發(fā)表于 03-02 14:46 ?663次閱讀

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計(jì)目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢(shì)是允許開發(fā)者基于其構(gòu)建自定義的 DS
    的頭像 發(fā)表于 02-10 10:31 ?562次閱讀

    FPGA+GPU異構(gòu)混合部署方案設(shè)計(jì)

    為滿足對(duì) “納秒級(jí)實(shí)時(shí)響應(yīng)” 與 “復(fù)雜數(shù)據(jù)深度運(yùn)算” 的雙重需求,“FPGA+GPU”異構(gòu)混合部署方案通過硬件功能精準(zhǔn)拆分與高速協(xié)同,突破單一硬件的性能瓶頸 ——FPGA聚焦低延遲實(shí)時(shí)交易鏈路,GPU承接高復(fù)雜度數(shù)據(jù)處理任務(wù),
    的頭像 發(fā)表于 01-13 15:20 ?510次閱讀

    八通道智能驅(qū)動(dòng)器SiLM92108,集成驅(qū)動(dòng)與診斷,簡(jiǎn)化電機(jī)系統(tǒng)設(shè)計(jì)

    ,加速開發(fā)進(jìn)程。 控制智能且靈活 支持PWM直接控制與SPI參數(shù)配置,驅(qū)動(dòng)電流及斜率可調(diào)。菊花鏈通信簡(jiǎn)化芯片布線,特別適合通道擴(kuò)展需求。 診斷全面,安全可靠 提供從電源、電流到溫度的全方位故障監(jiān)測(cè)
    發(fā)表于 01-09 08:22

    Meta的AI慢性病,靠Manus能治嗎?

    Meta
    腦極體
    發(fā)布于 :2026年01月08日 16:58:02

    在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程

    兼容未來的 GPU 架構(gòu)。借助 NVIDIA cuTile Python,開發(fā)者可以直接用 Python 編寫 tile kernels。
    的頭像 發(fā)表于 12-13 10:12 ?1492次閱讀
    在Python中借助NVIDIA CUDA Tile<b class='flag-5'>簡(jiǎn)化</b><b class='flag-5'>GPU</b>編程

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    流程 2.1 依賴環(huán)境 2.2 一鍵編譯 2.3 端側(cè)部署步驟 三、效果展示:圖文輪問答 四、二次開發(fā)與拓展方向 五、結(jié)論與未來發(fā)展方向 一、引言1.1 什么是輪對(duì)話?
    發(fā)表于 09-05 17:25

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評(píng)測(cè)

    關(guān)鍵詞:瑞芯微 RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理器)、端側(cè)小語言模型(SLM)、模態(tài) LLM、邊緣 AI 部署開發(fā)板、RKLLM隨著大語言模型(LLM)技術(shù)的快速迭代,從云端集中式部署
    發(fā)表于 08-29 18:08

    【米爾RK3576開發(fā)板免費(fèi)體驗(yàn)】1、開發(fā)環(huán)境、鏡像燒錄、QT開發(fā)環(huán)境搭建以及應(yīng)用部署

    示例程序中的.pro文件,導(dǎo)入工程。 修改QT的Projects界面中的Command line Argments為--platform wayland,指定QT使用的顯示后端類型。 編譯并運(yùn)行工程,部署執(zhí)行程序到開發(fā)
    發(fā)表于 07-14 11:26

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側(cè)部署

    ImaginationTechnologies宣布率先完成百度文心大模型(ERNIE4.5開源版)在其GPU硬件上的端側(cè)部署。適配完成后,開發(fā)者可在搭載ImaginationGPU的設(shè)備上實(shí)現(xiàn)高效
    的頭像 發(fā)表于 07-01 08:17 ?1125次閱讀
    Say Hi to ERNIE!Imagination <b class='flag-5'>GPU</b>率先完成文心大模型的端側(cè)<b class='flag-5'>部署</b>
    根河市| 濮阳市| 阜南县| 根河市| 宜州市| 红河县| 灌云县| 万盛区| 郯城县| 克东县| 龙井市| 高尔夫| 甘肃省| 石首市| 西藏| 四川省| 洪洞县| 铁力市| 道孚县| 沁水县| 漳平市| 名山县| 尼勒克县| 内乡县| 丰都县| 扬中市| 鄢陵县| 永春县| 荆门市| 宜都市| 淮安市| 喀喇沁旗| 怀远县| 繁昌县| 青龙| 天峻县| 茶陵县| 廊坊市| 临洮县| 肇州县| 闽清县|