日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA CUDA Tile的創(chuàng)新之處、工作原理以及使用方法

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-12-24 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile,這是自 2006 年 NVIDIA CUDA 平臺發(fā)明以來,最大的一次技術(shù)進步。這一令人振奮的創(chuàng)新引入了一套面向 Tile-based 并行編程的虛擬指令集,使開發(fā)者能夠在更高層級編寫算法,而無需關(guān)心底層專用硬件(如 Tensor Cores)的復(fù)雜細節(jié)。

本文將介紹 CUDA Tile 的創(chuàng)新之處、工作原理以及使用方法。

為什么在 GPU 上需要 Tile 編程?

CUDA 為開發(fā)者提供了一種單指令多線程(SIMT)的硬件與編程模型。這既要求也允許開發(fā)者對代碼執(zhí)行方式進行非常細致的控制,從而實現(xiàn)最大化的靈活性。然而,要讓代碼在各種不同的 GPU 架構(gòu)上都表現(xiàn)良好,往往需要投入大量的調(diào)優(yōu)工作。

NVIDIA CUDA-X、NVIDIA CUTLASS 等庫為開發(fā)者提供了性能優(yōu)化工具,而 CUDA Tile 則進一步提供了一種比傳統(tǒng) SIMT 更高層次的 GPU 編程方式。

隨著計算任務(wù)的發(fā)展,尤其是 AI 領(lǐng)域中,Tensors 已經(jīng)成為基礎(chǔ)的數(shù)據(jù)類型。NVIDIA 也開發(fā)了面向 Tensors 運算的專用硬件,例如 NVIDIA Tensor Cores(TC)和 NVIDIA Tensor Memory Accelerators(TMA),并已成為所有新 GPU 架構(gòu)的核心組件。

但硬件越復(fù)雜,軟件就越需要承擔抽象與封裝的職責。CUDA Tile 對 Tensor Cores 及其編程模式進行了抽象,讓使用 CUDA Tile 的代碼天然兼容當前與未來的 Tensor Core 架構(gòu)。

Tile-based 編程的方式是:你只需指定一塊塊數(shù)據(jù),即Tiles,以及這些 Tiles 上要執(zhí)行的運算即可。你不再需要在元素級別指定算法的執(zhí)行方式,編譯器和運行時(runtime )會自動處理。

圖 1 展示了 CUDA Tile 引入的 Tile 模型,與傳統(tǒng) CUDA SIMT 模型之間的概念性差異。

wKgZPGlLTbSABJvfAAJ2j08fvN4638.png

圖 1. Tile 模型(左)將數(shù)據(jù)劃分為 Blocks,而編譯器將其映射到 Threads。SIMT 模型(右)則將數(shù)據(jù)映射到 Blocks 和 Threads

這種編程模式在 Python 這樣的語言中很常見,用戶可以通過 NumPy 這樣的庫指定矩陣等數(shù)據(jù)類型,然后用簡單的代碼指定并執(zhí)行批量操作。在底層,一切都會按正確的方式運行,而你的計算對你來說始終完全透明。

CUDA Tile IR:Tile 編程的基礎(chǔ)

CUDA Tile 的基礎(chǔ)是 CUDA Tile IR(中間表示)。CUDA Tile IR 引入了一套虛擬指令集,使得以 Tile Operations 的方式對硬件進行原生編程成為可能。開發(fā)者可以編寫更高層級的代碼,并且在多代 GPU 上僅需做極少的改動即可高效執(zhí)行。

雖然 NVIDIA Parallel Thread Execution(PTX)為 SIMT 程序提供了可移植性,但 CUDA Tile IR 為 CUDA 平臺擴展了對 Tile-based 程序的原生支持。開發(fā)者專注于將他們的數(shù)據(jù)并行程序劃分為 Tiles 和 Tile Blocks,并讓 CUDA Tile IR 來處理將其映射到諸如 Threads、內(nèi)存層次結(jié)構(gòu)以及 Tensor Cores 等硬件資源上。

通過提升抽象層級,CUDA Tile IR 使用戶能夠為 NVIDIA 硬件構(gòu)建更高層次的、面向硬件的編譯器、框架以及領(lǐng)域?qū)S谜Z言(DSLs)。用于 Tile 編程的 CUDA Tile IR 類似于用于 SIMT 編程的 PTX。

需要指出的一點是,這并不是一個非此即彼的選擇。GPU 上的 Tile 編程是編寫 GPU 代碼的另一種方法,但你不必在 SIMT 和 Tile 編程之間做選擇,它們是共存的。當你需要 SIMT 時,你依舊像以往一樣編寫你的 Kernels。當你希望使用 Tensor Cores 來執(zhí)行運算時,你就編寫 Tile Kernels。

圖 2 展示了一個關(guān)于 CUDA Tile 如何嵌入典型軟件棧的高層示意圖,以及 Tile 路徑如何作為一條獨立但互補于現(xiàn)有 SIMT 路徑的編譯路徑。

wKgZPGlLTciABj3XAAH-85-AhJE894.png

圖 2. Tile 的編譯路徑嵌入完整的軟件棧之中,并與 SIMT 路徑并列存在

開發(fā)者應(yīng)如何使用 CUDA Tile 編寫 GPU 應(yīng)用?

CUDA Tile IR 位于與絕大多數(shù)程序員交互的 Tile 編程的下一層級。除非你正在編寫一個編譯器或庫,否則你大概不需要關(guān)心 CUDA Tile IR 軟件的細節(jié)。

NVIDIA cuTile Python:大多數(shù)開發(fā)者將通過諸如 NVIDIA cuTile Python 這樣的軟件與 CUDA Tile 編程進行交互——這是一種由 NVIDIA 提供的 Python 實現(xiàn),使用 CUDA Tile IR 作為后端。我們有一篇博客解釋了如何使用 cuTile-python,并附上了示例代碼和文檔的鏈接。

CUDA Tile IR:對于希望構(gòu)建自己 DSL 編譯器或庫的開發(fā)者而言,CUDA Tile IR 就是你與 CUDA Tile 交互的地方。CUDA Tile IR 文檔和規(guī)范包含關(guān)于 CUDA Tile IR 編程抽象、語法和語義的信息。如果你正在編寫一個當前以 PTX 為目標的工具/編譯器/庫,那么你可以調(diào)整你的軟件以同時以 CUDA Tile IR 為目標。

如何獲取 CUDA Tile 軟件

CUDA Tile 隨 CUDA 13.1 一同發(fā)布。開發(fā)者可以通過 CUDA Tile 頁面,獲取包括文檔鏈接、GitHub 庫以及示例代碼等信息。

關(guān)于作者

Jonathan Bentz 領(lǐng)導 NVIDIA 的 CUDA 技術(shù)營銷工程團隊,其團隊專注于創(chuàng)建和提供引人入勝的內(nèi)容,并與 CUDA 開發(fā)者建立聯(lián)系。Jonathan 擁有愛荷華州立大學化學博士學位和計算機科學碩士學位。

Tony Scudiero 是 CUDA 平臺的技術(shù)營銷工程師。他致力于將 CUDA 帶給各種類型和能力的開發(fā)者。在 NVIDIA 任職期間,他曾使用過大型 HPC 系統(tǒng)和應(yīng)用、實時聲學模擬 (VRWorks Audio) 和 Omniverse RTX 渲染器。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110139
  • 硬件
    +關(guān)注

    關(guān)注

    13

    文章

    3638

    瀏覽量

    69176
  • 編程
    +關(guān)注

    關(guān)注

    90

    文章

    3724

    瀏覽量

    97458

原文標題:專注于你的算法 – 讓 NVIDIA CUDA Tile 來處理硬件細節(jié)

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    TTL電路分析、工作原理、使用方法

    今天給大家分享的是: TTL電路的分析 、TTL電路 工作原理 、TTL電路 使用方法 。
    發(fā)表于 05-18 09:06 ?7699次閱讀
    TTL電路分析、<b class='flag-5'>工作原理</b>、<b class='flag-5'>使用方法</b>

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    本博文是系列課程的一部分,旨在幫助開發(fā)者學習 NVIDIA CUDA Tile 編程,掌握構(gòu)建高性能 GPU 內(nèi)核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?5329次閱讀
    如何在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> <b class='flag-5'>Tile</b>中編寫高性能矩陣乘法

    IGBT模塊工作原理以及檢測方法

    IGBT模塊工作原理以及檢測方法,希望會對大家有所幫助
    發(fā)表于 08-09 18:30

    頻譜分析儀的工作原理使用方法

    頻譜分析儀的工作原理使用方法
    發(fā)表于 07-16 22:04

    NVIDIA Grid SERIES K2卡兼容CUDA

    你好我有一個裸機Windows 2002 RC 2 x64bit服務(wù)器,帶有物理NVIDIA Grid SERIES K2卡(不是vGPU vGRID)。這張卡與CUDA兼容嗎?我使用的軟件沒有將其
    發(fā)表于 09-10 17:18

    Grid K2 cuda下載位置是?

    我們有一個使用Grid K2機器的系統(tǒng)。我試圖在一個vm的側(cè)面設(shè)置cuda。當我使用驅(qū)動程序下載頁面時,它指向NVIDIA-Linux-x86_64-367.57版本的驅(qū)動程序似乎工作(它們安裝
    發(fā)表于 10-10 17:02

    NVIDIA CUDA 計算統(tǒng)一設(shè)備架構(gòu)

    NVIDIA CUDA參考文件
    發(fā)表于 03-05 08:00

    數(shù)碼管的工作原理使用方法

    的易用性與易學性,特別是當自己第一次動手編程點亮一個發(fā)光管時,相信對于初學者來說,一定很興奮,很有成就感吧!現(xiàn)在我們就趁熱打鐵,再向上跨一步,一起來學習一下數(shù)碼管的工作原理使用方法,這一期實驗將會...
    發(fā)表于 11-24 06:32

    SRAM的工作原理及其使用方法了解

    一、實驗?zāi)康模?.了解半導體靜態(tài)隨機讀寫存儲器SRAM的工作原理及其使用方法2.掌握半導體存儲器的字、位擴展技術(shù)3.用proteus設(shè)計、仿真基于AT89C51單片機的RAM擴展實驗二、實驗內(nèi)容
    發(fā)表于 12-08 06:14

    漏電保護插頭工作原理使用方法

    本文主要介紹了漏電保護插頭工作原理及漏電保護插頭使用方法。
    的頭像 發(fā)表于 12-18 10:51 ?2.9w次閱讀

    膠體蓄電池工作原理_膠體蓄電池使用方法

    本文主要闡述了膠體蓄電池工作原理使用方法。
    發(fā)表于 01-10 14:00 ?4063次閱讀

    CUDA核心是什么?CUDA核心的工作原理

    CUDA核心(Compute Unified Device Architecture Core)是NVIDIA圖形處理器(GPU)上的計算單元,用于執(zhí)行并行計算任務(wù)。每個CUDA核心可以執(zhí)行單個線程的指令,包括算術(shù)運算、邏輯操作
    發(fā)表于 09-27 09:38 ?1.2w次閱讀
    <b class='flag-5'>CUDA</b>核心是什么?<b class='flag-5'>CUDA</b>核心的<b class='flag-5'>工作原理</b>

    點焊機的工作原理使用方法

    點焊機是一種常用于金屬加工中的設(shè)備,它能夠?qū)⒔饘倭慵ㄟ^瞬間高溫融合在一起。這種焊接方式在汽車制造、電子設(shè)備制造、金屬加工等領(lǐng)域廣泛應(yīng)用。本文創(chuàng)想焊縫跟蹤小編將介紹點焊機的工作原理以及使用方法
    的頭像 發(fā)表于 03-26 17:50 ?6321次閱讀
    點焊機的<b class='flag-5'>工作原理</b>及<b class='flag-5'>使用方法</b>

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來 GPU 編程最核心的更新之一。借助 GPU
    的頭像 發(fā)表于 12-13 10:12 ?1465次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> <b class='flag-5'>Tile</b>簡化GPU編程

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。
    的頭像 發(fā)表于 02-10 10:31 ?547次閱讀
    金华市| 双柏县| 汕尾市| 昭平县| 鄯善县| 定州市| 额敏县| 麻城市| 长阳| 肇州县| 哈尔滨市| 固镇县| 达日县| 瑞安市| 甘肃省| 巩留县| 昌黎县| 新竹县| 六盘水市| 华亭县| 山东省| 防城港市| 苍溪县| 惠水县| 盐亭县| 西峡县| 晴隆县| 修水县| 平南县| 泰兴市| 平利县| 沅江市| 三河市| 安远县| 崇义县| 密山市| 咸阳市| 长汀县| 齐齐哈尔市| 蓝田县| 永泰县|