Nsight Compute 的這一版本擴(kuò)展了現(xiàn)有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應(yīng)用程序中 CUDA API 調(diào)用和內(nèi)核啟動(dòng)的完整范圍。度量與整個(gè)范圍相關(guān)聯(lián),而不是單個(gè)內(nèi)核。這允許該工具在不序列化的情況下執(zhí)行內(nèi)核,并支持出于正確性或性能原因而需要并發(fā)運(yùn)行的評(píng)測(cè)內(nèi)核。范圍由起點(diǎn)和終點(diǎn)標(biāo)記組成;并包括所有 CUDA API 調(diào)用和從任何 CPU 線程在這些標(biāo)記之間啟動(dòng)的內(nèi)核。
范圍標(biāo)記可以使用以下任一方法定義:
分析器啟動(dòng)/停止 API

NVTX 系列圖 1 。范圍回放可視化:捕獲范圍后,每個(gè)過(guò)程都會(huì)收集整個(gè)范圍的性能信息。
記憶分析
在 A100 上評(píng)測(cè)時(shí),內(nèi)存分析部分中的一個(gè)新二級(jí)緩存收回策略表可以幫助您了解各種 緩存逐出策略 的訪問(wèn)次數(shù)和達(dá)到的命中率。在同一部分中,二級(jí)緩存表現(xiàn)在有一個(gè)新的 ECC 行,用于顯示通過(guò)在 GPU 上啟用硬件糾錯(cuò)代碼而創(chuàng)建的流量。

圖 2 。內(nèi)存工作負(fù)載分析表的改進(jìn): ECC 和二級(jí)緩存逐出策略信息。
引導(dǎo)分析
Nsight Compute 現(xiàn)在通過(guò)在打開報(bào)表時(shí)在摘要和詳細(xì)信息頁(yè)面之間動(dòng)態(tài)選擇,可以更輕松地在多結(jié)果集合中選擇初始分析目標(biāo)。規(guī)則被擴(kuò)展以檢測(cè)非融合浮點(diǎn)指令作為優(yōu)化機(jī)會(huì)。最后,但并非最不重要的一點(diǎn)是,當(dāng)觸發(fā)未恢復(fù)的內(nèi)存訪問(wèn)規(guī)則時(shí),它們會(huì)顯示一個(gè)包含五個(gè)最有價(jià)值實(shí)例的表,從而更容易在源頁(yè)面上檢查和解決它們。

圖 3 。打開多結(jié)果報(bào)告現(xiàn)在會(huì)顯示摘要頁(yè)面,允許您對(duì)結(jié)果進(jìn)行排序并決定優(yōu)化順序。

圖 4 。這兩種未恢復(fù)的內(nèi)存訪問(wèn)規(guī)則都以更簡(jiǎn)潔、更有序的格式呈現(xiàn)結(jié)果。
其他改進(jìn)
進(jìn)一步的改進(jìn)包括 Occupancy Calculator 自動(dòng)更新。源頁(yè)面中 Register Dependency 列還有一個(gè)新的“執(zhí)行的線程指令”度量和注冊(cè)名工具提示,以及 NVLink 更新。
關(guān)于作者
Chaitrali Joshi 是 NVIDIA 的產(chǎn)品營(yíng)銷經(jīng)理,專注于電信 5G 系統(tǒng)的設(shè)計(jì)和開發(fā)。她對(duì)網(wǎng)絡(luò)空間有著深入的了解,是移動(dòng)通信系統(tǒng)和云棧方面的專家。在英特爾之前,她是一名領(lǐng)導(dǎo),向開發(fā)人員宣傳電信技術(shù)和邊緣計(jì)算技術(shù)。她獲得了加利福尼亞大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,戴維斯專注于軟件定義的網(wǎng)絡(luò)和多址邊緣計(jì)算( MEC )。
Jackson Marusarz 是 NVIDIA 計(jì)算開發(fā)工具的產(chǎn)品經(jīng)理。他關(guān)注如何使用工具使所有開發(fā)人員能夠輕松高效地評(píng)測(cè)、調(diào)試和優(yōu)化 CUDA 代碼。杰克遜擁有 Boulder 科羅拉多大學(xué)計(jì)算機(jī)工程碩士學(xué)位。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5714瀏覽量
110190 -
gpu
+關(guān)注
關(guān)注
28文章
5307瀏覽量
136155 -
代碼
+關(guān)注
關(guān)注
30文章
4981瀏覽量
74482
發(fā)布評(píng)論請(qǐng)先 登錄
openKylin受邀參加Linux內(nèi)核領(lǐng)域頂級(jí)技術(shù)峰會(huì)
博通集成BK7239N評(píng)測(cè)
Visionfive的串口調(diào)試與編譯內(nèi)核
衷心感謝《瑞薩生態(tài)工作室》 ,授予我“優(yōu)秀評(píng)測(cè)獎(jiǎng)”!
請(qǐng)問(wèn)UART內(nèi)核在接收數(shù)據(jù)時(shí)有哪些具體操作?UART內(nèi)核在接收數(shù)據(jù)完成后會(huì)進(jìn)行哪些處理?
將蜂鳥E203的內(nèi)核移植到fpga之后該怎么進(jìn)行二次開發(fā)呢?
在Ubuntu 虛擬機(jī)中使用verilator對(duì)蜂鳥E203內(nèi)核進(jìn)行仿真
沒(méi)有開發(fā)板的情況,在Vivado上進(jìn)行蜂鳥E203的基礎(chǔ)內(nèi)核的drystone跑分
沒(méi)有開發(fā)板的情況下,在Vivado上進(jìn)行蜂鳥E203的基礎(chǔ)內(nèi)核的drystone跑分
如何對(duì)蜂鳥e203內(nèi)核乘除法器進(jìn)行優(yōu)化
蜂鳥E203內(nèi)核優(yōu)化方法
【匠芯創(chuàng)D133CBS KunLun Pi開發(fā)板試用體驗(yàn)】開箱評(píng)測(cè)
強(qiáng)實(shí)時(shí)運(yùn)動(dòng)控制內(nèi)核MotionRT750(一):驅(qū)動(dòng)安裝、內(nèi)核配置與使用
使用Nsight Compute進(jìn)行高級(jí)內(nèi)核評(píng)測(cè)
評(píng)論