日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPUs上命令緩沖區(qū)的應(yīng)用實(shí)踐

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Wessam Bahnassi ? 2022-04-15 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這篇文章介紹了 NVIDIA GPUs 上命令緩沖區(qū)的最佳實(shí)踐。要在應(yīng)用程序中獲得高且一致的幀速率,請(qǐng)參閱所有高級(jí) API 性能提示。

命令緩沖區(qū)是從 CPU 發(fā)送要在 GPU 上執(zhí)行的命令的主要機(jī)制。通過(guò)遵循本文列出的最佳實(shí)踐,您可以通過(guò)最大化并行性、避免瓶頸和減少 GPU 上的空閑時(shí)間,在 CPU 和 GPU 上實(shí)現(xiàn)性能提升。

推薦

接受您負(fù)責(zé)實(shí)現(xiàn)和控制 GPU / CPU 并行性的事實(shí)。

向命令列表提交工作不會(huì)啟動(dòng) GPU 上的任何工作。

對(duì)ExecuteCommandList的調(diào)用最終在 GPU 上開(kāi)始工作。

在多個(gè)線程和內(nèi)核上并行并均勻地將工作記錄到多個(gè)命令列表中。

錄制命令是一項(xiàng) CPU 密集型操作,沒(méi)有驅(qū)動(dòng)程序線程來(lái)拯救。

命令列表不是自由線程,因此并行工作提交意味著提交多個(gè)命令列表。

請(qǐng)注意,設(shè)置和重置命令列表會(huì)帶來(lái)成本。

為了高效地提交并行工作,您仍然需要合理數(shù)量的命令列表。

圍欄出于各種原因(多個(gè)命令隊(duì)列、拾取查詢結(jié)果等)強(qiáng)制拆分命令列表。

嘗試將目標(biāo)設(shè)定為每幀 5-10 次ExecuteCommandList調(diào)用,并進(jìn)行足夠的 GPU 工作,以隱藏每次ExecuteCommandList調(diào)用的操作系統(tǒng)調(diào)度開(kāi)銷(xiāo)。

在上一次ExecuteCommandList調(diào)用之后,操作系統(tǒng)需要 50-80 微秒來(lái)安排命令列表。如果調(diào)用中的命令列表執(zhí)行速度快于此,則硬件隊(duì)列中存在氣泡。

使用GPUView檢查氣泡。

您可以將 3D 隊(duì)列上的圖形或計(jì)算工作與專(zhuān)用異步計(jì)算隊(duì)列上的計(jì)算工作重疊。

請(qǐng)記住,即使對(duì)于理論上可以與其他圖形或計(jì)算任務(wù)并行運(yùn)行的計(jì)算任務(wù), GPU 上并行工作的實(shí)際調(diào)度細(xì)節(jié)也可能不會(huì)產(chǎn)生期望的結(jié)果。

注意哪些異步計(jì)算和圖形工作負(fù)載可以一起調(diào)度。使用圍欄將正確的工作負(fù)載配對(duì)。

使用ExecuteIndirect靈活性最大限度地將 CPU 工作卸載到 GPU 并減少 CPU – GPU 同步點(diǎn)。

請(qǐng)使用ExecuteIndirect將場(chǎng)景消隱系統(tǒng)移植到 GPU 。

使用ExecuteIndirect計(jì)數(shù)緩沖區(qū)來(lái)控制命令的數(shù)量,而不是發(fā)出最大數(shù)量的命令并單獨(dú)預(yù)測(cè)未使用的命令。

NVIDIA 在ExecuteIndirect的Vulkan下為ExecuteIndirect提供附加功能

不推薦

幀描述符堆中的 CBV / SRV / UAV 描述符或 2K 采樣器不要超過(guò) 100 萬(wàn)個(gè)。

不要阻止ExecuteCommandList呼叫。

ExecuteCommandList打電話可能會(huì)很貴。同時(shí),可以在其他線程上記錄新命令。

每個(gè)命令隊(duì)列都可以使用自己的線程來(lái)提交ExecuteCommandList。

不要只在幾個(gè)命令列表中記錄所有內(nèi)容或大型場(chǎng)景部分。這限制了您充分使用所有 CPU 內(nèi)核的能力。

此外,構(gòu)建幾個(gè)大的命令列表意味著您可能會(huì)發(fā)現(xiàn)很難讓 GPU 保持空閑狀態(tài)。

不要只在錄制完所有內(nèi)容后才提交。您可能會(huì)浪費(fèi)使 GPU 與其他命令列表的錄制并行工作的機(jī)會(huì)。

不要期望大量的列表重用。

在對(duì)象可見(jiàn)性等方面,每幀通常有許多更改。

后處理可能是一個(gè)例外。

不要經(jīng)常混合使用繪圖、分派和復(fù)制命令。

嘗試將所有繪制命令組合在一起,并將命令分派到一起,依此類(lèi)推。

在同一隊(duì)列上頻繁混合不同類(lèi)型的工作可能會(huì)導(dǎo)致管道排水。

不要?jiǎng)?chuàng)建太多線程或太多命令列表。

太多的線程超額訂閱 CPU 資源,而太多的命令列表可能會(huì)積累太多的開(kāi)銷(xiāo)。

關(guān)于作者

Wessam Bahnassi 在 3D 引擎設(shè)計(jì)和優(yōu)化方面有 20 年的經(jīng)驗(yàn)。他最新發(fā)布的游戲包括《蝙蝠俠:阿卡姆騎士》和他自己的 120-FPS PSVR 太空射擊游戲超空。他是 ShaderX / GPU Pro / GPU Zen 系列書(shū)籍的撰稿人和章節(jié)編輯。他目前在 NVIDIA 的工作包括進(jìn)行優(yōu)化,并為該公司的幾個(gè)很酷的研究項(xiàng)目做出貢獻(xiàn)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11357

    瀏覽量

    226205
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5714

    瀏覽量

    110190
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用ls - addsw命令創(chuàng)建了一個(gè) dpsw,運(yùn)行測(cè)試過(guò)程中數(shù)據(jù)包速率達(dá)到1.2Gbps時(shí),dpsw不會(huì)遇到緩沖區(qū)丟棄如何解決?

    我使用 ls - addsw 命令創(chuàng)建了一個(gè) dpsw,在運(yùn)行測(cè)試過(guò)程中,我發(fā)現(xiàn)了一個(gè)問(wèn)題。 當(dāng)我的數(shù)據(jù)包速率達(dá)到 1.2Gbps 時(shí),dpsw 不會(huì)遇到緩沖區(qū)丟棄的情況,其速率只能達(dá)到 945Mbps。 請(qǐng)問(wèn)我應(yīng)該如何解決這個(gè)問(wèn)題? 相應(yīng)的 dprc 資源顯示在文件中。
    發(fā)表于 04-23 07:56

    DMA傳輸完成通知未在S32K324的半滿緩沖區(qū)時(shí)觸發(fā),為什么?

    S32K344發(fā)生第一次中斷時(shí)(半緩沖區(qū)已滿并發(fā)生中斷): 第一次中斷發(fā)生時(shí)S32K324: 我使用以下代碼片段來(lái)配置 DMA 傳輸: K344 的 TCD: TCD 對(duì)S32K324:
    發(fā)表于 04-02 08:10

    C語(yǔ)言的緩沖區(qū)(緩存)詳解

    緩沖區(qū)又稱為緩存,它是內(nèi)存空間的一部分。也就是說(shuō),在內(nèi)存空間中預(yù)留了一定的存儲(chǔ)空間,這些存儲(chǔ)空間用來(lái)緩沖輸入或輸出的數(shù)據(jù),這部分預(yù)留的空間就叫做緩沖區(qū)。   緩沖區(qū)根據(jù)其對(duì)應(yīng)的是輸入設(shè)
    發(fā)表于 01-14 07:30

    CW32L052串口的緩沖區(qū)機(jī)制

    默認(rèn)緩沖區(qū)配置 CW32L052的UART模塊支持硬件FIFO(通常為16字節(jié)),但HAL庫(kù)或用戶代碼需手動(dòng)管理接收緩沖區(qū)。若未顯式分配足夠大的軟件緩沖區(qū),可能導(dǎo)致數(shù)據(jù)溢出。 HAL庫(kù)緩沖區(qū)
    發(fā)表于 11-24 06:40

    飛凌嵌入式ElfBoard-標(biāo)準(zhǔn)IO接口之設(shè)置緩沖區(qū)

    件的stdio緩沖區(qū),應(yīng)以動(dòng)態(tài)或靜態(tài)的方式在堆中為該緩沖區(qū)分配一塊空間,而不是分配在棧的函數(shù)內(nèi)的自動(dòng)變量(局部變量)。如果buf等于NULL,那么會(huì)自動(dòng)分配一塊空間作為該文件的stdio緩沖
    發(fā)表于 11-14 09:02

    移植的lvgl,在運(yùn)行的時(shí)候,緩沖區(qū)無(wú)法釋放怎么解決?

    代碼在運(yùn)行的時(shí)候,只有l(wèi)vgl線程用于刷新,另一個(gè)線程只有一個(gè)串口打印。 當(dāng)運(yùn)行一段時(shí)間后,發(fā)現(xiàn),程序會(huì)在LVGl中,lv_refr.c這個(gè)庫(kù)下面第625行代碼, 在這一直判斷,看介紹說(shuō)是在等待釋放緩沖區(qū),求大神給個(gè)思路
    發(fā)表于 09-09 07:28

    對(duì)于CYUSB3014芯片,哪個(gè)函數(shù)可以讀取GPIF II端DMA緩沖區(qū)中緩存的實(shí)際數(shù)據(jù)量?

    : 1.哪個(gè)函數(shù)可以讀取USB端口緩沖區(qū)數(shù)據(jù)的實(shí)際字節(jié)數(shù)? 2. 哪個(gè)函數(shù)可以讀取 GPIF II DMA 緩沖區(qū)數(shù)據(jù)的實(shí)際字節(jié)數(shù)? 3、GPIF II 接口的標(biāo)志信號(hào)會(huì)受 USB 端口狀態(tài)的影響嗎?會(huì)怎樣,然后又會(huì)產(chǎn)生怎樣
    發(fā)表于 07-21 07:27

    如何清除CYUSB3014的緩沖區(qū)數(shù)據(jù)?USB接口數(shù)據(jù)什么時(shí)候發(fā)送到電腦?

    、如何清除GPIF II接口處對(duì)應(yīng)的DMA BUFFER數(shù)據(jù)?當(dāng)標(biāo)志設(shè)置為滿/非滿狀態(tài)時(shí),一旦 DMA 緩沖區(qū)已滿,標(biāo)志信號(hào)就會(huì)指示它已滿。清除DMA緩沖區(qū)數(shù)據(jù)后,相應(yīng)的標(biāo)志信號(hào)會(huì)改變嗎?會(huì)不會(huì)變成非滿狀態(tài)
    發(fā)表于 07-18 07:58

    USB緩沖區(qū)中的內(nèi)容滿了之后,是否有標(biāo)志位進(jìn)行反饋?

    USB緩沖區(qū)中的內(nèi)容滿了之后,是否有標(biāo)志位進(jìn)行反饋。
    發(fā)表于 07-17 07:13

    請(qǐng)問(wèn)USB緩沖區(qū)取數(shù)據(jù)可以多次取嗎?

    在使用USB軟件獲取數(shù)據(jù)是,下位機(jī)給我發(fā)送了13個(gè)32位數(shù)據(jù)到USB IN緩沖區(qū),為什么我調(diào)用API函數(shù)想要第一次取1個(gè)32位數(shù)據(jù),取完之后再取12位數(shù)據(jù),程序會(huì)卡死。
    發(fā)表于 07-16 08:12

    socket緩沖區(qū)溢出的原因?怎么解決?

    我在測(cè)試視頻通話時(shí) 發(fā)現(xiàn)丟幀特別嚴(yán)重 進(jìn)行了一些列的排查 發(fā)現(xiàn)socket本身似乎有問(wèn)題 通過(guò)測(cè)試代碼發(fā)現(xiàn)了大量的緩沖區(qū)溢出我嘗試換了不同的服務(wù)器 我還分別測(cè)試了wifi網(wǎng)卡和4G網(wǎng)卡 全都這樣
    發(fā)表于 06-19 06:34

    解析RZ/N2L CANFD模塊的緩沖區(qū)機(jī)制(2)

    在工業(yè)自動(dòng)化、智能交通、機(jī)器人等領(lǐng)域,CANFD(CAN with Flexible Data-Rate)技術(shù)正逐步取代傳統(tǒng)CAN,以適應(yīng)更高的數(shù)據(jù)速率和更復(fù)雜的通信需求。本文將深入解析RZ/N2L CANFD模塊的緩沖區(qū)機(jī)制,幫助工程師更高效地管理CAN消息,提高系統(tǒng)性能。
    的頭像 發(fā)表于 05-19 14:13 ?1683次閱讀
    解析RZ/N2L CANFD模塊的<b class='flag-5'>緩沖區(qū)</b>機(jī)制(2)

    解析RZ/N2L CANFD模塊的緩沖區(qū)機(jī)制(1)

    在工業(yè)自動(dòng)化、智能交通、機(jī)器人等領(lǐng)域,CANFD(CAN with Flexible Data-Rate)技術(shù)正逐步取代傳統(tǒng)CAN,以適應(yīng)更高的數(shù)據(jù)速率和更復(fù)雜的通信需求。本文將深入解析RZ/N2L CANFD模塊的緩沖區(qū)機(jī)制,幫助工程師更高效地管理CAN消息,提高系統(tǒng)性能。
    的頭像 發(fā)表于 05-19 14:10 ?1528次閱讀
    解析RZ/N2L CANFD模塊的<b class='flag-5'>緩沖區(qū)</b>機(jī)制(1)

    FX3 Socket緩沖區(qū)切換的最大時(shí)間是多少?

    FX3_Programmers_Manual 文檔的第 10 章提到“每個(gè)緩沖區(qū)緩沖區(qū)切換開(kāi)銷(xiāo)為 550 - 900 ns”。 Getting_Started_with_EZ-USB_FX3 文檔
    發(fā)表于 05-16 07:51

    在傳輸DMA通道中的所有緩沖區(qū)后,DMA標(biāo)志(就緒和部分)被卡住了是怎么回事?

    2 次傳輸,再次卡住的時(shí)間更短,然后順利傳輸數(shù)據(jù)。 Buffers working until they get stuck緩沖器在卡住之前一直在工作 前兩個(gè)緩沖區(qū)的標(biāo)志 A()和 B(下),然后
    發(fā)表于 05-16 07:18
    慈溪市| 石楼县| 波密县| 内黄县| 钟山县| 库车县| 龙泉市| 小金县| 汪清县| 章丘市| 宁都县| 柘荣县| 方正县| 南川市| 安福县| 阳谷县| 白玉县| 哈巴河县| 县级市| 裕民县| 柘荣县| 治县。| 柘城县| 屏南县| 和龙市| 定襄县| 松阳县| 石景山区| 凤台县| 万山特区| 达孜县| 大邑县| 建瓯市| 康保县| 自治县| 友谊县| 崇仁县| 抚宁县| 理塘县| 旌德县| 大荔县|