NVIDIA cuSPARSELt v0.2.0提高激活函數(shù)

英偉達(dá)推出 cuSPARSELt，版本0 .2.0 ，它提高了激活函數(shù)、偏差向量和批處理稀疏 GEMM 的性能。

NVIDIA CUSPASSELT 是一個高性能 CUDA 庫，專用于一般矩陣運(yùn)算，其中至少有一個操作數(shù)是稀疏矩陣：

$D=\alpha op(A)*op(B)+\beta op(C)$

在這個等式中， OP（A）和 OP（B）指的是原位操作，例如轉(zhuǎn)置和非轉(zhuǎn)置。

cuSPARSELt API 在算法/操作選擇、尾聲和矩陣特性（包括內(nèi)存布局、對齊和數(shù)據(jù)類型）方面提供了靈活性。

主要特征

NVIDIA Sparse MMA 張量核支持

混合精度計算支持：

FP16 I / O 、 FP32 張量核累加。

BFLOAT16 I / O ， FP32 張量核累積。

INT8 I / O ， INT32 張量核計算。

FP32 I / O ， TF32 張量核心計算。

TF32 I / O ， TF32 張量核心計算。

矩陣修剪和壓縮功能

自動調(diào)諧功能

關(guān)于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ，之前曾在美國 AL-Huntsville 的美國陸軍航空和導(dǎo)彈研究開發(fā)與工程中心工作。在那里，他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ，他曾在聯(lián)邦部門工作，協(xié)助 CUDA 的開發(fā)和優(yōu)化，以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗(yàn)證，最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年，他獲得了博士學(xué)位。計算機(jī)工程學(xué)位，專注于 GPU 的算法優(yōu)化。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5696

瀏覽量
110138

星星科技指導(dǎo)員
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個人主頁

Hot 使用microchip參考設(shè)計開發(fā)您的下一個基于USB-C PD的充電器
Hot 所有IC中半導(dǎo)體噪聲的特性如何估算基準(zhǔn)電壓源的噪聲

New 微電網(wǎng)系統(tǒng)控制方法和原理
New 飛輪儲能系統(tǒng)的核心及優(yōu)勢分析

精選推薦
更多

文章

資料

帖子

「智匯邊緣·雙核競放」AIoT大賽報名開啟，獎金+算力卡等你拿

jf_12300286
3天前

6013 閱讀

瑞薩RA系列FSP庫開發(fā)實(shí)戰(zhàn)指南之AGT低功耗定時器簡介和結(jié)構(gòu)框圖

瑞薩嵌入式小百科
3天前

3172 閱讀

押注機(jī)器人賽道！IQ10算力狂飆，高通攜手阿加犀加速機(jī)器人大小腦方案落地

章鷹觀察
3天前

9890 閱讀

霸州x華為：立一個存力支點(diǎn)，撬動華北平原的數(shù)據(jù)富礦

腦極體
3天前

6910 閱讀

實(shí)戰(zhàn) | 睿擎平臺SQLite：嵌入式設(shè)備上的數(shù)據(jù)持久化方案，從移植到應(yīng)用一文打通

jf_12300286
4天前

3975 閱讀

Go Vite通用的去中心化應(yīng)用平臺

唯愛萌meng
2.83 MB

2積分

1下載

Tanji Habbo加密流量嗅探工具

靚仔峰
0.30 MB

2積分

3下載

LMD Linux惡意軟件檢測工具

劉桂蘭
0.08 MB

2積分

3下載

Clipperz在線密碼管理器

李娓侖
8.58 MB

2積分

1下載

MuJoCo多關(guān)節(jié)動力學(xué)物理引擎

吳湛
28.99 MB

2積分

1下載

【RA-Eco-RA4M2開發(fā)板評測】在觸摸按鍵例程上添加0.96寸OLED驅(qū)動并顯示漢字

吉吉祥
5天前

1380 閱讀

【RA-Eco-RA4M2開發(fā)板評測】+ 光照強(qiáng)度檢測

jinglixixi
12天前

3389 閱讀

【RA-Eco-RA4M2開發(fā)板評測】+ 導(dǎo)航鍵模塊及其性能測試

jinglixixi
14天前

3606 閱讀

《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 26年第7期：2026.3.30--2025.4.15

電子人steve
17天前

4402 閱讀

從零開始學(xué)硬件 <3>demo源碼1.OceanOS-CM0-B1解讀

jf_28912132
19天前

5406 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

NVIDIA cuSPARSELt v0.2.0提高激活函數(shù)

評論