日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過稀疏支持和Transformer優(yōu)化增強(qiáng)AI推理以最小化延遲

星星科技指導(dǎo)員 ? 來源:嵌入式計算設(shè)計 ? 作者:Saumitra Jagdale ? 2022-07-04 09:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

由于各行業(yè)對實時人工智能應(yīng)用的需求不斷增加,人工智能模型近來變得更加復(fù)雜。這需要以最佳方式部署高性能、尖端的推理系統(tǒng)。TensorRT 的最新版本通過引入額外的功能來解決這些問題,從而為其客戶提供更增強(qiáng)和響應(yīng)更靈敏的對話式 AI 應(yīng)用程序。

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一個高性能推理平臺,對于利用 NVIDIA Tensor Core GPU 的強(qiáng)大功能至關(guān)重要。TensorRT 8 是一個軟件開發(fā)套件,其增強(qiáng)功能旨在提高性能和準(zhǔn)確性,以應(yīng)對在邊緣和嵌入式設(shè)備中發(fā)生的越來越多的 AI 推理。它允許對 TensorFlow 和 PyTorch 神經(jīng)網(wǎng)絡(luò)進(jìn)行廣泛的計算推理。

與純 CPU 平臺相比,TensorRT 可提供高達(dá) 40 倍的吞吐量,同時最大限度地減少延遲。它允許您從任何框架開始,并在生產(chǎn)中快速優(yōu)化、驗證和部署經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性,可以修剪對網(wǎng)絡(luò)整體計算沒有貢獻(xiàn)的弱連接。此外,TensorRT 8 支持變壓器優(yōu)化和 BERT-Large。Transformer 優(yōu)化提高了性能,而量化感知訓(xùn)練提高了準(zhǔn)確性。

NVIDIA 的 TensorRT 8 有哪些新功能?

推理的目的是從訓(xùn)練階段盡可能多地保留準(zhǔn)確性。訓(xùn)練后的模型可以在硬件設(shè)備上運(yùn)行,以獲得客戶最低的響應(yīng)時間和最大的吞吐量。但是,盡可能精確的必要性有時可能會與邊緣可用的內(nèi)存量和吞吐量發(fā)生沖突。訓(xùn)練有素、高度準(zhǔn)確的模型可能運(yùn)行速度太慢。

因此,TensorRT 版本 8 結(jié)合了深度學(xué)習(xí)推理應(yīng)用或經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的最新進(jìn)展,以了解數(shù)據(jù)如何影響響??應(yīng)。它使用兩個主要功能將語言查詢推理時間減少一半:

NVIDIA 安培架構(gòu)的稀疏性

深度神經(jīng)網(wǎng)絡(luò)擅長各種任務(wù),例如計算機(jī)視覺、語音識別和自然語言處理。隨著處理這些神經(jīng)網(wǎng)絡(luò)所需的計算能力增加,有效的建模和計算變得越來越重要。

Sparse 是一種適用于具有 NVIDIA Ampere 架構(gòu)的 GPU 的新性能方法,可通過減少計算過程來提高開發(fā)人員的效率。深度學(xué)習(xí)模型的其他方面不如其他方面重要,有些甚至可以為零。因此,神經(jīng)網(wǎng)絡(luò)不需要對特定的權(quán)重或參數(shù)進(jìn)行計算。因此,NVIDIA 可以通過使用稀疏性將模型的權(quán)重減少近一半來提高性能、吞吐量和延遲。

通過變壓器優(yōu)化減少推理計算

在 TensorRT 8 中,性能增強(qiáng)是通過變壓器優(yōu)化實現(xiàn)的。量化開發(fā)人員可以利用經(jīng)過訓(xùn)練的模型通過 8 位計算 (INT8) 執(zhí)行推理。這大大減少了 Tensor 核心中的推理計算和存儲。INT8 越來越多地用于優(yōu)化機(jī)器學(xué)習(xí)框架,例如 TensorFlow 和 NVIDIA 的 TensorRT,以減少內(nèi)存和計算需求。因此,NVIDIA 可以在保持準(zhǔn)確性的同時在 Tensor RT 8 上提供非常高的性能。

例如,量化感知訓(xùn)練 (QAT) 有可能使準(zhǔn)確率翻倍。因此,與舊版本 TensorRT 7 相比,TensorRT 8 可以將許多模型的性能提高一倍。

ensorRT 部署在眾多行業(yè)中

TensorRT 更好的性能和準(zhǔn)確性使其成為醫(yī)療保健、汽車、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)和零售等行業(yè)的熱門選擇。例如,Tensor RT 用于為 GE Healthcare 的心血管超聲系統(tǒng)供電。這家數(shù)字診斷解決方案提供商使用該技術(shù)在其 Vivid E95 掃描儀上加速自動心臟視圖檢測。通過使用改進(jìn)的視圖檢測算法,心臟病專家可以在早期階段做出更準(zhǔn)確的診斷和檢測疾病。此外,TensorRT 還被 Verizon、福特、美國郵政服務(wù)、美國運(yùn)通等知名公司使用。

隨著 Tensor RT 8 的發(fā)布,NVIDIA 還公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的雙向編碼器表示 (BERT) 是一種基于 Transformer 的機(jī)器學(xué)習(xí)技術(shù),用于預(yù)訓(xùn)練自然語言處理。BERT-Large 模型的分析時間僅為 1.2 毫秒,可以實時響應(yīng)自然語言查詢。這意味著公司可以將其模型的大小增加一倍或三倍,以獲得更高的準(zhǔn)確性。

許多推理服務(wù)在幕后使用諸如 BERT-Large 之類的語言模型。另一方面,基于語言的應(yīng)用程序通常無法識別細(xì)微差別或情感,從而導(dǎo)致整體體驗不佳?,F(xiàn)在,公司可以使用 TensorRT 8 在幾毫秒內(nèi)部署整個工作流程。這些突破可以為新一代對話式 AI 應(yīng)用程序鋪平道路,為用戶提供更智能和低延遲的體驗。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    4018

    瀏覽量

    143629
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50455

    瀏覽量

    267518
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8569

    瀏覽量

    137358
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    直播預(yù)告|玄鐵 x Canonical:從本地推理AI 工廠,基于 RISC-V 的 AI 基礎(chǔ)設(shè)施創(chuàng)新路徑探討

    大模型浪潮下,AI 算力正向“本地推理”與“AI 工廠”兩極延伸,而傳統(tǒng)架構(gòu)在低延遲與規(guī)模之間往往顧此失彼。RISC-V 的可定制特性,提
    發(fā)表于 05-15 12:15

    HM博學(xué)谷狂野AI大模型第四期

    如何減少 GPU 顯存碎片,提高吞吐量。通過推理引擎源碼的調(diào)試與優(yōu)化,開發(fā)者將學(xué)會如何在不犧牲模型效果的前提下,榨干硬件性能,實現(xiàn)毫秒級的低延遲響應(yīng),這是將
    發(fā)表于 05-01 17:30

    黑馬-Java+AI新版V16零基礎(chǔ)就業(yè)班百度云網(wǎng)盤下載+Java+AI全棧開發(fā)工程師

    AI 能力有兩條典型路徑。初級做法是獨(dú)立部署 AI 模型服務(wù)(Python 推理端),Java 業(yè)務(wù)層通過 HTTP/RPC 調(diào)用獲取結(jié)果。這種方式開發(fā)快、解耦好,但
    發(fā)表于 05-01 11:29

    微電網(wǎng)經(jīng)濟(jì)調(diào)度理論:成本最小化與效益最大化的優(yōu)化模型

    構(gòu)建微電網(wǎng)經(jīng)濟(jì)調(diào)度優(yōu)化模型,需先明確模型的核心構(gòu)成要素,包括目標(biāo)函數(shù)、約束條件與優(yōu)化變量,三者相互關(guān)聯(lián)、相互制約,共同決定了優(yōu)化模型的科學(xué)性與實用性。其中,目標(biāo)函數(shù)是模型的核心導(dǎo)向,明確成本
    的頭像 發(fā)表于 03-12 11:05 ?291次閱讀
    微電網(wǎng)經(jīng)濟(jì)調(diào)度理論:成本<b class='flag-5'>最小化</b>與效益最大化的<b class='flag-5'>優(yōu)化</b>模型

    從英偉達(dá)電話會看Agentic AI推理與FPGA價值

    需求、低延遲。英偉達(dá)明確判斷:Agentic AI 已達(dá)到實用拐點,算力已經(jīng)具備盈利性,推理延遲成為 AI 基礎(chǔ)設(shè)施的競爭焦點。
    的頭像 發(fā)表于 03-04 17:07 ?1352次閱讀
    從英偉達(dá)電話會看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>與FPGA價值

    Transformer 入門:從零理解 AI 大模型的核心原理

    Normalization) Transformer 使用的是層歸一,它在每一層對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn): 計算步驟 ini 體驗AI代碼助手 代碼解讀 復(fù)制代碼 輸入向量:x = [
    發(fā)表于 02-10 16:33

    請問有沒有最小化系統(tǒng)程序,編程時可以快速設(shè)置?

    請問有沒有最小化系統(tǒng)程序,編程時可以快速設(shè)置
    發(fā)表于 12-23 08:16

    AI狂飆背后的隱形冠軍:解碼AI服務(wù)器與MLCC的共生革命

    政策支持與市場需求驅(qū)動下,推出深度求索(Deepseek)為代表的推理AI模型,推動技術(shù)從“生成”向“決策”躍遷,并在部分領(lǐng)域形成國際領(lǐng)先優(yōu)勢。 DeepSeek在大語言模型
    的頭像 發(fā)表于 11-13 11:54 ?972次閱讀
    <b class='flag-5'>AI</b>狂飆背后的隱形冠軍:解碼<b class='flag-5'>AI</b>服務(wù)器與MLCC的共生革命

    工業(yè)視覺網(wǎng)關(guān):RK3576賦能多路檢測與邊緣AI

    AI推理6TOPS NPU 支持缺陷檢測(焊點/絲印/劃傷)、尺寸測量、異常動作識別等模型,先篩后存,減少云側(cè)負(fù)載。MES/追溯集成通過工單/條碼綁定檢測結(jié)果與圖片片段,輸出 檢測記錄
    發(fā)表于 10-16 17:56

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    復(fù)制人類智能的AI---AGI。 走向AGI的五個層次發(fā)現(xiàn)階段: ①L1,聊天機(jī)器人:具備基礎(chǔ)的對話能力,能夠理解和回應(yīng)簡單的文本輸入 ②L2,推理者:具備基本的邏輯推理能力,能夠分析復(fù)雜信息并進(jìn)行推斷
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    主要步驟: ①溯因②假說③實驗 1、科學(xué)推理的類型 ①演繹②歸納 2、自動科學(xué)發(fā)現(xiàn)框架 AI-笛卡兒-----自動科學(xué)發(fā)現(xiàn)框架,利用數(shù)據(jù)和知識來生成和評估候選的科學(xué)假說。 4項規(guī)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    Transformer 模型的后繼者 二、用創(chuàng)新方法實現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊的指令集架構(gòu)(ISA)。優(yōu)勢如下: ①模
    發(fā)表于 09-12 17:30

    RK3576助力智慧安防:8路高清采集與AI識別

    在智慧城市和數(shù)字園區(qū)的建設(shè)過程中,安防監(jiān)控系統(tǒng)正從“被動記錄”走向“主動識別與分析”。隨著AI算法的成熟和高清視頻處理能力的提升,市場對多路視頻采集、實時拼接、智能識別的需求日益增強(qiáng)。 米爾電子
    發(fā)表于 08-22 17:41

    睿海光電高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    推理任務(wù)響應(yīng)延遲降低30%,多租戶帶寬隔離效率提升25%。 亞洲頭部智算中心:采用睿海定制液冷光模塊,GPU集群訓(xùn)練效率提升18%,PUE值優(yōu)化至1.1以下。 歐洲車企
    發(fā)表于 08-13 19:01

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    網(wǎng)絡(luò)智能診斷平臺。通過對私有網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實用性。該方案實現(xiàn)了網(wǎng)絡(luò)全流量深度解析能力與AI智能
    發(fā)表于 07-16 15:29
    建昌县| 土默特右旗| 桦南县| 合阳县| 凤翔县| 库车县| 镇沅| 绥中县| 西林县| 潜江市| 乐都县| 塘沽区| 扎鲁特旗| 宝清县| 卢氏县| 紫金县| 无锡市| 施甸县| 泸西县| 长乐市| 建平县| 汉寿县| 桂东县| 淮南市| 临海市| 桐乡市| 黎川县| 康定县| 新竹县| 化德县| 普定县| 安龙县| 乌审旗| 苗栗市| 大同市| 霍山县| 无锡市| 青铜峡市| 博罗县| 南漳县| 永州市|