日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA TensorRT優(yōu)化T5和GPT-2

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-03-31 17:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這個(gè)transformer 體系結(jié)構(gòu)完全改變了(雙關(guān)語(yǔ))自然語(yǔ)言處理( NLP )的領(lǐng)域。近年來(lái),在 transformer 構(gòu)建塊 BERT 、 GPT 和 T5 上構(gòu)建了許多新穎的網(wǎng)絡(luò)體系結(jié)構(gòu)。隨著品種的增加,這些型號(hào)的尺寸也迅速增加。

雖然較大的神經(jīng)語(yǔ)言模型通常會(huì)產(chǎn)生更好的結(jié)果,但將它們部署到生產(chǎn)環(huán)境中會(huì)帶來(lái)嚴(yán)重的挑戰(zhàn),尤其是對(duì)于在線應(yīng)用程序,在這些應(yīng)用程序中,幾十毫秒的額外延遲可能會(huì)對(duì)用戶體驗(yàn)產(chǎn)生顯著的負(fù)面影響。

使用最新的TensorRT8.2 ,我們優(yōu)化了 T5 和 GPT-2 模型,以實(shí)現(xiàn)實(shí)時(shí)推理。您可以將 T5 或 GPT-2 模型轉(zhuǎn)換為 TensorRT 引擎,然后將此引擎用作推理工作流中原始 PyTorch 模型的插件替換。與 PyTorch GPU 推理相比,此優(yōu)化導(dǎo)致延遲減少 3-6 倍,與 PyTorch CPU 推理相比,延遲減少 9-21 倍。

在這篇文章中,我們將向您詳細(xì)介紹如何實(shí)現(xiàn)相同的延遲減少,使用我們最新發(fā)布的基于 Hugging Face transformers 的示例腳本和筆記本,使用 GPT-2 進(jìn)行開(kāi)放式文本生成,使用 T5 進(jìn)行翻譯和摘要。

T5 和 GPT-2 簡(jiǎn)介

在本節(jié)中,我們將簡(jiǎn)要介紹 T5 和 GPT-2 模型。

T5 用于回答問(wèn)題、總結(jié)、翻譯和分類

T5或文本到文本傳輸 transformer 是谷歌最近創(chuàng)建的一種體系結(jié)構(gòu)。它將所有自然語(yǔ)言處理( NLP )任務(wù)重新構(gòu)造為統(tǒng)一的文本到文本格式,其中輸入和輸出始終是文本字符串。 T5 的體系結(jié)構(gòu)允許將相同的模型、損失函數(shù)和超參數(shù)應(yīng)用于任何 NLP 任務(wù),如機(jī)器翻譯、文檔摘要、問(wèn)答和分類任務(wù),如情感分析。

T5 模式的靈感來(lái)源于遷移學(xué)習(xí)在 NLP 中產(chǎn)生了最先進(jìn)的結(jié)果。遷移學(xué)習(xí)背后的原理是,基于大量可用的未經(jīng)訓(xùn)練的數(shù)據(jù)和自我監(jiān)督任務(wù)的模型可以在較小的任務(wù)特定標(biāo)記數(shù)據(jù)集上針對(duì)特定任務(wù)進(jìn)行微調(diào)。事實(shí)證明,這些模型比從頭開(kāi)始針對(duì)特定任務(wù)數(shù)據(jù)集訓(xùn)練的模型具有更好的結(jié)果。

基于遷移學(xué)習(xí)的概念, Google 在用統(tǒng)一的文本到文本轉(zhuǎn)換器探索遷移學(xué)習(xí)的局限性中提出了 T5 模型。在本文中,他們還介紹了龐大的干凈爬網(wǎng)語(yǔ)料庫(kù)( C4 )數(shù)據(jù)集。在該數(shù)據(jù)集上預(yù)訓(xùn)練的 T5 模型在許多下游 NLP 任務(wù)上實(shí)現(xiàn)了最先進(jìn)的結(jié)果。已發(fā)布的預(yù)訓(xùn)練 T5 車型的參數(shù)范圍高達(dá) 3B 和 11B 。

GPT-2 用于生成優(yōu)秀的類人文本

生成性預(yù)訓(xùn)練 transformer 2 (GPT-2)是 OpenAI 最初提出的一種自回歸無(wú)監(jiān)督語(yǔ)言模型。它由 transformer 解碼器塊構(gòu)建,并在非常大的文本語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,以預(yù)測(cè)段落中的下一個(gè)單詞。它生成優(yōu)秀的類人文本。更大的 GPT-2 模型,最大參數(shù)達(dá)到 15 億,通常能寫(xiě)出更好、更連貫的文本。

使用 TensorRT 部署 T5 和 GPT-2

使用 TensorRT 8.2 ,我們通過(guò)構(gòu)建并使用 TensorRT 發(fā)動(dòng)機(jī)作為原始 PyTorch 模型的替代品,優(yōu)化了 T5 和 GPT-2 模型。我們將帶您瀏覽scripts和 Jupyternotebooks,并重點(diǎn)介紹基于擁抱面部變形金剛的重要內(nèi)容。有關(guān)更多信息,請(qǐng)參閱示例腳本和筆記本以獲取詳細(xì)的分步執(zhí)行指南。

設(shè)置

最方便的開(kāi)始方式是使用 Docker 容器,它為實(shí)驗(yàn)提供了一個(gè)隔離、獨(dú)立和可復(fù)制的環(huán)境。

構(gòu)建并啟動(dòng) TensorRT 容器:

pYYBAGJFc9SAPvxgAAAaKW2vWGI162.png

這些命令啟動(dòng) Docker 容器和 JupyterLab 。在 web 瀏覽器中打開(kāi) JupyterLab 界面:pYYBAGJFdAKAcbUvAAAEMDAJOjM560.png在 JupyterLab 中,要打開(kāi)終端窗口,請(qǐng)選擇?File?、?New?、?Terminal?。編譯并安裝 TensorRT OSS 包:

poYBAGJFdA2AQncNAAALSmQMGn0122.png

現(xiàn)在,您已經(jīng)準(zhǔn)備好繼續(xù)使用模型進(jìn)行實(shí)驗(yàn)。在下面的順序中,我們將演示 T5 模型的步驟。下面的代碼塊并不意味著可以復(fù)制粘貼運(yùn)行,而是引導(dǎo)您完成整個(gè)過(guò)程。為了便于復(fù)制,請(qǐng)參閱 GitHub 存儲(chǔ)庫(kù)上的notebooks。

在高層次上,使用 TensorRT 優(yōu)化用于部署的擁抱面 T5 和 GPT-2 模型是一個(gè)三步過(guò)程:

從 HuggingFace 模型動(dòng)物園下載模型。

將模型轉(zhuǎn)換為優(yōu)化的 TensorRT 執(zhí)行引擎。

使用 TensorRT 引擎進(jìn)行推理。

使用生成的引擎作為 HuggingFace 推理工作流中原始 PyTorch 模型的插件替換。

從 HuggingFace 模型動(dòng)物園下載模型

首先,從 HuggingFace 模型中心下載原始的 Hugging Face PyTorch T5 模型及其關(guān)聯(lián)的標(biāo)記器。

poYBAGJFdCeAbgptAAANxtLgEjs368.png

然后,您可以將此模型用于各種 NLP 任務(wù),例如,從英語(yǔ)翻譯為德語(yǔ):

pYYBAGJFdC-ATa1bAAAU9hCPQ6k530.png

TensorRT 8.2 支持 GPT-2 至“ xl ”版本( 1.5B 參數(shù))和 T5 至 11B 參數(shù),這些參數(shù)可在 HuggingFace model zoo 上公開(kāi)獲得。根據(jù) GPU 內(nèi)存可用性,也可支持較大型號(hào)。

將模型轉(zhuǎn)換為優(yōu)化的 TensorRT 執(zhí)行引擎。

在將模型轉(zhuǎn)換為 TensorRT 引擎之前,請(qǐng)將 PyTorch 模型轉(zhuǎn)換為中間通用格式。 ONNX 是機(jī)器學(xué)習(xí)深度學(xué)習(xí)模型的開(kāi)放格式。它使您能夠?qū)?TensorFlow 、 PyTorch 、 MATLAB 、 Caffe 和 Keras 等不同框架中的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)模型轉(zhuǎn)換為單一的統(tǒng)一格式。

轉(zhuǎn)換為 ONNX

對(duì)于 T5 型號(hào),使用實(shí)用功能分別轉(zhuǎn)換編碼器和解碼器。

pYYBAGJFdDiACUfkAAAhAI8eZnI041.png

轉(zhuǎn)換為 TensorRT

現(xiàn)在,您已經(jīng)準(zhǔn)備好解析 T5 ONNX 編碼器和解碼器,并將它們轉(zhuǎn)換為優(yōu)化的 TensorRT 引擎。由于 TensorRT 執(zhí)行了許多優(yōu)化,例如融合操作、消除轉(zhuǎn)置操作和內(nèi)核自動(dòng)調(diào)優(yōu),以在目標(biāo) GPU 體系結(jié)構(gòu)上找到性能最佳的內(nèi)核,因此此轉(zhuǎn)換過(guò)程可能需要一些時(shí)間。

pYYBAGJFdE6AQLHtAAAcENHunE8781.png

使用 TensorRT 引擎進(jìn)行推理

最后,您現(xiàn)在有了一個(gè)針對(duì) T5 模型的優(yōu)化 TensorRT 引擎,可以進(jìn)行推斷。

pYYBAGJFdGyATjkzAAAfAAkkvFE954.png

類似地,對(duì)于 GPT-2 模型,您可以按照相同的過(guò)程生成 TensorRT 引擎。優(yōu)化的 TensorRT 引擎可作為 HuggingFace 推理工作流中原始 PyTorch 模型的插件替代品。

TensorRT transformer 優(yōu)化細(xì)節(jié)

基于轉(zhuǎn)換器的模型是 transformer 編碼器或解碼器塊的堆棧。編碼器(解碼器)塊具有相同的結(jié)構(gòu)和參數(shù)數(shù)量。 T5 由 transformer 編碼器和解碼器的堆棧組成,而 GPT-2 僅由 transformer 解碼器塊組成(圖 1 )。

t5-architecture.png

圖 1a 。 T5 架構(gòu)

poYBAGJFc5-AeDgfAABnQisiZW4320.png

圖 1b 。 GPT-2 體系結(jié)構(gòu)

每個(gè) transformer 塊,也稱為自我注意塊,通過(guò)使用完全連接的層將輸入投影到三個(gè)不同的子空間,稱為查詢( Q )、鍵( K )和值( V ),由三個(gè)投影組成。然后將這些矩陣轉(zhuǎn)換為 QT和 KT用于計(jì)算標(biāo)準(zhǔn)化點(diǎn)積注意值,然后與 V 組合T生成最終輸出(圖 2 )。

pYYBAGJFc6GAKbmGAAC5J-rjuz4450.png

圖 2 。自我注意塊

TensorRT 通過(guò)逐點(diǎn)層融合優(yōu)化自我注意塊:

還原與電源操作相融合(用于圖層模板和剩余添加圖層)。

電子秤與 softmax 融合在一起。

GEMM 與 ReLU / GELU 激活融合。

此外, TensorRT 還優(yōu)化了推理網(wǎng)絡(luò):

消除轉(zhuǎn)置操作。

將三個(gè) KQV 投影融合為一個(gè) GEMM 。

當(dāng)指定 FP16 模式時(shí),控制逐層精度以保持精度,同時(shí)運(yùn)行 FP16 中計(jì)算最密集的運(yùn)算。

TensorRT 對(duì) PyTorch CPU 和 GPU 基準(zhǔn)

通過(guò) TensorRT 進(jìn)行的優(yōu)化,我們看到 PyTorch GPU 推理的加速比高達(dá) 3-6 倍,而 PyTorch CPU 推理的加速比高達(dá) 9-21 倍。

圖 3 顯示了批量為 1 的 T5-3B 模型的推理結(jié)果,該模型用于將短短語(yǔ)從英語(yǔ)翻譯成德語(yǔ)。 A100 GPU 上的 TensorRT 引擎與在雙插槽 Intel Platinum 8380 CPU 上運(yùn)行的 PyTorch 相比,延遲減少了 21 倍。

poYBAGJFc6KAct-cAABCQhQEBKM339.png

圖 3 。 A100 GPU 上的 T5-3B 模型推斷比較 TensorRT 提供的延遲比 PyTorch CPU 推斷小 21 倍。

CPU :英特爾白金 8380 , 2 個(gè)插槽。
GPU:NVIDIA A100 PCI Express 80GB 。軟件: PyTorch 1.9 , TensorRT 8.2.0 EA 。
任務(wù):“將英語(yǔ)翻譯成德語(yǔ):這很好?!?/p>

結(jié)論

在這篇文章中,我們向您介紹了如何將擁抱臉 PyTorch T5 和 GPT-2 模型轉(zhuǎn)換為優(yōu)化的 TensorRT 推理引擎。 TensorRT 推理機(jī)用作原始 HuggingFace T5 和 GPT-2 PyTorch 模型的替代品,可提供高達(dá) 21x CPU 的推理加速比。要為您的模型實(shí)現(xiàn)此加速,從 TensorRT 8.2 開(kāi)始今天的學(xué)習(xí).

關(guān)于作者

About Vinh Nguyen是一位深度學(xué)習(xí)的工程師和數(shù)據(jù)科學(xué)家,發(fā)表了 50 多篇科學(xué)文章,引文超過(guò) 2500 篇。在 NVIDIA ,他的工作涉及廣泛的深度學(xué)習(xí)和人工智能應(yīng)用,包括語(yǔ)音、語(yǔ)言和視覺(jué)處理以及推薦系統(tǒng)。

About Nikhil Srihari是 NVIDIA 的深入學(xué)習(xí)軟件技術(shù)營(yíng)銷工程師。他在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音處理領(lǐng)域擁有廣泛的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)應(yīng)用經(jīng)驗(yàn)。 Nikhil 曾在富達(dá)投資公司和 Amazon 工作。他的教育背景包括布法羅大學(xué)的計(jì)算機(jī)科學(xué)碩士學(xué)位和印度蘇拉斯卡爾卡納塔克邦國(guó)家理工學(xué)院的學(xué)士學(xué)位。

About Parth Chadha是 NVIDIA 的深度學(xué)習(xí)軟件工程師。他在 TensorRT 上工作,這是一個(gè)高性能的深度學(xué)習(xí)推理 SDK 。 Parth 在卡內(nèi)基梅隆大學(xué)獲得電氣和計(jì)算機(jī)工程碩士學(xué)位,主要研究機(jī)器學(xué)習(xí)和并行計(jì)算機(jī)體系結(jié)構(gòu)。

About Charles Chen20 歲時(shí)在加州大學(xué)圣地亞哥分校獲得計(jì)算機(jī)科學(xué)碩士學(xué)位后, Charles Chen 專注于為尖端人工智能框架、發(fā)展中國(guó)家的計(jì)算機(jī)教育和人機(jī)交互做出貢獻(xiàn)。在 NVIDIA , Charles 是一名深度學(xué)習(xí)軟件工程師,致力于 TensorRT ,一款高性能的深度學(xué)習(xí)推理 SDK 。

About Joohoon Lee領(lǐng)導(dǎo) NVIDIA 的汽車深度學(xué)習(xí)解決方案架構(gòu)師團(tuán)隊(duì)。他專注于將深度學(xué)習(xí)研究轉(zhuǎn)化為用于生產(chǎn)部署的真實(shí)世界自主駕駛軟件。他的團(tuán)隊(duì)使汽車客戶能夠使用英偉達(dá)驅(qū)動(dòng)平臺(tái)進(jìn)行 DNN 培訓(xùn)、微調(diào)、優(yōu)化和部署。在加入 NVIDIA 之前,他曾擔(dān)任 GPU 軟件架構(gòu)師,負(fù)責(zé)加速 DNN 算法。 Joohoon 在卡內(nèi)基梅隆大學(xué)獲得電氣和計(jì)算機(jī)工程學(xué)士和碩士學(xué)位。

About Jay Rodge是 NVIDIA 的產(chǎn)品營(yíng)銷經(jīng)理,負(fù)責(zé)深入學(xué)習(xí)和推理產(chǎn)品,推動(dòng)產(chǎn)品發(fā)布和產(chǎn)品營(yíng)銷計(jì)劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計(jì)算機(jī)科學(xué)碩士學(xué)位,主攻計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理。在 NVIDIA 之前,杰伊是寶馬集團(tuán)的人工智能研究實(shí)習(xí)生,為寶馬最大的制造廠使用計(jì)算機(jī)視覺(jué)解決問(wèn)題。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11332

    瀏覽量

    225987
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110141
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPT-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)2025年8月8日凌晨1點(diǎn),OpenAI以一場(chǎng)長(zhǎng)達(dá)1小時(shí)的線上發(fā)布會(huì)正式推出GPT-5。這場(chǎng)被業(yè)界稱為“AI進(jìn)化分水嶺”的發(fā)布,終結(jié)了長(zhǎng)達(dá)兩年的技術(shù)猜測(cè),更以多維度性能
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT-5</b>震撼發(fā)布:AI領(lǐng)域的重大飛躍

    NVIDIA Jetson模型賦能AI在邊緣端落地

    和 Isaac GR00T 等模型以及千問(wèn)大模型、Gemma、Mistral AI、GPT-OSS、PI 等社區(qū)模型的通用平臺(tái)。
    的頭像 發(fā)表于 03-16 16:27 ?679次閱讀
    <b class='flag-5'>NVIDIA</b> Jetson模型賦能AI在邊緣端落地

    分體 T5 LED 燈管的開(kāi)關(guān)設(shè)計(jì),怎樣提升使用便利性?

    從不同類型的開(kāi)關(guān)設(shè)計(jì)及其帶來(lái)的便利進(jìn)行闡述。一、傳統(tǒng)手動(dòng)開(kāi)關(guān)設(shè)計(jì)優(yōu)化位置與標(biāo)識(shí)優(yōu)化:傳統(tǒng)手動(dòng)開(kāi)關(guān)應(yīng)設(shè)計(jì)在易于觸及的位置。對(duì)于安裝在天花板的分體T5LED燈管,開(kāi)關(guān)可
    的頭像 發(fā)表于 02-12 13:11 ?317次閱讀
    分體 <b class='flag-5'>T5</b> LED 燈管的開(kāi)關(guān)設(shè)計(jì),怎樣提升使用便利性?

    軟硬全開(kāi)源 + 擴(kuò)展無(wú)邊界!涂鴉 T5 AI 口袋機(jī),讓 AI + IoT 創(chuàng)意在掌心生長(zhǎng)

    當(dāng)AI大模型、游戲手柄、顯示屏、音頻系統(tǒng)、攝像頭、傳感器、4G蜂窩,以及涂鴉T5芯片被塞進(jìn)同一個(gè)口袋,會(huì)激發(fā)出什么樣的創(chuàng)造力?答案就在涂鴉T5AI口袋機(jī)(Tuya-T5-Pocket),一款
    的頭像 發(fā)表于 01-22 18:08 ?768次閱讀
    軟硬全開(kāi)源 + 擴(kuò)展無(wú)邊界!涂鴉 <b class='flag-5'>T5</b> AI 口袋機(jī),讓 AI + IoT 創(chuàng)意在掌心生長(zhǎng)

    北汽新能源與小馬智行第300臺(tái)L4級(jí)極狐阿爾法T5下線

    近日,北汽新能源與小馬智行聯(lián)合宣布第300臺(tái)L4級(jí)極狐 阿爾法T5正式下線并完成交付。北汽集團(tuán)副總經(jīng)理劉宇與小馬智行創(chuàng)始人、CEO彭軍共同出席交付儀式,見(jiàn)證這一中國(guó)智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)從技術(shù)驗(yàn)證邁向無(wú)人駕駛落地的關(guān)鍵轉(zhuǎn)折點(diǎn)。
    的頭像 發(fā)表于 10-28 15:51 ?667次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1459次閱讀

    【RA4M2-SENSOR】3、使用GPT定時(shí)器-PWM輸出

    的信息 */ R_GPT_InfoGet(&g_timer2_ctrl, &info); /* 獲得計(jì)時(shí)器一個(gè)周期需要的計(jì)數(shù)次數(shù) */ uint32_t
    發(fā)表于 09-01 15:20

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4733次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實(shí)現(xiàn)與<b class='flag-5'>優(yōu)化</b>

    TensorRT-LLM中的分離式服務(wù)

    在之前的技術(shù)博客中,我們介紹了低延遲[1] 和高吞吐[2] 場(chǎng)景的優(yōu)化方法。對(duì)于生產(chǎn)部署,用戶還關(guān)心在滿足特定延遲約束的情況下,每個(gè) GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場(chǎng)景,介紹 TensorRT-LLM 分離式
    的頭像 發(fā)表于 08-27 12:29 ?2008次閱讀
    <b class='flag-5'>TensorRT</b>-LLM中的分離式服務(wù)

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    ? 自 2016 年推出 NVIDIA DGX 以來(lái),NVIDIA 與 OpenAI 便開(kāi)始共同推動(dòng) AI 技術(shù)的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-
    的頭像 發(fā)表于 08-15 20:34 ?2537次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI <b class='flag-5'>gpt</b>-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    OpenAI與NVIDIA共同開(kāi)發(fā)全新開(kāi)放模型

    NVIDIAgpt-oss-120b 帶來(lái)業(yè)界領(lǐng)先性能,在單個(gè) NVIDIA Blackwell 系統(tǒng)上實(shí)現(xiàn)每秒 150 萬(wàn)個(gè) Token。
    的頭像 發(fā)表于 08-12 15:11 ?1750次閱讀

    北汽極狐阿爾法T5 Robotaxi量產(chǎn)下線

    近日,極狐 阿爾法T5 Robotaxi正式量產(chǎn)下線,并已全面啟動(dòng)在深圳的落地運(yùn)營(yíng)推進(jìn)工作。這款搭載小馬智行第七代自動(dòng)駕駛系統(tǒng)的車型即將來(lái)到千萬(wàn)人身邊,這標(biāo)志著4級(jí)高度自動(dòng)駕駛技術(shù)正式走向普及,加速融入大眾生活。
    的頭像 發(fā)表于 07-21 10:49 ?1293次閱讀

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開(kāi)放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2215次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2463次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?2102次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐
    虎林市| 广元市| 吉林省| 霍邱县| 广宗县| 江华| 灌南县| 万安县| 万载县| 宝山区| 织金县| 且末县| 左云县| 隆化县| 南宫市| 米易县| 珲春市| 吴江市| 安陆市| 青海省| 平乡县| 缙云县| 平罗县| 托里县| 钦州市| 营山县| 历史| 新源县| 宜君县| 望都县| 军事| 阿坝县| 柘荣县| 济宁市| 福安市| 建昌县| 华阴市| 黄大仙区| 安溪县| 达日县| 桂林市|