日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton推理服務(wù)器的功能與架構(gòu)簡介

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-11-02 10:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前面文章介紹微軟 Teams 會議系統(tǒng)、微信軟件與騰訊 PCG 服務(wù)三個 Triton 推理服務(wù)器的成功案例,讓大家對 Triton 有初步的認(rèn)知,但別誤以為這個軟件只適合在大型的服務(wù)類應(yīng)用中使用,事實上 Triton 能適用于更廣泛的推理環(huán)節(jié)中,并且在越復(fù)雜的應(yīng)用環(huán)境中就越能展現(xiàn)其執(zhí)行成效。

在說明 Triton 推理服務(wù)器的架構(gòu)與功能之前,我們需要先了解一個推理服務(wù)器所需要面對并解決的問題。

與大部分的服務(wù)器軟件所需要的基本功能類似,一個推理服務(wù)器也得接受來自不同用戶端所提出的各種要求(request)然后做出回應(yīng)(response),并且對系統(tǒng)的處理進(jìn)行性能優(yōu)化與穩(wěn)定性管理。

但是推理計算需要面對深度學(xué)習(xí)領(lǐng)域的各式各樣推理模型,包括圖像分類、物件檢測、語義分析、語音識別等不同應(yīng)用類別,每種類別還有不同神經(jīng)網(wǎng)絡(luò)算法與不同框架所訓(xùn)練出來的模型格式等。此外,我們不能對任務(wù)進(jìn)行單純的串行隊列(queue)方式處理,這會使得任務(wù)等待時間拖得很長,影響使用的體驗感,因此必須對任務(wù)進(jìn)行并行化處理,這里就存在非常復(fù)雜的任務(wù)管理技巧。

下面列出一個推理服務(wù)器所需要面對的技術(shù)問題:

1.支持多種模型格式:至少需要支持普及度最高的

2.TensorFlow 的 GraphDef 與 SavedMode 中一種以上格式

(1) PyTorch 的 TorchScript 格式

(2) ONNX 開放標(biāo)準(zhǔn)格式

(3) 其他:包括自定義模型格式

3.支持多種查詢類型,包括

(1) 在線的實時查詢:盡量降低查詢的延遲(latency)時間

(2) 離線的批量處理:盡量提高查詢的通量(throughput)

(3) 流水線傳輸?shù)淖R別號管理等工作

4.支持多種部署方式:包括

(1) 企業(yè)的 GPUCPU 計算設(shè)備

(2) 公共云或數(shù)據(jù)中心

5.對模型進(jìn)行最佳縮放處理:讓個別模型提供更好的性能

6.優(yōu)化多個 KPI:包括

(1) 硬件利用率

(2) 模型推理識別時間

(3) 總體成本(TCO)

7.提高系統(tǒng)穩(wěn)定性:需監(jiān)控模型狀態(tài)并解決問題以防止停機

在了解推理服務(wù)器所需要解決的關(guān)鍵問題之后,接著來看看下方的 Triton 系統(tǒng)高階架構(gòu)圖,就能更清楚每個板塊所負(fù)責(zé)的任務(wù)與使用的對應(yīng)技術(shù)。

24b31aec-59ec-11ed-a3b6-dac502259ad0.png

Triton 推理服務(wù)器采用屬于 “主從(client-server)” 架構(gòu)的系統(tǒng),由圖中的四個板塊所組成:

1.模型倉(Model Repostory):存放 Triton 服務(wù)器所要使用的模型文件與配置文件的存儲設(shè)備,可以是本地服務(wù)器的文件系統(tǒng),也可以使用 Google、AWS、Azure 等云存儲空間,只要遵循 Triton 服務(wù)器所要求的規(guī)范就可以;

2.客戶端應(yīng)用(Client Application):基于 Triton 用戶端 Python / C++ / Java 庫所撰寫,可以在各種操作系統(tǒng)與 CPU 架構(gòu)上操作,對 Triton 服務(wù)器提交任務(wù)請求,并且接受返回的計算結(jié)果。這是整個 Triton 推理應(yīng)用中代碼量最多的一部分,也是開發(fā)人員需要花費最多心思的部分,在后面會有專文講解。

3.HTTP / gPRC 通訊協(xié)議:作為用戶端與服務(wù)端互動的通訊協(xié)議,開發(fā)人員可以根據(jù)實際狀況選擇其中一種通訊協(xié)議進(jìn)行操作,能透過互聯(lián)網(wǎng)對服務(wù)器提出推理請求并返回推理結(jié)果,如下圖所示:

24e30694-59ec-11ed-a3b6-dac502259ad0.png

使用這類通訊協(xié)議有以下優(yōu)點:

(1)支持實時、批處理和流式推理查詢,以獲得最佳應(yīng)用程序體驗

(2)提供高吞吐量推理,同時使用動態(tài)批處理和并發(fā)模型執(zhí)行來滿足緊張的延遲預(yù)算

(3)模型可以在現(xiàn)場制作中更新,而不會中斷應(yīng)用程序

4.推理服務(wù)器(Inference Server):這是整個 Triton 服務(wù)器最核心且最復(fù)雜的部分,特別在 “性能”、“穩(wěn)定”、“擴充” 這三大要求之間取得平衡的管理,主要包括以下幾大功能板塊:

(1) C 開發(fā)接口

在服務(wù)器內(nèi)的代碼屬于系統(tǒng)底層機制,主要由 NVIDIA 系統(tǒng)工程師進(jìn)行維護,因此只提供性能較好的 C 開發(fā)接口,一般應(yīng)用工程師可以忽略這部分,除非您有心深入 Triton 系統(tǒng)底層進(jìn)行改寫。

(2) 模型管理器(Model Management):

支持多框架的文件格式并提供自定義的擴充能力,目前已支持 TensorFlow 的 GraphDef 與 SavedModel 格式、ONNX、PyTorch TorchScript、TensorRT、用于基于樹的 RAPIDS FIL 模型、OpenVINO 等模型文件格式,還能使用自定義的 Python / C++ 模型格式;

(3) 模型的推理隊列調(diào)度器(Per-Model Scheduler Queues):

將推理模型用管道形式進(jìn)行管理,將一個或多個模型的預(yù)處理或后處理進(jìn)行邏輯排列,并管理模型之間的輸入和輸出張量的連接,任何的推理請求都會觸發(fā)這個模型管道。這部分還包含以下兩個重點:

并發(fā)模型執(zhí)行(Concurrent Model Execution):允許同一模型的多個模型和 / 或多個實例在同一系統(tǒng)上并行執(zhí)行,系統(tǒng)可能有零個、一個或多個 GPU。

模型和調(diào)度程序(Models And Schedulers):支持多種調(diào)度和批量處理算法,可為每個模型單獨選擇無狀態(tài)(stateless)、有狀態(tài)(stateful)或集成(ensemble)模式。對于給定的模型,調(diào)度器的選擇和配置是通過模型的配置文件完成的。

(4) 計算資源的優(yōu)化處理:

這是作為服務(wù)器軟件的最重要工作之一,就是要將設(shè)備的計算資源充分調(diào)度,并且優(yōu)化總體計算性能,主要使用以下三種技術(shù)。

支持異構(gòu)計算模式:可部署在純 x86 與 ARM CPU 的計算設(shè)備上,也支持裝載 NVIDIA GPU 的計算設(shè)備。

動態(tài)批量處理(Dynamic batching)技術(shù):對支持批處理的模型提供多個內(nèi)置的調(diào)度和批處理算法,并結(jié)合各個推理請求以提高推理吞吐量,這些調(diào)度和批量處理決策對請求推理的客戶端是透明的。

批量處理推理請求分為客戶端批量處理和服務(wù)器批量處理兩種,通過將單個推理請求組合在一起來實現(xiàn)服務(wù)器批處理,以提高推理吞吐量;

構(gòu)建一個批量處理緩存區(qū),當(dāng)達(dá)到配置的延遲閾值后便啟動處理機制;

調(diào)度和批處理決策對請求推斷的客戶機是透明的,并且根據(jù)模型進(jìn)行配置。

c.并發(fā)模型(Concurrent model)運行:多個模型或同一模型的多個實例,可以同時在一個 GPU 或多個 GPU 上運行,以滿足不同的模型管理需求。

(5) 框架后端管理器(Framework Backends):

Triton 的后端就是執(zhí)行模型的封裝代碼,每種支持的框架都有一個對應(yīng)的后端作為支持,例如 tensorrt_backend 就是支持 TensorRT 模型推理所封裝的后端、openvino_backend 就是支持 openvine 模型推理所封裝的后端,目前在 Triton 開源項目里已經(jīng)提供大約 15 種后端,技術(shù)人員可以根據(jù)開發(fā)無限擴充。

要添加一個新的后臺是相當(dāng)復(fù)雜的過程,因此在本系列文章中并不探索,這里主要說明以下 Triton 服務(wù)器對各個后端的管理機制,主要是以下重點:

采用 KFServing 的新社區(qū)標(biāo)準(zhǔn) gRPC 和 HTTP/REST 數(shù)據(jù)平面(data plane)v2 協(xié)議(如下圖),這是 Kubernetes 上基于各種標(biāo)準(zhǔn)的無服務(wù)器推理架構(gòu)

24f06f96-59ec-11ed-a3b6-dac502259ad0.png

通過配置自動化和自動擴展簡化 Kubernetes 中的推理服務(wù)部署

透明地處理負(fù)載峰值,即使請求數(shù)量顯著增加,請求的服務(wù)也將繼續(xù)順利運行

可以通過定義轉(zhuǎn)換器,輕松地將標(biāo)記化和后處理等預(yù)處理步驟包含在部署中

可以用 NGC 的 Helm 命令在 Kubernetes 中部署 Triton,也可以部署為容器微服務(wù),為 GPU 和 CPU 上的預(yù)處理或后處理和深度學(xué)習(xí)模型提供服務(wù),也能輕松部署在數(shù)據(jù)中心或云平臺上

將推理實例進(jìn)行微服務(wù)處理,每個實例都可以在 Kubernetes 環(huán)境中獨立擴展,以獲得最佳性能

通過這種新的集成,可以輕松地在 Kubernetes 使用 Triton 部署高性能推理

以上是 Triton 推理服務(wù)器的高級框架與主要特性的簡介,如果看完本文后仍感覺有許多不太理解的部分,這是正常的現(xiàn)象,因為整個 Triton 系統(tǒng)集成非常多最先進(jìn)的技術(shù)在內(nèi),并非朝夕之間就能掌握的。

后面的內(nèi)容就要進(jìn)入 Triton 推理服務(wù)器的環(huán)境安裝與調(diào)試,以及一些基礎(chǔ)范例的執(zhí)行環(huán)節(jié),透過這些實際的操作,逐步體驗 Triton 系統(tǒng)的強大。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110142
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    14

    文章

    10371

    瀏覽量

    91774
  • Triton
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    7353

原文標(biāo)題:NVIDIA Triton系列文章(2):功能與架構(gòu)簡介

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    服務(wù)器發(fā)展趨勢:迎接數(shù)字時代新變革

    的迅猛發(fā)展對服務(wù)器性能提出了更高要求。AI訓(xùn)練和推理任務(wù)需要強大的并行計算能力,傳統(tǒng)CPU架構(gòu)已難以滿足。因此,搭載GPU、TPU、FPGA等專用加速芯片的AI服務(wù)器成為
    的頭像 發(fā)表于 03-19 16:58 ?271次閱讀
    <b class='flag-5'>服務(wù)器</b>發(fā)展趨勢:迎接數(shù)字時代新變革

    Supermicro率先發(fā)布NVIDIA BlueField-4 STX存儲服務(wù)器,提升AI推理性能

    ? Supermicro憑借其基于NVIDIA STX AI存儲參考架構(gòu)打造的上下文內(nèi)存(CMX)存儲服務(wù)器,進(jìn)一步彰顯其行業(yè)領(lǐng)先地位。 BlueField-4 STX存儲服務(wù)器結(jié)合了
    的頭像 發(fā)表于 03-19 15:46 ?191次閱讀
    Supermicro率先發(fā)布<b class='flag-5'>NVIDIA</b> BlueField-4 STX存儲<b class='flag-5'>服務(wù)器</b>,提升AI<b class='flag-5'>推理</b>性能

    NVIDIA推出BlueField-4 STX存儲架構(gòu)

    NVIDIA 今日宣布推出 NVIDIA BlueField-4? STX 模塊化參考架構(gòu),該架構(gòu)可助力企業(yè)、云計算及 AI 服務(wù)商輕松部署
    的頭像 發(fā)表于 03-18 14:40 ?309次閱讀

    全球首創(chuàng)!RISC-V+AI架構(gòu)高性能服務(wù)器CPU成功點亮

    電子發(fā)燒友網(wǎng)報道 長久以來,全球高端服務(wù)器CPU市場一直被x86和ARM架構(gòu)所主導(dǎo),我國在核心算力領(lǐng)域長期受制于人,高端芯片供應(yīng)鏈安全面臨重大挑戰(zhàn)。 ? 近日,藍(lán)芯算力(深圳)科技有限公司宣布,公司
    的頭像 發(fā)表于 02-28 09:22 ?6734次閱讀

    全液冷服務(wù)器系統(tǒng)架構(gòu)設(shè)計案例分享

    服務(wù)器的全液冷,一般都需要液冷板覆蓋CPU、內(nèi)存(DIMM)、硬盤(SSD)、電源、IO以及其他SOC的散熱。今天給大家分享一款浪潮的全液冷冷板服務(wù)器的液冷系統(tǒng)架構(gòu)。
    的頭像 發(fā)表于 01-27 15:33 ?830次閱讀
    全液冷<b class='flag-5'>服務(wù)器</b>系統(tǒng)<b class='flag-5'>架構(gòu)</b>設(shè)計案例分享

    如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務(wù)

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務(wù)
    的頭像 發(fā)表于 11-13 14:08 ?4464次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通過Docker高效部署vLLM<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)</b>

    NVIDIA推出NVQLink高速互連架構(gòu)

    NVIDIA 推出 NVIDIA NVQLink,這是一種開放式系統(tǒng)架構(gòu),可將 GPU 計算的極致性能與量子處理緊密結(jié)合,以構(gòu)建加速的量子
    的頭像 發(fā)表于 11-03 14:53 ?911次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發(fā)表于 10-21 11:04 ?1462次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2046次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    NVIDIA三臺計算機解決方案如何協(xié)同助力機器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機器人到機器人工廠等基于物理 AI 的系統(tǒng)的開發(fā),貫穿訓(xùn)練、仿真和
    的頭像 發(fā)表于 08-27 11:48 ?2646次閱讀

    華納云服務(wù)器角色服務(wù)器失敗的原因和解決辦法

    在現(xiàn)代企業(yè)中,服務(wù)器是IT基礎(chǔ)架構(gòu)的核心,它們承擔(dān)著關(guān)鍵的任務(wù),包括數(shù)據(jù)存儲、應(yīng)用程序托管和網(wǎng)絡(luò)服務(wù)等。服務(wù)器角色的穩(wěn)定性和可靠性對于企業(yè)的連續(xù)運營至關(guān)重要。然而,
    的頭像 發(fā)表于 07-17 18:18 ?713次閱讀

    ai服務(wù)器是什么?與普通服務(wù)器有什么區(qū)別

    AI服務(wù)器并非簡單的硬件堆砌,而是專門為人工智能任務(wù)設(shè)計的高性能計算系統(tǒng)。其核心目標(biāo)是高效處理海量數(shù)據(jù)并行計算(如矩陣乘法、模型推理),并針對AI工作負(fù)載(如深度學(xué)習(xí)訓(xùn)練、大模型推理)進(jìn)行全方位優(yōu)化。
    的頭像 發(fā)表于 06-24 16:39 ?5021次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?2107次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    基于RAKsmart云服務(wù)器的AI大模型實時推理方案設(shè)計

    面對高并發(fā)請求、嚴(yán)格的響應(yīng)延遲要求及波動的業(yè)務(wù)負(fù)載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI大模型實時推理提供了從硬件到軟件層的系統(tǒng)性解決方案。
    的頭像 發(fā)表于 05-13 10:33 ?731次閱讀
    丰都县| 南充市| 隆昌县| 缙云县| 漯河市| 蓬溪县| 遵义市| SHOW| 偃师市| 武夷山市| 凌海市| 原平市| 崇左市| 通州市| 沈阳市| 敖汉旗| 栾城县| 衡水市| 泽州县| 黑水县| 胶州市| 喀喇沁旗| 措美县| 云阳县| 山东| 东明县| 清苑县| 文水县| 磐石市| 珲春市| 曲松县| 新宁县| 南乐县| 巴东县| 夹江县| 尚义县| 扬州市| 上蔡县| 临沧市| 昌平区| 南汇区|