日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在NVIDIA Jetson平臺(tái)上運(yùn)行更大的模型

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2026-05-08 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

開(kāi)源生成式 AI 模型的迅猛發(fā)展正在推動(dòng)數(shù)據(jù)中心向物理世界中運(yùn)行的機(jī)器邁進(jìn)。開(kāi)發(fā)者渴望在邊緣部署這些模型,使物理 AI 智能體和自主機(jī)器人能夠自動(dòng)執(zhí)行繁重的任務(wù)。

關(guān)鍵的挑戰(zhàn)在于如何在內(nèi)存受限的邊緣設(shè)備上高效運(yùn)行包含數(shù)十億個(gè)參數(shù)的模型。在內(nèi)存供應(yīng)持續(xù)受限和成本上升的情況下,開(kāi)發(fā)者正專注于用更少的資源取得更多的成果。

NVIDIA Jetson 平臺(tái)支持熱門開(kāi)放模型,同時(shí)在邊緣提供強(qiáng)大的運(yùn)行時(shí)性能和內(nèi)存優(yōu)化。對(duì)于邊緣開(kāi)發(fā)者而言,顯存占用決定了系統(tǒng)是否正常運(yùn)行。與云環(huán)境不同,邊緣設(shè)備在嚴(yán)格的內(nèi)存限制下運(yùn)行,CPUGPU 共享資源受限。

內(nèi)存使用效率低下可能會(huì)導(dǎo)致瓶頸、延遲峰值或系統(tǒng)故障。與此同時(shí),現(xiàn)代邊緣應(yīng)用通常會(huì)運(yùn)行多個(gè)流程 (例如檢測(cè)、跟蹤和分割) ,這使得高效的內(nèi)存管理對(duì)于在功耗和散熱受限的情況下實(shí)現(xiàn)穩(wěn)定的實(shí)時(shí)性能至關(guān)重要。

優(yōu)化顯存占用具有明顯優(yōu)勢(shì)。開(kāi)發(fā)者可以通過(guò)減少開(kāi)銷和增加并發(fā)性來(lái)提高相同硬件的性能,同時(shí)支持更復(fù)雜的工作負(fù)載,如 LLM、多攝像頭系統(tǒng)和傳感器融合。它還通過(guò)適合較小的內(nèi)存配置來(lái)降低系統(tǒng)成本,并通過(guò)最大限度地減少瓶頸和最大限度地提高 GPU 利用率來(lái)提高效率 (每瓦性能) 。

本博客將探討各種優(yōu)化策略,以幫助開(kāi)發(fā)者在資源受限的邊緣系統(tǒng)上更大限度地提高性能、效率和功能。

邊緣 AI 軟件堆棧

我們來(lái)深入了解邊緣設(shè)備的運(yùn)行時(shí)軟件堆棧。本指南并非關(guān)于全內(nèi)存優(yōu)化的詳盡指南,而是一個(gè)參考框架,可激發(fā)靈感并幫助開(kāi)發(fā)者找到改進(jìn)堆棧的新方法。節(jié)省的內(nèi)存顯示了 NVIDIA 團(tuán)隊(duì)取得的成就。經(jīng)驗(yàn)豐富的用戶可以提高效率,而其他人則可以從這些示例開(kāi)始,更好地利用NVIDIA Jetson和NVIDIA IGX 平臺(tái)上的資源。

本博客探討了五個(gè)關(guān)鍵層,從 Jetson BSP 和 NVIDIA JetPack 的基礎(chǔ)開(kāi)始,一直到推理工作流、推理框架和量化技術(shù)。我們來(lái)逐步深入了解每一層。

wKgZO2n9Q_CAK8ECAAEsyv9HIFM455.png

圖 1. NVIDIA 硬件平臺(tái)上的典型邊緣 AI 軟件堆棧

基礎(chǔ)層:板級(jí)支持包和軟件堆棧

NVIDIA Jetson 板支持包 (BSP)和 NVIDIA JetPack 層構(gòu)成了軟件堆棧的基礎(chǔ),可與硬件交互。它包括 Linux 內(nèi)核、設(shè)備驅(qū)動(dòng)程序、固件和JetPack SDK,以及支持計(jì)算、多媒體和加速 I/ O 的組件。此層將硬件復(fù)雜性 ( GPU、CPU、內(nèi)存和外設(shè)) 抽象化,為更高級(jí)別的服務(wù)和應(yīng)用提供穩(wěn)定、優(yōu)化的基礎(chǔ)。

在這一層,可以通過(guò)禁用未使用的服務(wù)并回收保留的剔除區(qū)域來(lái)節(jié)省內(nèi)存。這些優(yōu)化可減少應(yīng)用工作負(fù)載的開(kāi)銷和可用 DRAM,而不會(huì)影響核心功能。以下各節(jié)將重點(diǎn)介紹實(shí)現(xiàn)這些優(yōu)化的關(guān)鍵技術(shù)。

BSP 和 JetPack 層優(yōu)化指南適用于Jetson Orin NX和Jetson Orin Nano。

旋鈕 可以回收的內(nèi)存 說(shuō)明
禁用圖形桌面,包括顯示和 UI 相關(guān)服務(wù)。 高達(dá) 865 MB sudo systemctl set-default multi-user.target
禁用網(wǎng)絡(luò)、連接和不必要的日志服務(wù)。 高達(dá) 32 MB sudo systemctl disable

表 1. BSP 和 JetPack 級(jí)別的內(nèi)存優(yōu)化旋鈕

NVIDIA Jetson Orin NX 上的開(kāi)挖區(qū)域以及內(nèi)核和用戶空間優(yōu)化是提高整體系統(tǒng)效率的關(guān)鍵領(lǐng)域。以下各節(jié)將探討優(yōu)化這些層的實(shí)用技術(shù)。

雕刻優(yōu)化

NVIDIA Jetson Orin NX 和 NVIDIA Jetson Orin Nano 中的 Carveout 區(qū)域是在啟動(dòng)時(shí)預(yù)留的物理內(nèi)存,用于特定硬件引擎、固件和實(shí)時(shí)子系統(tǒng)。Linux 或NVIDIA CUDA應(yīng)用程序無(wú)法訪問(wèn)它們,而是由片上微控制器和加速器使用。它們充當(dāng)專用內(nèi)存池,以確保隔離、安全性和確定性行為。根據(jù)您的工作流和應(yīng)用程序需求,可以禁用一些分流,以進(jìn)一步優(yōu)化內(nèi)存使用量。

Carveout 何時(shí)禁用 如何禁用 回收的 dram 大小
CARVEOUT_DCE_TSEC 顯示時(shí)
不需要
請(qǐng)參閱注釋 1
然后重新刷寫
1 MB
CARVEOUT_DCE 32 MB
CARVEOUT_DISP_EARLY_BOOT_FB 34 MB
CARVEOUT_TSEC_DCE 1 MB
CARVEOUT_CAMERA_ 任務(wù)列表 當(dāng)相機(jī)
不需要
請(qǐng)參閱注釋 2
然后重新刷寫
32 MB
CARVEOUT_RCE 1 MB

表 2. 適用于各種分割的內(nèi)存優(yōu)化旋鈕

注 1:以下示例展示了用戶在不需要顯示時(shí)如何進(jìn)行內(nèi)存優(yōu)化。在 Linux_for_Tegra/bootloader/generic/BCT/tegra234-mb1-bct-misc-p3767-0000.dts 的/misc/carveout/節(jié)點(diǎn)內(nèi)添加代碼段

// Display-related carveouts
aux_info@CARVEOUT_BPMP_DCE {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_DCE_TSEC {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_DCE {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_DISP_EARLY_BOOT_FB {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_TSEC_DCE {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};

將 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 中/mb2-misc/auxp_controls@3/節(jié)點(diǎn)的內(nèi)容更新為:

/* Control fields for DCE cluster. */
auxp_controls@3 {
enable_init = <0>;
enable_fw_load = <0>;
enable_unhalt = <0>;
reset_vector = <0x40000000>;
};

刪除 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 的整個(gè)/mb2-misc/auxp_ast_config@6和/mb2-misc/auxp_ast_config@7節(jié)點(diǎn)

使用 dtc 工具將內(nèi)核 dtb 反編譯為 dts,將/display@13800000節(jié)點(diǎn)的狀態(tài)標(biāo)記為disabled,然后將 dts 重新編譯為內(nèi)核 dtb:

display@13800000 {
status = "disabled";
};

注 2: 以下示例展示了用戶如何在不需要攝像頭時(shí)優(yōu)化內(nèi)存。在 Linux_for_Tegra/bootloader/generic/BCT/tegra234-mb1-bct-misc-p3767-0000.dts 的/misc/carveout/節(jié)點(diǎn)內(nèi)添加代碼段:

aux_info@CARVEOUT_CAMERA_TASKLIST {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_RCE {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};

將 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 的/mb2-misc/auxp_controls = 2/node 的內(nèi)容更新為:

/* Control fields for RCE cluster. */
auxp_controls@2 {
enable_init = <0>;
enable_fw_load = <0>;
enable_unhalt = <0>;
};

內(nèi)核端優(yōu)化

Jetson Orin、Orin NX 和 Orin Nano 平臺(tái)使用 NVIDIA 特定的輸入/ 輸出內(nèi)存管理單元 (IOMMU) 來(lái)處理外設(shè)的直接內(nèi)存訪問(wèn) (DMA) 地址轉(zhuǎn)換,使設(shè)備能夠訪問(wèn)系統(tǒng)內(nèi)存,而不管物理地址如何。

Linux 軟件 I/ O 翻譯旁路緩沖區(qū) (SWIOTLB) 是一種變通方案,適用于沒(méi)有硬件 IOMMU 或外圍設(shè)備限制為 32 位 DMA 的系統(tǒng)。由于 Orin 包含一個(gè)強(qiáng)大的硬件 IOMMU,可重新映射 DMA 地址,因此 SWIOTLB 通常是冗余的。

SWIOTLB 調(diào)優(yōu)

對(duì)于需要 SWIOTLB 的特定用例或非標(biāo)準(zhǔn)外設(shè),或者當(dāng)內(nèi)核日志表明存在 DMA 問(wèn)題時(shí),可以使用啟動(dòng)參數(shù)調(diào)整保留大小。

swiotlb=參數(shù)定義 I/ O TLB 板的數(shù)量 (每個(gè) 2 KB) :

總大小 (字節(jié)) swiotlb_value = 2048

示例 ( 4 MB 緩沖區(qū)) :

4 MB 2 KB 2048 塊板

內(nèi)核命令:swiotlb=2048

用戶空間側(cè)優(yōu)化

在Jetson上,應(yīng)用程序總內(nèi)存包括:

進(jìn)程和系統(tǒng)服務(wù)使用的 CPU 內(nèi)存。

CUDA、多媒體緩沖區(qū)和加速器使用的硬件 (NvMap) 顯存。

兩者共享相同的物理內(nèi)存池,優(yōu)化二者會(huì)相互受益。

減少 CPU 顯存占用


首先,識(shí)別 CPU 內(nèi)存消耗最多的進(jìn)程。GUI 或音頻組件等后臺(tái)服務(wù)可能會(huì)占用大量?jī)?nèi)存,在生產(chǎn)環(huán)境中可能沒(méi)有必要。

測(cè)量 CPU 顯存占用率
使用procrank分析顯存占用率:

$ git clone https://github.com/csimmonds/procrank_linux.git
$ cd procrank_linux/
$ make
$ sudo ./procrank

輸出按 PSS (比例集大小) 排序,反映實(shí)際物理內(nèi)存使用量。

根據(jù)發(fā)現(xiàn)進(jìn)行優(yōu)化并確定流程

gnome-shell或Xorg(GUI)

pulseaudio

未使用的 python3 進(jìn)程

這些在生產(chǎn)環(huán)境中通常是不必要的,并且可以禁用以回收內(nèi)存。在無(wú)外設(shè)部署中,禁用 GUI 服務(wù)可以釋放大量系統(tǒng)內(nèi)存。

wKgZO2n9RG6AQiNBAAH7P2V1dyw963.png

圖 2. 在用戶空間中禁用 GUI 相關(guān)服務(wù)可節(jié)省的內(nèi)存

分析和衡量硬件內(nèi)存使用率

除了 CPU 內(nèi)存之外,GPU 和多媒體分配也會(huì)影響可用內(nèi)存。

$ sudo cat /sys/kernel/debug/nvmap/iovmm/clients

* 這顯示了使用 NvMap (例如 CUDA、視頻工作流) 的進(jìn)程的內(nèi)存使用情況。

優(yōu)化硬件內(nèi)存

識(shí)別使用大型 GPU 或緩沖區(qū)分配的進(jìn)程。與 CPU 優(yōu)化一樣,GUI 工作流 (gnome-shell,Xorg) 等服務(wù)可能會(huì)消耗不必要的硬件內(nèi)存。減少這些分配可釋放更多內(nèi)存用于 AI 工作負(fù)載。

wKgZO2n9RKWAN1P6AACRfd5t5sc021.png

圖 3. 識(shí)別用戶空間中占用大型 GPU 或緩沖區(qū)分配內(nèi)存的進(jìn)程

推理工作流

此層通過(guò)預(yù)處理、推理和后處理來(lái)管理端到端數(shù)據(jù)流,以生成可操作的輸出。框架如NVIDIA DeepStream為視頻和傳感器輸入等流式傳輸數(shù)據(jù)提供 GPU 加速的高性能工作流。它們?cè)诤?jiǎn)化的工作流程中處理解碼、批處理、推理、跟蹤和分析,從而實(shí)現(xiàn)可擴(kuò)展的處理。此層可抽象化復(fù)雜性,優(yōu)化數(shù)據(jù)傳輸和計(jì)算利用率,從而打造高效的生產(chǎn)就緒型 AI 應(yīng)用。

了解如何通過(guò)配置和實(shí)現(xiàn)選項(xiàng)優(yōu)化推理工作流,以減少內(nèi)存占用并提高性能。雖然通過(guò) DeepStream 展示了這些原則,但這些原則廣泛適用于各種框架和應(yīng)用。

旋鈕 可以回收的內(nèi)存
容器與裸金屬 高達(dá) 70 MB
Python 切換到 C++ 高達(dá) 84 MB
調(diào)整工作流配置: 禁用 Tiler/ OSDUse FakeSink 高達(dá) 258 MB
總計(jì) 412 MB

表 3. 有助于減少 DeepStream 式推理工作流中顯存占用的旋鈕
** 在 DeepStream 式推理工作流中,禁用 Tiler/ OSD 并使用 FakeSink 可以消除可視化所需的顯示階段,但在無(wú)外設(shè)部署或生產(chǎn)部署中卻不必要。這樣可以節(jié)省內(nèi)存、減少 GPU 負(fù)載并提高吞吐量。

推理框架

適用于 LLM 的推理服務(wù)框架層專注于在生產(chǎn)環(huán)境中高效部署和擴(kuò)展大語(yǔ)言模型,其中 vLLM、SGLang 和 Llama.cpp 等框架在該領(lǐng)域處于領(lǐng)先地位。這些框架通過(guò)持續(xù)批處理、KV 緩存管理和高效內(nèi)存利用率等技術(shù)優(yōu)化推理,以更大限度地提高吞吐量并降低延遲。

vLLM 憑借其分頁(yè)注意力機(jī)制在高吞吐量服務(wù)方面表現(xiàn)出色。

SGLang 支持靈活且可編程的推理工作流程。

Llama.cpp 和 NVIDIA TensorRT Edge-LLM 經(jīng)過(guò)優(yōu)化,可在資源受限的環(huán)境中高效執(zhí)行。

這些框架提供了在邊緣本地部署時(shí)可靠地提供 LLM 所需的基礎(chǔ)架構(gòu)。

模型量化

模型量化是一項(xiàng)關(guān)鍵技術(shù),可使用較低精度的數(shù)據(jù)類型表示權(quán)重和激活函數(shù),從而減少內(nèi)存占用并加速 AI 模型的推理。

量化應(yīng)根據(jù)目標(biāo)用例的明確準(zhǔn)確性和性能要求進(jìn)行驅(qū)動(dòng)。在選擇量化方案之前,請(qǐng)定義:

可接受的最低模型質(zhì)量或任務(wù)準(zhǔn)確性。

目標(biāo)吞吐量和延遲。

部署限制,尤其是可用的 GPU 顯存。

鎖定這些要求后,推薦的方法是逐步評(píng)估較低精度的量化選項(xiàng)。從最高準(zhǔn)確度的基準(zhǔn)開(kāi)始,然后向下移動(dòng)至支持的量化格式,直到模型不再滿足所需的質(zhì)量值。選定的量化點(diǎn)應(yīng)是仍能滿足用例準(zhǔn)確性要求的最低精度,因?yàn)檫@通??商峁┳罴训膬?nèi)存節(jié)省量和效率。

wKgZPGn9RLWAZvGYAACu1GeKFRo369.png

圖 4. 在 Llama.cpp ( Jetson Orin NX 16 GB) 上對(duì) Qwen3 4B 進(jìn)行 INT4 與 BF16 基準(zhǔn)測(cè)試,強(qiáng)調(diào)了內(nèi)存和吞吐量的提升

如果低位量化帶來(lái)了不可接受的性能下降,請(qǐng)使用量化感知蒸餾 (QAD)等恢復(fù)技術(shù)來(lái)恢復(fù)丟失的準(zhǔn)確性。這些方法通??梢曰謴?fù)足夠的模型質(zhì)量,在滿足部署要求的同時(shí)實(shí)現(xiàn)更積極的量化。

選擇量化級(jí)別后,優(yōu)化目標(biāo)部署的運(yùn)行時(shí)內(nèi)存。對(duì) vLLM 配置參數(shù) (尤其是 GPU 顯存利用率) 進(jìn)行掃描,找到維持目標(biāo)性能所需的最小顯存占用。這可確保針對(duì)吞吐量和延遲目標(biāo)進(jìn)行規(guī)模合適的高效部署。

FP16 和 FP8 等格式平衡了準(zhǔn)確性和性能,F(xiàn)P8 越來(lái)越多地用于提高吞吐量。W4A16 等更激進(jìn)的方案可減少內(nèi)存和帶寬需求,同時(shí)保持可接受的準(zhǔn)確性。NVIDIA NVFP4通過(guò)硬件友好型 4 位計(jì)算進(jìn)一步提高了效率。這些方法共同為大型模型和資源受限的系統(tǒng)實(shí)現(xiàn)了更快、更經(jīng)濟(jì)高效的推理。支持因 Jetson 平臺(tái)而異,詳情請(qǐng)參閱NVIDIA Jetson產(chǎn)品目錄。

旋鈕 可以回收的內(nèi)存 注意事項(xiàng)
Qwen3 8B 上從 FP16 到 W4A16 的模型量化 ~ 10 GB Qwen3 8B
Qwen3 4B 上從 BF16 到 INT4 的模型量化 約 5.6 GB Qwen3 4B

表 4. 模型量化中回收的內(nèi)存

根據(jù)所包含和優(yōu)化的五層軟件堆棧組件,可在保持高精度和功能同等的同時(shí)節(jié)省高達(dá) 10 – 12 GB 的內(nèi)存。

使用專用加速器解析邊緣推理

Jetson平臺(tái)包含多個(gè)非 GPU 加速器,可通過(guò)卸載 CPU 和 GPU 中的專用工作負(fù)載來(lái)提高效率。其中包括用于攝像頭處理的圖像信號(hào)處理器 (ISP) 、用于視頻編碼/ 解碼的 NVENC/ NVDEC,以及用于視覺(jué)任務(wù)的 NVIDIA 可編程視覺(jué)加速器 (PVA) 。

從Jetson Orin NX到Jetson Thor的 PVA,非常適合始終開(kāi)啟、低功耗的視覺(jué)工作負(fù)載,例如監(jiān)控模式、移動(dòng)檢測(cè)、目標(biāo)跟蹤和特征提取,在這些工作負(fù)載中,持續(xù)使用 GPU 會(huì)降低效率。通過(guò)卸載這些任務(wù),PVA 可降低延遲并釋放 GPU 資源,以處理更復(fù)雜的推理或并行工作負(fù)載,從而提高邊緣部署的整體性能和能效。

NVIDIA cuPVA SDK 目前處于搶先體驗(yàn)階段。如果您有興趣探索其功能,請(qǐng)聯(lián)系我們以獲取更多信息。

多層間的可能節(jié)?。?/p>

圖層 潛在節(jié)省
BSP 和操作系統(tǒng)服務(wù) ~ 1025 MB
工作流優(yōu)化 ~ 412 MB
推理框架和模型量化 約 5 至 10 GB

表 5. 在軟件堆棧的各個(gè)級(jí)別回收內(nèi)存

如果說(shuō)有一個(gè)關(guān)鍵要點(diǎn),那就是使用正確的量化精度。

NVFP4、INT4 和 W4A16 等格式可顯著減少內(nèi)存和存儲(chǔ)需求,同時(shí)為許多 LLM 工作負(fù)載保持較高的準(zhǔn)確性。

實(shí)際用例:Reachy Mini Jetson Mini Assistant

為了展示這些內(nèi)存優(yōu)化的影響,請(qǐng)考慮使用Reachy Mini Jetson Assistant,這是一款在 Jetson Orin Nano 上運(yùn)行的本地對(duì)話式 AI 機(jī)器人,具有 8 GB 統(tǒng)一內(nèi)存,不依賴云。

該助手同時(shí)運(yùn)行多模態(tài) AI 工作流,包括:量化為 4 位 (Q4_K_M GGUF) 并通過(guò) Llama.cpp 提供的視覺(jué)語(yǔ)言模型 (Cosmos-Reason2-2B) ,用于實(shí)現(xiàn)視覺(jué)理解;用于語(yǔ)音識(shí)別的faster-whisper (small.en);用于文本轉(zhuǎn)語(yǔ)音的Kokoro TTS,以及 Reachy Mini SDK 機(jī)器人和實(shí)時(shí) Web 控制面板。

借助堆棧范圍的優(yōu)化 (禁用顯示管理器,無(wú)外設(shè)運(yùn)行,通過(guò) Llama.cpp 而不是更重的 Python 框架提供 VLM,使用 4 位量化 Cosmos Reason2 2B,并選擇優(yōu)化的運(yùn)行時(shí) (適用于 STT 的 CTranslate2、適用于 TTS 和 VAD 的 ONNX Runtime) ,完整的工作流可在單個(gè) Orin Nano 8 GB 系統(tǒng)上運(yùn)行。

更廣泛地說(shuō),將 4 位量化與高效的推理運(yùn)行時(shí) (如Llama.cpp和TensorRT-Edge-LLM) 相結(jié)合,可在此內(nèi)存預(yù)算內(nèi)訪問(wèn)各種模型,其中 LLM 參數(shù)高達(dá) 100 億個(gè),VLM 參數(shù)高達(dá) 40 億個(gè)。如需測(cè)試模型的完整列表,請(qǐng)?jiān)L問(wèn)Jetson AI 實(shí)驗(yàn)室模型頁(yè)面和NVIDIA 開(kāi)發(fā)者論壇。

關(guān)于作者

Anshuman Bhat 是 NVIDIA 的計(jì)算部門產(chǎn)品經(jīng)理。他一直是 NVIDIA CUDA 產(chǎn)品管理團(tuán)隊(duì)的推動(dòng)者,在過(guò)去的 9 年里,他一直為 CUDA 和分布式計(jì)算的所有領(lǐng)域做出貢獻(xiàn)。他目前專注于 CUDA Python、CUDA 教育、CUDA 技術(shù)營(yíng)銷和產(chǎn)品管理計(jì)劃。他還負(fù)責(zé)管理 NVIDIA Legate 產(chǎn)品,包括 Legate、Legion、Realm、cuPyNumeric 和 Legate Boost。

Aditya Sahu 是 NVIDIA Jetson Edge AIP 平臺(tái)團(tuán)隊(duì)的技術(shù)營(yíng)銷工程師。他負(fù)責(zé)推動(dòng)該平臺(tái)的采用,并展示該平臺(tái)的技術(shù)能力。他積極與 NVIDIA 開(kāi)發(fā)者社區(qū)互動(dòng),在 Jetson 上倡導(dǎo) AI 模型推理和 SDK。Hepor 曾在 Synaptics 工作,專注于構(gòu)建邊緣 AI 解決方案,并曾在 Nuvoton 和 Netcracker 擔(dān)任機(jī)器學(xué)習(xí)和軟件工程職務(wù)。他擁有圣何塞州立大學(xué)的人工智能理學(xué)碩士學(xué)位和 Siddaganga 理工學(xué)院的計(jì)算機(jī)科學(xué)理學(xué)學(xué)士學(xué)位。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11343

    瀏覽量

    226041
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5706

    瀏覽量

    110154
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41464

    瀏覽量

    302791
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3841

    瀏覽量

    52294

原文標(biāo)題:更大限度地提高內(nèi)存效率,在 NVIDIA Jetson 上運(yùn)行更大的模型

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    何在NVIDIA Jetson AGX Thor上通過(guò)Docker高效部署vLLM推理服務(wù)

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開(kāi)發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過(guò) Docker 高效
    的頭像 發(fā)表于 11-13 14:08 ?4469次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> AGX Thor上通過(guò)Docker高效部署vLLM推理服務(wù)

    Arm方案 基于Arm架構(gòu)的邊緣側(cè)設(shè)備(樹(shù)莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文將為你展示如何在樹(shù)莓派或 NVIDIA Jetson Nano 等基于 Arm 架構(gòu)的邊緣側(cè)設(shè)備上部署 PyTorch 模型。
    的頭像 發(fā)表于 07-28 11:50 ?3113次閱讀

    何在NVIDIA Jetson AGX Thor上部署1200億參數(shù)大模型

    上一期介紹了如何在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務(wù),以及使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行
    的頭像 發(fā)表于 12-26 17:06 ?5305次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> AGX Thor上部署1200億參數(shù)大<b class='flag-5'>模型</b>

    關(guān)于NVIDIA JETSON TK1板子的話題

    各位大咖,小弟有一塊開(kāi)發(fā)板,是NVIDIA JETSON TK1,現(xiàn)要用這個(gè)板子做視頻圖像處理,有對(duì)這個(gè)板子有了解的朋友么?參考網(wǎng)頁(yè):http://www.nvidia.cn/object/j
    發(fā)表于 07-06 14:57

    NVIDIA Jetson的相關(guān)資料分享

    Jetson概述爆炸式增長(zhǎng)的AI模型的復(fù)雜性專為自主機(jī)器開(kāi)發(fā)人員設(shè)計(jì)的AI計(jì)算板加快AI處理的SDK“JetPack”概述NVIDIA Jetson
    發(fā)表于 11-09 08:26

    NVIDIA Jetson介紹

    首發(fā)極術(shù)社區(qū)如對(duì)Arm相關(guān)技術(shù)感興趣,歡迎私信 aijishu20加入技術(shù)微信群。分享內(nèi)容NVIDIA Jetson是嵌入式計(jì)算平臺(tái),具有低功耗、高性能和小體積等特點(diǎn),可加速各行業(yè)的AI應(yīng)用落地
    發(fā)表于 12-14 08:05

    如何利用運(yùn)行NVIDIA的EGX平臺(tái)上NVIDIA Metropolis應(yīng)用

    優(yōu)化對(duì)于無(wú)人零售、簡(jiǎn)化庫(kù)存管理、智慧城市的交通工程、工廠車間的光學(xué)檢測(cè)、醫(yī)療設(shè)施的患者護(hù)理等至關(guān)重要。 在本系列文章中,我們將探索現(xiàn)實(shí)案例中如何利用運(yùn)行NVIDIA的EGX平臺(tái)上NVIDI
    的頭像 發(fā)表于 08-13 10:45 ?2399次閱讀

    如何使用Anbox在Jetson Nano 2GB上運(yùn)行Android應(yīng)用程序

    **Jetson Nano 2GB是NVIDIA的一款高性價(jià)比嵌入式平臺(tái)。麻雀雖小五臟俱全,戰(zhàn)力強(qiáng)悍,但是惜乎沒(méi)有原生Android系統(tǒng)支持。目前想在Jetson
    的頭像 發(fā)表于 08-26 17:46 ?5766次閱讀

    何在NVIDIA Jetson平臺(tái)創(chuàng)建多攝像頭管道

      在本文中,我將展示如何在 NVIDIA Jetson 平臺(tái)上高效地實(shí)現(xiàn)這些常見(jiàn)任務(wù)。具體來(lái)說(shuō),我介紹了 jetmulticam ,一個(gè)易于使用的 Python 軟件包,用于創(chuàng)建多攝
    的頭像 發(fā)表于 04-28 09:15 ?3832次閱讀

    NVIDIA Jetson賦能智騁致想智惠農(nóng)業(yè)平臺(tái)

    NVIDIA Jetson 賦能智騁致想智惠農(nóng)業(yè)平臺(tái),助力 AI 在農(nóng)業(yè)領(lǐng)域的不斷發(fā)展。
    的頭像 發(fā)表于 06-27 14:27 ?1978次閱讀

    使用NVIDIA Jetson邊緣AI平臺(tái)實(shí)時(shí)分析患者數(shù)據(jù)

    臺(tái)北榮民總醫(yī)院正在使用 NVIDIA Jetson 邊緣 AI 平臺(tái)分析透析過(guò)程中的數(shù)據(jù)流。
    的頭像 發(fā)表于 07-19 10:59 ?2800次閱讀

    利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI

    的無(wú)限可能性。不同于其他嵌入式平臺(tái)Jetson 能夠在本地運(yùn)行大語(yǔ)言模型(LLM)、視覺(jué) Transformer 和 stable diffusion,包括在
    的頭像 發(fā)表于 11-07 21:25 ?2542次閱讀
    利用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> 實(shí)現(xiàn)生成式 AI

    NVIDIA Jetson 的嵌入式系統(tǒng)AI應(yīng)用

    在這個(gè)平臺(tái)上可以使用多個(gè)不同的芯片 ,案例的主角是AIMobile AIM Edge Ncox,一款基于NVIDIA Jetson Orin NX的小型被動(dòng)冷卻嵌入式系統(tǒng)。該系統(tǒng)具有6-8個(gè)Arm內(nèi)核和
    發(fā)表于 12-11 17:37 ?1379次閱讀

    何在NVIDIA Jetson平臺(tái)上運(yùn)行最新的開(kāi)源AI模型

    在小型、低功耗的邊緣設(shè)備上運(yùn)行先進(jìn)的 AI 和計(jì)算機(jī)視覺(jué)工作流正變得越來(lái)越具有挑戰(zhàn)性。機(jī)器人、智能攝像頭和自主設(shè)備需要實(shí)時(shí)智能來(lái)感知、理解并做出反應(yīng),而無(wú)需依賴云端。NVIDIA Jetson
    的頭像 發(fā)表于 12-24 10:38 ?1956次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b><b class='flag-5'>平臺(tái)上</b><b class='flag-5'>運(yùn)行</b>最新的開(kāi)源AI<b class='flag-5'>模型</b>

    NVIDIA Jetson模型賦能AI在邊緣端落地

    開(kāi)源生成式 AI 模型不再局限于數(shù)據(jù)中心,而是開(kāi)始深入到現(xiàn)實(shí)世界的各種機(jī)器中。從 Orin 到 Thor,NVIDIA Jetson 系列正在成為運(yùn)行
    的頭像 發(fā)表于 03-16 16:27 ?694次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b><b class='flag-5'>模型</b>賦能AI在邊緣端落地
    吉隆县| 中阳县| 二连浩特市| 雷州市| 涟源市| 平利县| 遂昌县| 白银市| 社旗县| 河津市| 乌兰浩特市| 新乡县| 景泰县| 文化| 高邮市| 潼南县| 玛纳斯县| 武汉市| 永康市| 峡江县| 青冈县| 翁牛特旗| 饶阳县| 连云港市| 伊通| 从江县| 四川省| 汝阳县| 岳阳市| 双辽市| 长白| 察隅县| 海阳市| 肥西县| 济南市| 黄梅县| 金乡县| 东乡| 东山县| 黄冈市| 石门县|