有码av一区不卡,久久久久久午夜福利

開(kāi)源生成式 AI 模型的迅猛發(fā)展正在推動(dòng)數(shù)據(jù)中心向物理世界中運(yùn)行的機(jī)器邁進(jìn)。開(kāi)發(fā)者渴望在邊緣部署這些模型，使物理 AI 智能體和自主機(jī)器人能夠自動(dòng)執(zhí)行繁重的任務(wù)。

關(guān)鍵的挑戰(zhàn)在于如何在內(nèi)存受限的邊緣設(shè)備上高效運(yùn)行包含數(shù)十億個(gè)參數(shù)的模型。在內(nèi)存供應(yīng)持續(xù)受限和成本上升的情況下，開(kāi)發(fā)者正專注于用更少的資源取得更多的成果。

NVIDIA Jetson 平臺(tái)支持熱門開(kāi)放模型，同時(shí)在邊緣提供強(qiáng)大的運(yùn)行時(shí)性能和內(nèi)存優(yōu)化。對(duì)于邊緣開(kāi)發(fā)者而言，顯存占用決定了系統(tǒng)是否正常運(yùn)行。與云環(huán)境不同，邊緣設(shè)備在嚴(yán)格的內(nèi)存限制下運(yùn)行，CPU 和 GPU 共享資源受限。

內(nèi)存使用效率低下可能會(huì)導(dǎo)致瓶頸、延遲峰值或系統(tǒng)故障。與此同時(shí)，現(xiàn)代邊緣應(yīng)用通常會(huì)運(yùn)行多個(gè)流程 (例如檢測(cè)、跟蹤和分割) ，這使得高效的內(nèi)存管理對(duì)于在功耗和散熱受限的情況下實(shí)現(xiàn)穩(wěn)定的實(shí)時(shí)性能至關(guān)重要。

優(yōu)化顯存占用具有明顯優(yōu)勢(shì)。開(kāi)發(fā)者可以通過(guò)減少開(kāi)銷和增加并發(fā)性來(lái)提高相同硬件的性能，同時(shí)支持更復(fù)雜的工作負(fù)載，如 LLM、多攝像頭系統(tǒng)和傳感器融合。它還通過(guò)適合較小的內(nèi)存配置來(lái)降低系統(tǒng)成本，并通過(guò)最大限度地減少瓶頸和最大限度地提高 GPU 利用率來(lái)提高效率 (每瓦性能) 。

本博客將探討各種優(yōu)化策略，以幫助開(kāi)發(fā)者在資源受限的邊緣系統(tǒng)上更大限度地提高性能、效率和功能。

邊緣 AI 軟件堆棧

我們來(lái)深入了解邊緣設(shè)備的運(yùn)行時(shí)軟件堆棧。本指南并非關(guān)于全內(nèi)存優(yōu)化的詳盡指南，而是一個(gè)參考框架，可激發(fā)靈感并幫助開(kāi)發(fā)者找到改進(jìn)堆棧的新方法。節(jié)省的內(nèi)存顯示了 NVIDIA 團(tuán)隊(duì)取得的成就。經(jīng)驗(yàn)豐富的用戶可以提高效率，而其他人則可以從這些示例開(kāi)始，更好地利用NVIDIA Jetson和NVIDIA IGX 平臺(tái)上的資源。

本博客探討了五個(gè)關(guān)鍵層，從 Jetson BSP 和 NVIDIA JetPack 的基礎(chǔ)開(kāi)始，一直到推理工作流、推理框架和量化技術(shù)。我們來(lái)逐步深入了解每一層。

圖 1. NVIDIA 硬件平臺(tái)上的典型邊緣 AI 軟件堆棧

基礎(chǔ)層：板級(jí)支持包和軟件堆棧

NVIDIA Jetson 板支持包 (BSP)和 NVIDIA JetPack 層構(gòu)成了軟件堆棧的基礎(chǔ)，可與硬件交互。它包括 Linux 內(nèi)核、設(shè)備驅(qū)動(dòng)程序、固件和JetPack SDK，以及支持計(jì)算、多媒體和加速 I/ O 的組件。此層將硬件復(fù)雜性 ( GPU、CPU、內(nèi)存和外設(shè)) 抽象化，為更高級(jí)別的服務(wù)和應(yīng)用提供穩(wěn)定、優(yōu)化的基礎(chǔ)。

在這一層，可以通過(guò)禁用未使用的服務(wù)并回收保留的剔除區(qū)域來(lái)節(jié)省內(nèi)存。這些優(yōu)化可減少應(yīng)用工作負(fù)載的開(kāi)銷和可用 DRAM，而不會(huì)影響核心功能。以下各節(jié)將重點(diǎn)介紹實(shí)現(xiàn)這些優(yōu)化的關(guān)鍵技術(shù)。

BSP 和 JetPack 層優(yōu)化指南適用于Jetson Orin NX和Jetson Orin Nano。

旋鈕	可以回收的內(nèi)存	說(shuō)明
禁用圖形桌面，包括顯示和 UI 相關(guān)服務(wù)。	高達(dá) 865 MB	sudo systemctl set-default multi-user.target
禁用網(wǎng)絡(luò)、連接和不必要的日志服務(wù)。	高達(dá) 32 MB	sudo systemctl disable

表 1. BSP 和 JetPack 級(jí)別的內(nèi)存優(yōu)化旋鈕

NVIDIA Jetson Orin NX 上的開(kāi)挖區(qū)域以及內(nèi)核和用戶空間優(yōu)化是提高整體系統(tǒng)效率的關(guān)鍵領(lǐng)域。以下各節(jié)將探討優(yōu)化這些層的實(shí)用技術(shù)。

雕刻優(yōu)化

NVIDIA Jetson Orin NX 和 NVIDIA Jetson Orin Nano 中的 Carveout 區(qū)域是在啟動(dòng)時(shí)預(yù)留的物理內(nèi)存，用于特定硬件引擎、固件和實(shí)時(shí)子系統(tǒng)。Linux 或NVIDIA CUDA應(yīng)用程序無(wú)法訪問(wèn)它們，而是由片上微控制器和加速器使用。它們充當(dāng)專用內(nèi)存池，以確保隔離、安全性和確定性行為。根據(jù)您的工作流和應(yīng)用程序需求，可以禁用一些分流，以進(jìn)一步優(yōu)化內(nèi)存使用量。

Carveout	何時(shí)禁用	如何禁用	回收的 dram 大小
CARVEOUT_DCE_TSEC	顯示時(shí) 不需要	請(qǐng)參閱注釋 1 然后重新刷寫	1 MB
CARVEOUT_DCE			32 MB
CARVEOUT_DISP_EARLY_BOOT_FB			34 MB
CARVEOUT_TSEC_DCE			1 MB
CARVEOUT_CAMERA_ 任務(wù)列表	當(dāng)相機(jī) 不需要	請(qǐng)參閱注釋 2 然后重新刷寫	32 MB
CARVEOUT_RCE	當(dāng)相機(jī) 不需要	請(qǐng)參閱注釋 2 然后重新刷寫	1 MB

表 2. 適用于各種分割的內(nèi)存優(yōu)化旋鈕

注 1：以下示例展示了用戶在不需要顯示時(shí)如何進(jìn)行內(nèi)存優(yōu)化。在 Linux_for_Tegra/bootloader/generic/BCT/tegra234-mb1-bct-misc-p3767-0000.dts 的/misc/carveout/節(jié)點(diǎn)內(nèi)添加代碼段

// Display-related carveouts
aux_info@CARVEOUT_BPMP_DCE {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_DCE_TSEC {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_DCE {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_DISP_EARLY_BOOT_FB {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_TSEC_DCE {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};

將 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 中/mb2-misc/auxp_controls@3/節(jié)點(diǎn)的內(nèi)容更新為：

/* Control fields for DCE cluster. */
auxp_controls@3 {
enable_init = <0>;
enable_fw_load = <0>;
enable_unhalt = <0>;
reset_vector = <0x40000000>;
};

刪除 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 的整個(gè)/mb2-misc/auxp_ast_config@6和/mb2-misc/auxp_ast_config@7節(jié)點(diǎn)

使用 dtc 工具將內(nèi)核 dtb 反編譯為 dts，將/display@13800000節(jié)點(diǎn)的狀態(tài)標(biāo)記為disabled，然后將 dts 重新編譯為內(nèi)核 dtb：

display@13800000 {
status = "disabled";
};

注 2: 以下示例展示了用戶如何在不需要攝像頭時(shí)優(yōu)化內(nèi)存。在 Linux_for_Tegra/bootloader/generic/BCT/tegra234-mb1-bct-misc-p3767-0000.dts 的/misc/carveout/節(jié)點(diǎn)內(nèi)添加代碼段：

aux_info@CARVEOUT_CAMERA_TASKLIST {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};
aux_info@CARVEOUT_RCE {
pref_base = <0x0 0x0>;
size = <0x0 0x0>; // 0MB
alignment = <0x0 0x0>; // 0MB
};

將 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 的/mb2-misc/auxp_controls = 2/node 的內(nèi)容更新為：

/* Control fields for RCE cluster. */
auxp_controls@2 {
enable_init = <0>;
enable_fw_load = <0>;
enable_unhalt = <0>;
};

內(nèi)核端優(yōu)化

Jetson Orin、Orin NX 和 Orin Nano 平臺(tái)使用 NVIDIA 特定的輸入/ 輸出內(nèi)存管理單元 (IOMMU) 來(lái)處理外設(shè)的直接內(nèi)存訪問(wèn) (DMA) 地址轉(zhuǎn)換，使設(shè)備能夠訪問(wèn)系統(tǒng)內(nèi)存，而不管物理地址如何。

Linux 軟件 I/ O 翻譯旁路緩沖區(qū) (SWIOTLB) 是一種變通方案，適用于沒(méi)有硬件 IOMMU 或外圍設(shè)備限制為 32 位 DMA 的系統(tǒng)。由于 Orin 包含一個(gè)強(qiáng)大的硬件 IOMMU，可重新映射 DMA 地址，因此 SWIOTLB 通常是冗余的。

SWIOTLB 調(diào)優(yōu)

對(duì)于需要 SWIOTLB 的特定用例或非標(biāo)準(zhǔn)外設(shè)，或者當(dāng)內(nèi)核日志表明存在 DMA 問(wèn)題時(shí)，可以使用啟動(dòng)參數(shù)調(diào)整保留大小。

swiotlb=參數(shù)定義 I/ O TLB 板的數(shù)量 (每個(gè) 2 KB) ：

總大小 (字節(jié)) swiotlb_value = 2048

示例 ( 4 MB 緩沖區(qū)) ：

4 MB 2 KB 2048 塊板

內(nèi)核命令：swiotlb=2048

用戶空間側(cè)優(yōu)化

在Jetson上，應(yīng)用程序總內(nèi)存包括：

進(jìn)程和系統(tǒng)服務(wù)使用的 CPU 內(nèi)存。

CUDA、多媒體緩沖區(qū)和加速器使用的硬件 (NvMap) 顯存。

兩者共享相同的物理內(nèi)存池，優(yōu)化二者會(huì)相互受益。

減少 CPU 顯存占用

首先，識(shí)別 CPU 內(nèi)存消耗最多的進(jìn)程。GUI 或音頻組件等后臺(tái)服務(wù)可能會(huì)占用大量?jī)?nèi)存，在生產(chǎn)環(huán)境中可能沒(méi)有必要。

測(cè)量 CPU 顯存占用率
使用procrank分析顯存占用率：

$ git clone https://github.com/csimmonds/procrank_linux.git
$ cd procrank_linux/
$ make
$ sudo ./procrank

輸出按 PSS (比例集大小) 排序，反映實(shí)際物理內(nèi)存使用量。

根據(jù)發(fā)現(xiàn)進(jìn)行優(yōu)化并確定流程

gnome-shell或Xorg(GUI)

pulseaudio

未使用的 python3 進(jìn)程

這些在生產(chǎn)環(huán)境中通常是不必要的，并且可以禁用以回收內(nèi)存。在無(wú)外設(shè)部署中，禁用 GUI 服務(wù)可以釋放大量系統(tǒng)內(nèi)存。

圖 2. 在用戶空間中禁用 GUI 相關(guān)服務(wù)可節(jié)省的內(nèi)存

分析和衡量硬件內(nèi)存使用率

除了 CPU 內(nèi)存之外，GPU 和多媒體分配也會(huì)影響可用內(nèi)存。

$ sudo cat /sys/kernel/debug/nvmap/iovmm/clients

* 這顯示了使用 NvMap (例如 CUDA、視頻工作流) 的進(jìn)程的內(nèi)存使用情況。

優(yōu)化硬件內(nèi)存

識(shí)別使用大型 GPU 或緩沖區(qū)分配的進(jìn)程。與 CPU 優(yōu)化一樣，GUI 工作流 (gnome-shell，Xorg) 等服務(wù)可能會(huì)消耗不必要的硬件內(nèi)存。減少這些分配可釋放更多內(nèi)存用于 AI 工作負(fù)載。

圖 3. 識(shí)別用戶空間中占用大型 GPU 或緩沖區(qū)分配內(nèi)存的進(jìn)程

推理工作流

此層通過(guò)預(yù)處理、推理和后處理來(lái)管理端到端數(shù)據(jù)流，以生成可操作的輸出。框架如NVIDIA DeepStream為視頻和傳感器輸入等流式傳輸數(shù)據(jù)提供 GPU 加速的高性能工作流。它們?cè)诤?jiǎn)化的工作流程中處理解碼、批處理、推理、跟蹤和分析，從而實(shí)現(xiàn)可擴(kuò)展的處理。此層可抽象化復(fù)雜性，優(yōu)化數(shù)據(jù)傳輸和計(jì)算利用率，從而打造高效的生產(chǎn)就緒型 AI 應(yīng)用。

了解如何通過(guò)配置和實(shí)現(xiàn)選項(xiàng)優(yōu)化推理工作流，以減少內(nèi)存占用并提高性能。雖然通過(guò) DeepStream 展示了這些原則，但這些原則廣泛適用于各種框架和應(yīng)用。

旋鈕	可以回收的內(nèi)存
容器與裸金屬	高達(dá) 70 MB
從 Python 切換到 C++	高達(dá) 84 MB
調(diào)整工作流配置：禁用 Tiler/ OSDUse FakeSink	高達(dá) 258 MB
總計(jì)	412 MB

表 3. 有助于減少 DeepStream 式推理工作流中顯存占用的旋鈕
** 在 DeepStream 式推理工作流中，禁用 Tiler/ OSD 并使用 FakeSink 可以消除可視化所需的顯示階段，但在無(wú)外設(shè)部署或生產(chǎn)部署中卻不必要。這樣可以節(jié)省內(nèi)存、減少 GPU 負(fù)載并提高吞吐量。

推理框架

適用于 LLM 的推理服務(wù)框架層專注于在生產(chǎn)環(huán)境中高效部署和擴(kuò)展大語(yǔ)言模型，其中 vLLM、SGLang 和 Llama.cpp 等框架在該領(lǐng)域處于領(lǐng)先地位。這些框架通過(guò)持續(xù)批處理、KV 緩存管理和高效內(nèi)存利用率等技術(shù)優(yōu)化推理，以更大限度地提高吞吐量并降低延遲。

vLLM 憑借其分頁(yè)注意力機(jī)制在高吞吐量服務(wù)方面表現(xiàn)出色。

SGLang 支持靈活且可編程的推理工作流程。

Llama.cpp 和 NVIDIA TensorRT Edge-LLM 經(jīng)過(guò)優(yōu)化，可在資源受限的環(huán)境中高效執(zhí)行。

這些框架提供了在邊緣本地部署時(shí)可靠地提供 LLM 所需的基礎(chǔ)架構(gòu)。

模型量化

模型量化是一項(xiàng)關(guān)鍵技術(shù)，可使用較低精度的數(shù)據(jù)類型表示權(quán)重和激活函數(shù)，從而減少內(nèi)存占用并加速 AI 模型的推理。

量化應(yīng)根據(jù)目標(biāo)用例的明確準(zhǔn)確性和性能要求進(jìn)行驅(qū)動(dòng)。在選擇量化方案之前，請(qǐng)定義：

可接受的最低模型質(zhì)量或任務(wù)準(zhǔn)確性。

目標(biāo)吞吐量和延遲。

部署限制，尤其是可用的 GPU 顯存。

鎖定這些要求后，推薦的方法是逐步評(píng)估較低精度的量化選項(xiàng)。從最高準(zhǔn)確度的基準(zhǔn)開(kāi)始，然后向下移動(dòng)至支持的量化格式，直到模型不再滿足所需的質(zhì)量值。選定的量化點(diǎn)應(yīng)是仍能滿足用例準(zhǔn)確性要求的最低精度，因?yàn)檫@通?？商峁┳罴训膬?nèi)存節(jié)省量和效率。

圖 4. 在 Llama.cpp ( Jetson Orin NX 16 GB) 上對(duì) Qwen3 4B 進(jìn)行 INT4 與 BF16 基準(zhǔn)測(cè)試，強(qiáng)調(diào)了內(nèi)存和吞吐量的提升

如果低位量化帶來(lái)了不可接受的性能下降，請(qǐng)使用量化感知蒸餾 (QAD)等恢復(fù)技術(shù)來(lái)恢復(fù)丟失的準(zhǔn)確性。這些方法通?？梢曰謴?fù)足夠的模型質(zhì)量，在滿足部署要求的同時(shí)實(shí)現(xiàn)更積極的量化。

選擇量化級(jí)別后，優(yōu)化目標(biāo)部署的運(yùn)行時(shí)內(nèi)存。對(duì) vLLM 配置參數(shù) (尤其是 GPU 顯存利用率) 進(jìn)行掃描，找到維持目標(biāo)性能所需的最小顯存占用。這可確保針對(duì)吞吐量和延遲目標(biāo)進(jìn)行規(guī)模合適的高效部署。

FP16 和 FP8 等格式平衡了準(zhǔn)確性和性能，F(xiàn)P8 越來(lái)越多地用于提高吞吐量。W4A16 等更激進(jìn)的方案可減少內(nèi)存和帶寬需求，同時(shí)保持可接受的準(zhǔn)確性。NVIDIA NVFP4通過(guò)硬件友好型 4 位計(jì)算進(jìn)一步提高了效率。這些方法共同為大型模型和資源受限的系統(tǒng)實(shí)現(xiàn)了更快、更經(jīng)濟(jì)高效的推理。支持因 Jetson 平臺(tái)而異，詳情請(qǐng)參閱NVIDIA Jetson產(chǎn)品目錄。

旋鈕	可以回收的內(nèi)存	注意事項(xiàng)
Qwen3 8B 上從 FP16 到 W4A16 的模型量化	~ 10 GB	Qwen3 8B
Qwen3 4B 上從 BF16 到 INT4 的模型量化	約 5.6 GB	Qwen3 4B

表 4. 模型量化中回收的內(nèi)存

根據(jù)所包含和優(yōu)化的五層軟件堆棧組件，可在保持高精度和功能同等的同時(shí)節(jié)省高達(dá) 10 – 12 GB 的內(nèi)存。

使用專用加速器解析邊緣推理

Jetson平臺(tái)包含多個(gè)非 GPU 加速器，可通過(guò)卸載 CPU 和 GPU 中的專用工作負(fù)載來(lái)提高效率。其中包括用于攝像頭處理的圖像信號(hào)處理器 (ISP) 、用于視頻編碼/ 解碼的 NVENC/ NVDEC，以及用于視覺(jué)任務(wù)的 NVIDIA 可編程視覺(jué)加速器 (PVA) 。

從Jetson Orin NX到Jetson Thor的 PVA，非常適合始終開(kāi)啟、低功耗的視覺(jué)工作負(fù)載，例如監(jiān)控模式、移動(dòng)檢測(cè)、目標(biāo)跟蹤和特征提取，在這些工作負(fù)載中，持續(xù)使用 GPU 會(huì)降低效率。通過(guò)卸載這些任務(wù)，PVA 可降低延遲并釋放 GPU 資源，以處理更復(fù)雜的推理或并行工作負(fù)載，從而提高邊緣部署的整體性能和能效。

NVIDIA cuPVA SDK 目前處于搶先體驗(yàn)階段。如果您有興趣探索其功能，請(qǐng)聯(lián)系我們以獲取更多信息。

多層間的可能節(jié)?。?/p>

圖層	潛在節(jié)省
BSP 和操作系統(tǒng)服務(wù)	~ 1025 MB
工作流優(yōu)化	~ 412 MB
推理框架和模型量化	約 5 至 10 GB

表 5. 在軟件堆棧的各個(gè)級(jí)別回收內(nèi)存

如果說(shuō)有一個(gè)關(guān)鍵要點(diǎn)，那就是使用正確的量化精度。

NVFP4、INT4 和 W4A16 等格式可顯著減少內(nèi)存和存儲(chǔ)需求，同時(shí)為許多 LLM 工作負(fù)載保持較高的準(zhǔn)確性。

實(shí)際用例：Reachy Mini Jetson Mini Assistant

為了展示這些內(nèi)存優(yōu)化的影響，請(qǐng)考慮使用Reachy Mini Jetson Assistant，這是一款在 Jetson Orin Nano 上運(yùn)行的本地對(duì)話式 AI 機(jī)器人，具有 8 GB 統(tǒng)一內(nèi)存，不依賴云。

該助手同時(shí)運(yùn)行多模態(tài) AI 工作流，包括：量化為 4 位 (Q4_K_M GGUF) 并通過(guò) Llama.cpp 提供的視覺(jué)語(yǔ)言模型 (Cosmos-Reason2-2B) ，用于實(shí)現(xiàn)視覺(jué)理解；用于語(yǔ)音識(shí)別的faster-whisper (small.en)；用于文本轉(zhuǎn)語(yǔ)音的Kokoro TTS，以及 Reachy Mini SDK 機(jī)器人和實(shí)時(shí) Web 控制面板。

借助堆棧范圍的優(yōu)化 (禁用顯示管理器，無(wú)外設(shè)運(yùn)行，通過(guò) Llama.cpp 而不是更重的 Python 框架提供 VLM，使用 4 位量化 Cosmos Reason2 2B，并選擇優(yōu)化的運(yùn)行時(shí) (適用于 STT 的 CTranslate2、適用于 TTS 和 VAD 的 ONNX Runtime) ，完整的工作流可在單個(gè) Orin Nano 8 GB 系統(tǒng)上運(yùn)行。

更廣泛地說(shuō)，將 4 位量化與高效的推理運(yùn)行時(shí) (如Llama.cpp和TensorRT-Edge-LLM) 相結(jié)合，可在此內(nèi)存預(yù)算內(nèi)訪問(wèn)各種模型，其中 LLM 參數(shù)高達(dá) 100 億個(gè)，VLM 參數(shù)高達(dá) 40 億個(gè)。如需測(cè)試模型的完整列表，請(qǐng)?jiān)L問(wèn)Jetson AI 實(shí)驗(yàn)室模型頁(yè)面和NVIDIA 開(kāi)發(fā)者論壇。

關(guān)于作者

Anshuman Bhat 是 NVIDIA 的計(jì)算部門產(chǎn)品經(jīng)理。他一直是 NVIDIA CUDA 產(chǎn)品管理團(tuán)隊(duì)的推動(dòng)者，在過(guò)去的 9 年里，他一直為 CUDA 和分布式計(jì)算的所有領(lǐng)域做出貢獻(xiàn)。他目前專注于 CUDA Python、CUDA 教育、CUDA 技術(shù)營(yíng)銷和產(chǎn)品管理計(jì)劃。他還負(fù)責(zé)管理 NVIDIA Legate 產(chǎn)品，包括 Legate、Legion、Realm、cuPyNumeric 和 Legate Boost。

Aditya Sahu 是 NVIDIA Jetson Edge AIP 平臺(tái)團(tuán)隊(duì)的技術(shù)營(yíng)銷工程師。他負(fù)責(zé)推動(dòng)該平臺(tái)的采用，并展示該平臺(tái)的技術(shù)能力。他積極與 NVIDIA 開(kāi)發(fā)者社區(qū)互動(dòng)，在 Jetson 上倡導(dǎo) AI 模型推理和 SDK。Hepor 曾在 Synaptics 工作，專注于構(gòu)建邊緣 AI 解決方案，并曾在 Nuvoton 和 Netcracker 擔(dān)任機(jī)器學(xué)習(xí)和軟件工程職務(wù)。他擁有圣何塞州立大學(xué)的人工智能理學(xué)碩士學(xué)位和 Siddaganga 理工學(xué)院的計(jì)算機(jī)科學(xué)理學(xué)學(xué)士學(xué)位。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
11343

瀏覽量
226041
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5706

瀏覽量
110154
AI

AI

+關(guān)注

關(guān)注
91

文章
41464

瀏覽量
302791
模型

模型

+關(guān)注

關(guān)注
1

文章
3841

瀏覽量
52294

原文標(biāo)題：更大限度地提高內(nèi)存效率，在 NVIDIA Jetson 上運(yùn)行更大的模型

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

如何在NVIDIA Jetson平臺(tái)上運(yùn)行更大的模型

評(píng)論