繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入NVIDIAJetson AGX Thor的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務(wù)。
具體內(nèi)容包括:
vLLM 簡介與優(yōu)勢
vLLM Docker 容器構(gòu)建
使用 vLLM 在線下載模型
使用 vLLM 運(yùn)行本地模型
使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型
一、vLLM 簡介與優(yōu)勢
1什么是 vLLM?
vLLM 是一個(gè)高效的大語言模型推理和服務(wù)引擎,專門優(yōu)化了注意力機(jī)制和內(nèi)存管理,能夠提供極高的吞吐量。
2在 Jetson AGX Thor 上運(yùn)行 vLLM 的優(yōu)勢:
PagedAttention 技術(shù):顯著減少內(nèi)存碎片,提高 GPU 利用率
Continuous Batching 機(jī)制:能夠連續(xù)動(dòng)態(tài)處理不同長度的請(qǐng)求
開源生態(tài):支持主流開源模型(Llama、Qwen、ChatGLM 等)
二、vLLM Docker 容器構(gòu)建
在上一期NVIDIA Jetson AGX Thor Developer Kit 開發(fā)環(huán)境配置教程中,我們已經(jīng)完成了 Docker 的安裝與配置,現(xiàn)在,只需要使用 Docker 拉取 vLLM 鏡像即可。

當(dāng)前 Docker 版本
1. 參照上期教程介紹的方法,注冊(cè)并登錄 NGC 之后,搜索 vLLM 進(jìn)入容器頁面,點(diǎn)擊“Get Container”,復(fù)制鏡像目錄。

2. 在命令行運(yùn)行docker pull nvcr.io/nvidia/vllm:25.10-py3下載鏡像。

3. 下載完成后,運(yùn)行容器,創(chuàng)建啟動(dòng)命令。
sudodocker run -d -t --net=host --gpusall --ipc=host --name vllm -v /data:/data --restart=unless-stopped nvcr.io/nvidia/vllm:25.10-py3

注:關(guān)鍵參數(shù)說明
-d (detach):后臺(tái)運(yùn)行容器
-t (tty):分配一個(gè)偽終端,方便日志輸出
--name vllm:為容器指定名稱"vllm"
--net=host:使用主機(jī)網(wǎng)絡(luò)模式,容器與主機(jī)共享網(wǎng)絡(luò)命名空間
--gpus all:將所有可用的 GPU 設(shè)備暴露給容器
--ipc=host:使用主機(jī)的 IPC 命名空間,改善進(jìn)程間通信性能
-v /data:/data:將主機(jī)的 /data 目錄掛載到容器的 /data 目錄,后面可用于持久化模型文件、配置文件等數(shù)據(jù)
--restart=unless-stopped:Docker 容器的重啟策略參數(shù),表示容器在非人工主動(dòng)停止時(shí)(如崩潰、宿主機(jī)重啟),會(huì)自動(dòng)重啟,但若被手動(dòng)停止,則不會(huì)自動(dòng)恢復(fù)
4. 容器創(chuàng)建成功后,使用docker exec -it vllm /bin/bash命令進(jìn)入此容器。

三、使用 vLLM 在線下載模型
1. 從 Hugging Face 上下載模型權(quán)重:
通常默認(rèn)的模型下載目錄為:.cache/huggingface/hub/,通過設(shè)置環(huán)境變量,我們將指定模型下載到:export HF_HOME=/data/huggingface目錄,然后執(zhí)行vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct",此命令會(huì)從 Hugging Face 上在線拉取下載模型并開始運(yùn)行。

2. 等待模型文件下載完成(需科學(xué)上網(wǎng))。

注:為方便后續(xù)調(diào)用,建議通過本地終端確認(rèn)模型已下載到預(yù)設(shè)目錄(如下圖所示)。

在沒有前端的情況下,可以通過 curl 命令向 vLLM 服務(wù)發(fā)送聊天請(qǐng)求。
curl http://localhost:8000/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model":"Qwen/Qwen2.5-Math-1.5B-Instruct",
"messages": [{"role":"user","content":"12*17"}],
"max_tokens":500
}'

注:關(guān)鍵參數(shù)說明
curl:命令行工具,用于傳輸數(shù)據(jù)
http://localhost:8000:本地服務(wù)器地址和端口
/v1/chat/completions:OpenAI 兼容的聊天補(bǔ)全 API 端點(diǎn)
-H:設(shè)置 HTTP 請(qǐng)求頭
"Content-Type:application/json":指定請(qǐng)求體為 JSON 格式
-d:設(shè)置請(qǐng)求數(shù)據(jù)
"model":"Qwen/Qwen2.5-Math-1.5B-Instruct":指定要使用的模型,這個(gè)名稱應(yīng)該與 vLLM 服務(wù)啟動(dòng)時(shí)指定的模型名稱一致
"messages:[{"role": "user", "content": "12*17"}]:定義對(duì)話歷史和當(dāng)前消息
消息對(duì)象字段:"role" 指消息角色;"user"指用戶消息,"Content"指消息具體內(nèi)容;"12*17"指用戶提出的數(shù)學(xué)問題
"max_tokens":500:限制模型生成的最大 token 數(shù)量
四、使用 vLLM 運(yùn)行本地模型
如前所述,模型已下載保存至本地指定目錄,可以直接通過其路徑啟動(dòng)服務(wù)。
以上方“Qwen/Qwen2.5-Math-1.5B-Instruct”為例,該模型權(quán)重路徑為:
“/data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35”。

執(zhí)行以下命令,即可正常運(yùn)行本地模型。
vllmserve /data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35
五、使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型
1. 局域網(wǎng)內(nèi)訪問 Chatbox 官網(wǎng)(https://chatboxai.app),下載并安裝Windows版本。
2. 點(diǎn)擊“設(shè)置提供方” — “添加”,輸入名稱,再次點(diǎn)擊“添加”。



上下滑動(dòng) 點(diǎn)擊查看
3. API 主機(jī)可輸入 Jetson AGX Thor 主機(jī) IP 以及 vLLM 服務(wù)端口號(hào)。
(例:http://192.168.23.107:8000)

4. 選擇 vLLM 運(yùn)行的模型,點(diǎn)擊“+”。


5. 點(diǎn)擊“新對(duì)話”,右下角選擇該模型即可開啟對(duì)話。

6. 運(yùn)行示例
由于 Qwen2.5-Math 是一款數(shù)學(xué)專項(xiàng)大語言模型,我們?cè)诖耸纠釂栆粋€(gè)數(shù)學(xué)問題,運(yùn)行結(jié)果如下:

更多精彩教程,敬請(qǐng)期待!
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5696瀏覽量
110138 -
模型
+關(guān)注
關(guān)注
1文章
3831瀏覽量
52285 -
開發(fā)環(huán)境
+關(guān)注
關(guān)注
1文章
275瀏覽量
17680 -
Docker
+關(guān)注
關(guān)注
0文章
537瀏覽量
14411
原文標(biāo)題:輕松部署!在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務(wù)
文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA Jetson AGX Thor Developer Kit開發(fā)環(huán)境配置指南
怎么做才能通過Jetson Xavier AGX構(gòu)建android圖像呢?
NVIDIA Jetson AGX Orin提升邊緣AI標(biāo)桿
使用NVIDIA Jetson AGX Xavier部署新的自主機(jī)器
NVIDIA 推出 Jetson AGX Orin 工業(yè)級(jí)模塊助力邊緣 AI
利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI
NVIDIA Jetson AGX Thor開發(fā)者套件概述
基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來
如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務(wù)
評(píng)論