日韩三级在线,我爱AV好色

對(duì)于“AI模型是顯存殺手”這事，我想就算那些沒有本地部署過，甚至沒有特別關(guān)注過我們顯卡和筆記本評(píng)測(cè)中的AI體驗(yàn)部分的玩家應(yīng)該也知道這個(gè)事實(shí)——畢竟從年初到現(xiàn)在，DeepSeek已經(jīng)足夠火爆，以至于公園下棋老大爺都能給您編排出一段AI界的三國(guó)演義出來.....回到本文的主題，今天我們還是聊聊本地部署DeepSeek模型這事。

首先還是要說明的是，我們部署的是DeepSeek-R1蒸餾模型，而不是DeepSeek-R1 671B。老實(shí)說，671B的滿血版確實(shí)超出普通玩家的范疇了，和個(gè)人范疇內(nèi)的“性價(jià)比”更是毫不相關(guān)。不過，蒸餾模型還是能做不少事情的，比如用于翻譯服務(wù)，而且本地部署有很多好處，除了老生常談的隱私問題外，還能避免“服務(wù)器繁忙，請(qǐng)稍后再試”這種情況發(fā)生。

然而就算是蒸餾模型，對(duì)于顯卡的要求也是相當(dāng)高。這里不說DeepSeek-R1蒸餾模型中最大的DeepSeek-R1-Distill-Llama-70B了，就算是排第二的DeepSeek-R1-Distill-Qwen-32B，要想單卡運(yùn)行的話您至少需要一張RTX 5090或者RTX 4090?？紤]到它倆現(xiàn)時(shí)的價(jià)格，這仍然算不上是很“性價(jià)比”。那么，還有什么便宜大碗的方案呢？

那當(dāng)然還是有的，而且可能比買二手顯卡這事還要穩(wěn)——兩張英特爾銳炫A770 16GB便是個(gè)值得嘗試的方案。別被雙卡這個(gè)概念嚇到，以顯存容量去評(píng)判的話，兩張銳炫A770加一塊也就3600元，可是要比RTX 4070還要實(shí)惠。唯一有要求的可能是您的主板和電源，前者是PCIe速度，后者自然是兩張A770的功耗了。

“大顯存支持：16GB GDDR6顯存（顯存帶寬560GB/s）為大型模型訓(xùn)練和推理提供了充足的資源，尤其適合需要高顯存容量的AI應(yīng)用和內(nèi)容創(chuàng)作場(chǎng)景。”——節(jié)選自DeepSeek-R1對(duì)銳炫A770 16GB的評(píng)價(jià)。

測(cè)試平臺(tái)

本次測(cè)試的平臺(tái)是英特爾大全套，處理器是酷睿Ultra 9 285K。其實(shí)在這次測(cè)試中，CPU反而不太重要，拿顆酷睿Ultra 5也行。重點(diǎn)反而是主板，最好選一些兩個(gè)PCIe 5.0 x8插槽的主板。

您也許會(huì)問為什么我給出這樣的建議但是卻用了技嘉Z890 AORUS MASTER這塊配置為PCIe 5.0 x16（CPU）、PCIe 4.0 x1（芯片組）和PCIe 4.0 x4（芯片組）各一個(gè)的主板。原因也很簡(jiǎn)單，本來打算用的Z890主板的Killer網(wǎng)卡比較新，在本次系統(tǒng)里似乎暫時(shí)缺乏驅(qū)動(dòng)支持，于是就這樣了。

前期準(zhǔn)備

目前這個(gè)方案只能在Linux環(huán)境下面用，因此安裝系統(tǒng)便成了首先要解決的問題。根據(jù)英特爾樹外驅(qū)動(dòng)的要求，我安裝了Ubuntu 22.04.1（內(nèi)核是Kernel 6.5.0-35-generic）。因?yàn)長(zhǎng)inux基本離不開終端操作，所以接下來我會(huì)說得簡(jiǎn)要一點(diǎn)，畢竟要把一大段命令當(dāng)成正文頗有種水字?jǐn)?shù)的感覺，不利于閱讀（我就假定在讀本文的各位和我一樣略懂點(diǎn)Ubuntu就好了，反正也就用到sudo apt install這些命令）。

裝完系統(tǒng)之后便是樹外驅(qū)動(dòng)了。反正照著英特爾的文檔添加軟件源，然后裝上intel-i915-dkms和intel-fw-gpu這兩個(gè)軟件包，把當(dāng)前用戶分到渲染組就可以了。

重啟后，用lspci或者xpu-smi（這個(gè)需要額外安裝）可以看到兩張銳炫A770 16GB已經(jīng)就位。至于多出來的那個(gè)non-VGA設(shè)備則是酷睿Ultra的NPU，不用去管它。

接下來的操作就很簡(jiǎn)單了，畢竟我們是通過docker來運(yùn)行前后端的，如果玩過NAS的話應(yīng)該知道docker有多好用——只要您有一個(gè)足夠良好的網(wǎng)絡(luò)。不過我們有現(xiàn)成的鏡像和腳本，倒不用進(jìn)行拉取這一步，如果您要照做的話，請(qǐng)拉取open-webui（前端）和intelanalytics/ipex-llm-serving-xpu:2.2.0-b12-client（后端）這兩個(gè)鏡像。腳本的話可以結(jié)合最下面的鏈接，同時(shí)參考下面的截圖。

這里順便說一下ipex-llm是什么，它是一個(gè)為英特爾GPU打造的LLM加速庫，支持核顯、銳炫獨(dú)立顯卡和數(shù)據(jù)中心顯卡等設(shè)備，并已經(jīng)和llama.cpp、Ollama和vLLM等框架無縫集成。

最后是AI模型DeepSeek-R1-Distill-Qwen-32B-AWQ，這個(gè)用huggingface-cli下載就行。記得把環(huán)境變量改成鏡像站hf-mirror.com，可以提高下載速度；還有就是把模型下到本地文件夾里面，不使用huggingface-cli的緩存系統(tǒng)。

對(duì)了，如果您不打算更改上面的腳本內(nèi)容，這里建議把下載的所有東西都扔到根目錄下的/model文件夾中。

參考閱讀1：樹外驅(qū)動(dòng)安裝《Installing Data Center GPU: LTS Releases》

參考閱讀2：通過docker部署AI服務(wù)《vLLM Serving with IPEX-LLM on Intel GPUs via Docker》

實(shí)際體驗(yàn)

準(zhǔn)備工作完了之后，接下來就非常簡(jiǎn)單了，用腳本啟動(dòng)前后端容器，并啟動(dòng)后端應(yīng)用即可。

在本地機(jī)上訪問127.0.0.1:8080就能見到Open WebUI的主界面了，這個(gè)服務(wù)是對(duì)局域網(wǎng)開放的，所以我們也可以用連到同一個(gè)網(wǎng)絡(luò)的設(shè)備去訪問它，比如手機(jī)和平板。

接下來的界面相信大家就很熟悉了，就和平時(shí)用的網(wǎng)頁chatbot一樣。只不過這一次所有的服務(wù)都運(yùn)行于本地，不受網(wǎng)絡(luò)波動(dòng)的影響，拔掉路由器的WAN口也一切如常。

來看看它的運(yùn)行速度。單個(gè)用戶訪問時(shí)，平均生成速度在26 tokens/s左右。在上圖的演示里面，我們讓它用HTML寫了個(gè)貪吃蛇，完成后右側(cè)就出現(xiàn)了窗口，可以馬上進(jìn)行游玩。另外，還可以根據(jù)需求叫AI修改代碼，比如這次我叫它把貪吃蛇改成自動(dòng)運(yùn)行，這樣截圖會(huì)方便一點(diǎn)。

單用戶使用

但這顯然還不是這套平臺(tái)的極限。我們?cè)嚵嗽囋谌_(tái)設(shè)備（本機(jī) + 另一臺(tái)電腦 + 手機(jī)）上同時(shí)訪問AI服務(wù)，平均生成速度可以達(dá)到66tokens/s。無論在哪臺(tái)設(shè)備上，AI都沒有出現(xiàn)卡殼的現(xiàn)象，輸出文字的速度很快。

多用戶使用

附加內(nèi)容：如何切換模型？

正當(dāng)我們體驗(yàn)DeepSeek-R1蒸餾模型的時(shí)候，國(guó)內(nèi)另一家實(shí)力同樣強(qiáng)勁的大模型團(tuán)隊(duì)通義發(fā)布了他們的推理模型QwQ-32B。該模型在AIME24、LiveBench等多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出不弱于DeepSeek-R1 671B也就是滿血版DeepSeek-R1的實(shí)力，更是要比上面運(yùn)行的蒸餾模型要強(qiáng)得多。因此我們也在這里介紹一下如何把模型切換成QwQ-32B（以及其他你想體驗(yàn)的模型）。

來源：Qwen博客

首先還是用huggingface-cli把QwQ-32B的模型拖到/model文件夾中，我們這次選擇的是QwQ-32B-AWQ，也就是用AWQ量化的版本。

接下來只需要修改上面圖片中的ds.sh腳本就行，當(dāng)然，這里建議直接復(fù)制一份并重命名為QwQ.sh再進(jìn)行修改，便于日后操作。要修改的地方不多，就是前面兩行的路徑和命名而已。做好這部分工作后重啟一下后端容器，用腳本啟動(dòng)即可。

我這里沒有改名，直接保存了

至于QwQ-32B-AWQ在這套平臺(tái)上的運(yùn)行情況和蒸餾模型時(shí)類似，平均生成速度也是26 token/s。另外我們特意用xpu-smi監(jiān)測(cè)了兩張顯卡的顯存占用情況，每張顯卡各消耗了14GB顯存左右，合起來大約是28GB。如果要僅用一張卡處理這么大的模型，那預(yù)算真的要花上不少。

總結(jié)

總的來說，兩張銳炫A770 16GB確實(shí)是一個(gè)性價(jià)比較高的本地部署AI方案。正如我在開頭所說，不把二手設(shè)備算在內(nèi)的話，現(xiàn)在3600元您真的很難買到一張NVIDIA或者AMD的大顯存顯卡，但是一口氣買兩張銳炫A770 16GB（甚至還是OC版）是完全有可能的，更進(jìn)一步地說，由于單卡價(jià)格的足夠?qū)嵒?，你還可以買更多張去運(yùn)行參數(shù)量更大的模型（當(dāng)然，這時(shí)候主板和處理器會(huì)比銳炫A770要貴得多）。除了硬件上足夠有性價(jià)比外，我們還要強(qiáng)調(diào)一下軟件上的優(yōu)勢(shì)：銳炫顯卡有著來自英特爾完善的驅(qū)動(dòng)和加速庫支持，部署時(shí)docker鏡像一拉就完事，然后運(yùn)行時(shí)雙卡都能拼盡全力，這些點(diǎn)也是相當(dāng)重要的。

接下來也說說這個(gè)方案的一些注意的點(diǎn)。首先就是功耗和發(fā)熱了，雖然您不會(huì)每分鐘都向AI提問，但是如果把它當(dāng)作一臺(tái)全時(shí)運(yùn)行的AI服務(wù)器的話，累積下來的耗電（還有制造的熱量）還是挺“可觀”的。其次就是部署的難度問題，如果您不是從事計(jì)算機(jī)方面的工作，用Ubuntu這些Linux發(fā)行版還是一件蠻有挑戰(zhàn)性的事——事實(shí)上在測(cè)試過程中，我也因?yàn)樘脹]搗鼓路由器和NAS而忘掉一些命令的用法，只好不停地“--help”。

不過話說回來，這兩種情況在未來都是可以改變的。英特爾表示在未來，玩家將可以用2塊銳炫B580搭建AI服務(wù)器，以及加入對(duì)Windows 11的支持，對(duì)于絕大部分的玩家來說，后者尤其是好事。當(dāng)然，如果你只是想簡(jiǎn)單體驗(yàn)英特爾硬件的AI性能，也可以直接下載英特爾AI Playground這個(gè)應(yīng)用就是了。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴