av不卡在线观看,天天日www久久久搞,特色特黄兔费视频播放

隨著 AI 使用場(chǎng)景不斷擴(kuò)展（從文檔摘要到定制化軟件代理），開發(fā)者和技術(shù)愛好者正在尋求以更快、更靈活的方式來運(yùn)行大語言模型（LLM）。

在配備 NVIDIA GeForce RTX GPU 的 PC 上本地運(yùn)行模型，可實(shí)現(xiàn)高性能推理、增強(qiáng)型數(shù)據(jù)隱私保護(hù)，以及對(duì) AI 部署與集成的完全控制。LM Studio 等工具（可免費(fèi)試用）使這一切成為可能，為用戶提供了在自有硬件上探索和構(gòu)建 LLM 的便捷途徑。

LM Studio 已成為最主流的本地 LLM 推理工具之一。該應(yīng)用基于高性能 llama.cpp 運(yùn)行時(shí)構(gòu)建，支持完全離線運(yùn)行模型，還可作為兼容 OpenAI 應(yīng)用編程接口（API）的端點(diǎn)，無縫集成至定制化工作流程。

得益于 CUDA 12.8，LM Studio 0.3.15 的推出提升了 RTX GPU 的性能，模型加載和響應(yīng)時(shí)間均有顯著改善。此次更新還推出數(shù)項(xiàng)面向開發(fā)者的全新功能，包括通過“tool_choice”參數(shù)增強(qiáng)工具調(diào)用能力和重新設(shè)計(jì)的系統(tǒng)提示詞編輯器。

LM Studio 的最新改進(jìn)提高了它的性能和易用性——實(shí)現(xiàn)了 RTX AI PC 上迄今最高的吞吐量。這意味著更快的響應(yīng)速度、更敏捷的交互體驗(yàn)，以及更強(qiáng)大的本地 AI 構(gòu)建與集成工具。

日常 App 與 AI 加速相遇

LM Studio 專為靈活性打造 —— 既適用于隨意的實(shí)驗(yàn)，也可完全集成至定制化工作流。用戶可以通過桌面聊天界面與模型交互，或啟用開發(fā)者模式部署兼容 OpenAI API 的端點(diǎn)。這使得將本地大語言模型連接到 VS Code 等應(yīng)用的工作流或定制化桌面智能體變得輕而易舉。

例如，LM Studio 可以與 Obsidian 集成，后者是一款廣受歡迎的 Markdown 知識(shí)管理應(yīng)用。使用 Text Generator 和 Smart Connections 等社區(qū)開發(fā)的插件，用戶可以生成內(nèi)容、對(duì)研究進(jìn)行摘要并查詢自己的筆記 —— 所有功能均由基于 LM Studio 運(yùn)行的本地大語言模型提供支持。這些插件直接連接到 LM Studio 的本地服務(wù)器，無需依賴云服務(wù)即可實(shí)現(xiàn)快速且私密的 AI 交互。

使用 LM Studio 生成由 RTX 加速的筆記的示例

0.3.15 更新新增多項(xiàng)開發(fā)者功能，包括通過“tool_choice”參數(shù)實(shí)現(xiàn)更細(xì)粒度的工具控制，以及經(jīng)過升級(jí)、支持更長(zhǎng)或更復(fù)雜提示詞的系統(tǒng)提示詞編輯器。

tool_choice 參數(shù)使開發(fā)者能夠控制模型與外部工具的交互方式 —— 無論是強(qiáng)制調(diào)用工具、完全禁用工具，還是允許模型動(dòng)態(tài)決策。這種增強(qiáng)的靈活性對(duì)于構(gòu)建結(jié)構(gòu)化交互、檢索增強(qiáng)生成（RAG）工作流或智能體工作流尤為重要。這些更新共同增強(qiáng)了開發(fā)者基于大語言模型開展實(shí)驗(yàn)和生產(chǎn)用途兩方面的能力。

LM Studio 支持廣泛的開源模型（包括 Gemma、Llama 3、Mistral 和 Orca），支持從 4 位到全精度的各種量化格式。

常見場(chǎng)景涵蓋 RAG、長(zhǎng)上下文窗口多輪對(duì)話、基于文檔的問答和本地智能體工作流。而 NVIDIA RTX 加速的 llama.cpp 軟件庫可以作為本地推理服務(wù)器，讓 RTX AI PC 用戶輕松利用本地大語言模型。

無論是為緊湊型 RTX 設(shè)備實(shí)現(xiàn)能效優(yōu)化，還是在高性能臺(tái)式機(jī)上更大限度地提高吞吐量，LM Studio 能夠在 RTX 平臺(tái)上提供從全面控制、速度到隱私保障的一切。

體驗(yàn) RTX GPU 的最大吞吐量

LM Studio 加速的核心在于 llama.cpp —— 這是一款專為基于消費(fèi)級(jí)硬件進(jìn)行高效推理而設(shè)計(jì)的開源運(yùn)行時(shí)。NVIDIA 與 LM Studio 和 llama.cpp 社區(qū)展開合作，集成多項(xiàng)增強(qiáng)功能，以盡可能充分地發(fā)揮 RTX GPU 的性能。

關(guān)鍵優(yōu)化包括：

CUDA 計(jì)算圖優(yōu)化：將多個(gè) GPU 操作聚合為單次 CPU 調(diào)用，從而降低 CPU 負(fù)載并可將模型吞吐量提高最多達(dá) 35%。

Flash Attention CUDA 內(nèi)核：通過改進(jìn)大語言模型的注意力處理機(jī)制（Transformer 模型的核心運(yùn)算），實(shí)現(xiàn)吞吐量額外提升 15%。這可以在不增加顯存或算力需求的前提下，支持更長(zhǎng)的上下文窗口。

支持最新 RTX 架構(gòu)：LM Studio 升級(jí)至 CUDA 12.8 版本，確保全面兼容從 GeForce RTX 20 系列到 NVIDIA Blackwell 架構(gòu) GPU 的全部 RTX AI PC 設(shè)備，使用戶能夠靈活擴(kuò)展其本地 AI 工作流 —— 從筆記本電腦到高端臺(tái)式機(jī)。

數(shù)據(jù)展示了不同版本的 LM Studio 和 CUDA 后端在 GeForce RTX 5080 上運(yùn)行 DeepSeek-R1-Distill-Llama-8B 模型的性能數(shù)據(jù)。所有配置均使用 Q4_K_M GGUF（Int4）量化，在 BS=1、ISL=4000、OSL=200 并開啟 Flash Attention 的條件下測(cè)量。得益于 NVIDIA 對(duì) llama.cpp 推理后端的貢獻(xiàn)，CUDA 計(jì)算圖在最新版本的 LM Studio 中實(shí)現(xiàn)了約 27% 的加速。

借助兼容的驅(qū)動(dòng)，LM Studio 可自動(dòng)升級(jí)到 CUDA 12.8 運(yùn)行時(shí)，從而顯著縮短模型加載時(shí)間并提高整體性能。

這些增強(qiáng)功能顯著提升了所有 RTX AI PC 設(shè)備的推理流暢度與響應(yīng)速度 —— 從輕薄筆記本到高性能臺(tái)式機(jī)與工作站。

LM Studio 使用入門

LM Studio 提供免費(fèi)下載，支持 Windows、macOS 和 Linux 系統(tǒng)。借助最新的 0.3.15 版本以及持續(xù)優(yōu)化，用戶將在性能、定制化與易用性方面得到持續(xù)提升 —— 讓本地 AI 更快、更靈活、更易用。

用戶既能通過桌面聊天界面加載模型，也可以啟用開發(fā)者模式，開放兼容 OpenAI API 的接口。

要快速入門，請(qǐng)下載最新版本的 LM Studio 并打開應(yīng)用。

1、點(diǎn)擊左側(cè)面板上的放大鏡圖標(biāo)以打開 Discover（發(fā)現(xiàn)）菜單。

2、選擇左側(cè)面板中的運(yùn)行時(shí)設(shè)置，然后在可用性列表中搜索 CUDA 12 llama.cpp（Windows）運(yùn)行時(shí)。點(diǎn)擊按鈕進(jìn)行下載與安裝。

3、安裝完成后，通過在“默認(rèn)選擇”下拉菜單中選擇 CUDA 12 llama.cpp（Windows），將 LM Studio 默認(rèn)配置為此運(yùn)行時(shí)環(huán)境。

4、完成 CUDA 執(zhí)行優(yōu)化的最后步驟：在 LM Studio 中加載模型后，點(diǎn)擊已加載模型左側(cè)的齒輪圖標(biāo)進(jìn)入設(shè)置菜單。

5、在展開的下拉菜單中，將“Flash Attention”功能切換為開啟狀態(tài)，并通過向右拖動(dòng)“GPU Offload”（GPU 卸載）滑塊將所有模型層轉(zhuǎn)移至 GPU。

完成這些功能的啟用與配置后，即可在本地設(shè)備上運(yùn)行 NVIDIA GPU 推理任務(wù)了。

LM Studio 支持模型預(yù)設(shè)、多種量化格式及開發(fā)者控制項(xiàng)比如 tool_choice，以實(shí)現(xiàn)調(diào)優(yōu)的推理。對(duì)于希望參與貢獻(xiàn)的開發(fā)者，llama.cpp 的 GitHub 倉(cāng)庫持續(xù)積極維護(hù)，并隨著社區(qū)與 NVIDIA 驅(qū)動(dòng)的性能優(yōu)化持續(xù)演進(jìn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5696

瀏覽量
110143
Studio

Studio

+關(guān)注

關(guān)注
2

文章
227

瀏覽量
30805
LLM

LLM

+關(guān)注

關(guān)注
1

文章
350

瀏覽量
1397

原文標(biāo)題：LM Studio 借助 NVIDIA GeForce RTX GPU 和 CUDA 12.8 加速 LLM 性能

文章出處：【微信號(hào)：NVIDIA_China，微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

LM Studio使用NVIDIA技術(shù)加速LLM性能

評(píng)論