日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LM Studio使用NVIDIA技術(shù)加速LLM性能

NVIDIA英偉達(dá) ? 來源:NVIDIA英偉達(dá) ? 2025-06-06 15:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開發(fā)者和技術(shù)愛好者正在尋求以更 快、更靈活的方式來運(yùn)行大語言模型(LLM)。

在配備 NVIDIA GeForce RTX GPU 的 PC 上本地運(yùn)行模型,可實(shí)現(xiàn)高性能推理、增強(qiáng)型數(shù)據(jù)隱私保護(hù),以及對(duì) AI 部署與集成的完全控制。LM Studio 等工具(可免費(fèi)試用)使這一切成為可能,為用戶提供了在自有硬件上探索和構(gòu)建 LLM 的便捷途徑。

LM Studio 已成為最主流的本地 LLM 推理工具之一。該應(yīng)用基于高性能 llama.cpp 運(yùn)行時(shí)構(gòu)建,支持完全離線運(yùn)行模型,還可作為兼容 OpenAI 應(yīng)用編程接口(API)的端點(diǎn),無縫集成至定制化工作流程。

得益于 CUDA 12.8,LM Studio 0.3.15 的推出提升了 RTX GPU 的性能,模型加載和響應(yīng)時(shí)間均有顯著改善。此次更新還推出數(shù)項(xiàng)面向開發(fā)者的全新功能,包括通過“tool_choice”參數(shù)增強(qiáng)工具調(diào)用能力和重新設(shè)計(jì)的系統(tǒng)提示詞編輯器。

LM Studio 的最新改進(jìn)提高了它的性能和易用性——實(shí)現(xiàn)了 RTX AI PC 上迄今最高的吞吐量。這意味著更快的響應(yīng)速度、更敏捷的交互體驗(yàn),以及更強(qiáng)大的本地 AI 構(gòu)建與集成工具。

日常 App 與 AI 加速相遇

LM Studio 專為靈活性打造 —— 既適用于隨意的實(shí)驗(yàn),也可完全集成至定制化工作流。用戶可以通過桌面聊天界面與模型交互,或啟用開發(fā)者模式部署兼容 OpenAI API 的端點(diǎn)。這使得將本地大語言模型連接到 VS Code 等應(yīng)用的工作流或定制化桌面智能體變得輕而易舉。

例如,LM Studio 可以與 Obsidian 集成,后者是一款廣受歡迎的 Markdown 知識(shí)管理應(yīng)用。使用 Text Generator 和 Smart Connections 等社區(qū)開發(fā)的插件,用戶可以生成內(nèi)容、對(duì)研究進(jìn)行摘要并查詢自己的筆記 —— 所有功能均由基于 LM Studio 運(yùn)行的本地大語言模型提供支持。這些插件直接連接到 LM Studio 的本地服務(wù)器,無需依賴云服務(wù)即可實(shí)現(xiàn)快速且私密的 AI 交互。

541639bc-4149-11f0-b715-92fbcf53809c.png

使用 LM Studio 生成由 RTX 加速的筆記的示例

0.3.15 更新新增多項(xiàng)開發(fā)者功能,包括通過“tool_choice”參數(shù)實(shí)現(xiàn)更細(xì)粒度的工具控制,以及經(jīng)過升級(jí)、支持更長(zhǎng)或更復(fù)雜提示詞的系統(tǒng)提示詞編輯器。

tool_choice 參數(shù)使開發(fā)者能夠控制模型與外部工具的交互方式 —— 無論是強(qiáng)制調(diào)用工具、完全禁用工具,還是允許模型動(dòng)態(tài)決策。這種增強(qiáng)的靈活性對(duì)于構(gòu)建結(jié)構(gòu)化交互、檢索增強(qiáng)生成(RAG)工作流或智能體工作流尤為重要。這些更新共同增強(qiáng)了開發(fā)者基于大語言模型開展實(shí)驗(yàn)和生產(chǎn)用途兩方面的能力。

LM Studio 支持廣泛的開源模型(包括 Gemma、Llama 3、Mistral 和 Orca),支持從 4 位到全精度的各種量化格式。

常見場(chǎng)景涵蓋 RAG、長(zhǎng)上下文窗口多輪對(duì)話、基于文檔的問答和本地智能體工作流。而 NVIDIA RTX 加速的 llama.cpp 軟件庫可以作為本地推理服務(wù)器,讓 RTX AI PC 用戶輕松利用本地大語言模型。

無論是為緊湊型 RTX 設(shè)備實(shí)現(xiàn)能效優(yōu)化,還是在高性能臺(tái)式機(jī)上更大限度地提高吞吐量,LM Studio 能夠在 RTX 平臺(tái)上提供從全面控制、速度到隱私保障的一切。

體驗(yàn) RTX GPU 的最大吞吐量

LM Studio 加速的核心在于 llama.cpp —— 這是一款專為基于消費(fèi)級(jí)硬件進(jìn)行高效推理而設(shè)計(jì)的開源運(yùn)行時(shí)。NVIDIA 與 LM Studio 和 llama.cpp 社區(qū)展開合作,集成多項(xiàng)增強(qiáng)功能,以盡可能充分地發(fā)揮 RTX GPU 的性能。

關(guān)鍵優(yōu)化包括:

CUDA 計(jì)算圖優(yōu)化:將多個(gè) GPU 操作聚合為單次 CPU 調(diào)用,從而降低 CPU 負(fù)載并可將模型吞吐量提高最多達(dá) 35%。

Flash Attention CUDA 內(nèi)核:通過改進(jìn)大語言模型的注意力處理機(jī)制(Transformer 模型的核心運(yùn)算),實(shí)現(xiàn)吞吐量額外提升 15%。這可以在不增加顯存或算力需求的前提下,支持更長(zhǎng)的上下文窗口。

支持最新 RTX 架構(gòu):LM Studio 升級(jí)至 CUDA 12.8 版本,確保全面兼容從 GeForce RTX 20 系列到 NVIDIA Blackwell 架構(gòu) GPU 的全部 RTX AI PC 設(shè)備,使用戶能夠靈活擴(kuò)展其本地 AI 工作流 —— 從筆記本電腦到高端臺(tái)式機(jī)。

543e8a7a-4149-11f0-b715-92fbcf53809c.png

數(shù)據(jù)展示了不同版本的 LM Studio 和 CUDA 后端在 GeForce RTX 5080 上運(yùn)行 DeepSeek-R1-Distill-Llama-8B 模型的性能數(shù)據(jù)。所有配置均使用 Q4_K_M GGUF(Int4)量化,在 BS=1、ISL=4000、OSL=200 并開啟 Flash Attention 的條件下測(cè)量。得益于 NVIDIA 對(duì) llama.cpp 推理后端的貢獻(xiàn),CUDA 計(jì)算圖在最新版本的 LM Studio 中實(shí)現(xiàn)了約 27% 的加速。

借助兼容的驅(qū)動(dòng),LM Studio 可自動(dòng)升級(jí)到 CUDA 12.8 運(yùn)行時(shí),從而顯著縮短模型加載時(shí)間并提高整體性能。

這些增強(qiáng)功能顯著提升了所有 RTX AI PC 設(shè)備的推理流暢度與響應(yīng)速度 —— 從輕薄筆記本到高性能臺(tái)式機(jī)與工作站。

LM Studio 使用入門

LM Studio 提供免費(fèi)下載,支持 Windows、macOS 和 Linux 系統(tǒng)。借助最新的 0.3.15 版本以及持續(xù)優(yōu)化,用戶將在性能、定制化與易用性方面得到持續(xù)提升 —— 讓本地 AI 更快、更靈活、更易用。

用戶既能通過桌面聊天界面加載模型,也可以啟用開發(fā)者模式,開放兼容 OpenAI API 的接口。

要快速入門,請(qǐng)下載最新版本的 LM Studio 并打開應(yīng)用。

1、點(diǎn)擊左側(cè)面板上的放大鏡圖標(biāo)以打開 Discover(發(fā)現(xiàn))菜單。

548d7d24-4149-11f0-b715-92fbcf53809c.png

2、選擇左側(cè)面板中的運(yùn)行時(shí)設(shè)置,然后在可用性列表中搜索 CUDA 12 llama.cpp(Windows)運(yùn)行時(shí)。點(diǎn)擊按鈕進(jìn)行下載與安裝。

54abbb54-4149-11f0-b715-92fbcf53809c.png

3、安裝完成后,通過在“默認(rèn)選擇”下拉菜單中選擇 CUDA 12 llama.cpp(Windows),將 LM Studio 默認(rèn)配置為此運(yùn)行時(shí)環(huán)境。

54cb519e-4149-11f0-b715-92fbcf53809c.png

4、完成 CUDA 執(zhí)行優(yōu)化的最后步驟:在 LM Studio 中加載模型后,點(diǎn)擊已加載模型左側(cè)的齒輪圖標(biāo)進(jìn)入設(shè)置菜單。

54eddd0e-4149-11f0-b715-92fbcf53809c.png

5、在展開的下拉菜單中,將“Flash Attention”功能切換為開啟狀態(tài),并通過向右拖動(dòng)“GPU Offload”(GPU 卸載)滑塊將所有模型層轉(zhuǎn)移至 GPU。

55092c4e-4149-11f0-b715-92fbcf53809c.png

完成這些功能的啟用與配置后,即可在本地設(shè)備上運(yùn)行 NVIDIA GPU 推理任務(wù)了。

LM Studio 支持模型預(yù)設(shè)、多種量化格式及開發(fā)者控制項(xiàng)比如 tool_choice,以實(shí)現(xiàn)調(diào)優(yōu)的推理。對(duì)于希望參與貢獻(xiàn)的開發(fā)者,llama.cpp 的 GitHub 倉(cāng)庫持續(xù)積極維護(hù),并隨著社區(qū)與 NVIDIA 驅(qū)動(dòng)的性能優(yōu)化持續(xù)演進(jìn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110143
  • Studio
    +關(guān)注

    關(guān)注

    2

    文章

    227

    瀏覽量

    30805
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1397

原文標(biāo)題:LM Studio 借助 NVIDIA GeForce RTX GPU 和 CUDA 12.8 加速 LLM 性能

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?2109次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)
    的頭像 發(fā)表于 07-04 14:38 ?2472次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    問題,但會(huì)降低舊GPU硬件性能,可通過NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU計(jì)算需要啟用,可通過命令行工具nv
    發(fā)表于 12-16 14:25

    NVIDIA Jetson介紹

    首發(fā)極術(shù)社區(qū)如對(duì)Arm相關(guān)技術(shù)感興趣,歡迎私信 aijishu20加入技術(shù)微信群。分享內(nèi)容NVIDIA Jetson是嵌入式計(jì)算平臺(tái),具有低功耗、高性能和小體積等特點(diǎn),可
    發(fā)表于 12-14 08:05

    NVIDIA Studio開創(chuàng)創(chuàng)意性能的新時(shí)代

    頂尖的游戲美術(shù)師、制作人、開發(fā)者和設(shè)計(jì)師在一年一度游戲開發(fā)者大會(huì)(GDC)齊聚一堂。在他們交流創(chuàng)意、相互學(xué)習(xí)和啟發(fā)的同時(shí),由RTX加速應(yīng)用、硬件和驅(qū)動(dòng)程序組成的NVIDIA Studio生態(tài)系統(tǒng)也助
    的頭像 發(fā)表于 08-02 11:22 ?2684次閱讀

    NVIDIA Studio技術(shù)如何加速創(chuàng)意工作流

    編輯注:本文是 NVIDIA Studio 創(chuàng)意加速系列的一部分,該系列旨在介紹一些特邀藝術(shù)家、提供創(chuàng)意提示和技巧,并展示 NVIDIA Studi
    的頭像 發(fā)表于 08-12 11:21 ?1975次閱讀

    GTC 大會(huì)亮點(diǎn) NVIDIA Studio AI 助力藝術(shù)加速

    GTC 大會(huì)亮點(diǎn) NVIDIA Studio AI 助力藝術(shù)加速 NVIDIA Studio 技術(shù)
    的頭像 發(fā)表于 03-22 18:24 ?3286次閱讀

    GTC23 | NVIDIA性能加速網(wǎng)絡(luò)專場(chǎng)限時(shí)回放已開啟!

    歡迎收看 NVIDIA性能加速網(wǎng)絡(luò)專場(chǎng)回放! NVIDIA性能加速網(wǎng)絡(luò)專場(chǎng)涵蓋六大主題,
    的頭像 發(fā)表于 03-25 22:05 ?1573次閱讀

    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型(Large Language Mode
    的頭像 發(fā)表于 10-27 20:05 ?2235次閱讀
    現(xiàn)已公開發(fā)布!歡迎使用 <b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b> 優(yōu)化大語言模型推理

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM
    的頭像 發(fā)表于 04-28 10:36 ?1988次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵
    的頭像 發(fā)表于 07-24 11:38 ?3466次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個(gè)專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計(jì)的庫。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?2052次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡(jiǎn)稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測(cè)解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA Tensor
    的頭像 發(fā)表于 12-25 17:31 ?1667次閱讀
    在<b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b>中啟用ReDrafter的一些變化

    Votee AI借助NVIDIA技術(shù)加速方言小語種LLM開發(fā)

    了精準(zhǔn)的方言及小語種大語言模型 (LLM)。此舉成功解決了數(shù)據(jù)稀缺、語言復(fù)雜及計(jì)算效率等挑戰(zhàn),為全球數(shù)以百萬計(jì)、缺乏數(shù)字化資源的語言使用者提供了技術(shù)支持。
    的頭像 發(fā)表于 08-20 14:21 ?1048次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?1465次閱讀
    新建县| 崇仁县| 金昌市| 两当县| 敖汉旗| 永城市| 循化| 化隆| 饶阳县| 子长县| 随州市| 汾阳市| 华亭县| 岳普湖县| 左云县| 平利县| 德江县| 赣州市| 三原县| 灵宝市| 弥勒县| 冀州市| 如东县| 洪江市| 罗江县| 舟曲县| 南郑县| 临泽县| 塔城市| 嘉义市| 吴忠市| 天气| 涿州市| 卢湾区| 黄浦区| 西盟| 翁源县| 务川| 聊城市| 临洮县| 沂水县|