欧美双插在线免费,日韩女优在线视频,欧美激情综合网

來源：OpenVINO 中文社區(qū)

作者：

武卓英特爾 OpenVINO 布道師

生成式AI（GenAI）在模型質(zhì)量與應(yīng)用范圍上持續(xù)爆發(fā)式增長，DeepSeek 等頂尖模型已引發(fā)行業(yè)熱議，這種勢頭預(yù)計將在 2025年延續(xù)。本次更新聚焦性能提升、更多生成式AI 模型的支持，并針對英特爾神經(jīng)處理單元（NPU）推出關(guān)鍵優(yōu)化。讓我們來一探究竟吧！

新增圖像生成場景與模型支持

OpenVINO 2025.0 版本正式支持FLUX.1 圖像生成模型（含Dev與Schnell變體），可在英特爾 CPU/GPU 上通過 GenAI 流水線運(yùn)行。開發(fā)者現(xiàn)可通過 Optimum-Intel 導(dǎo)出 Flux 模型，并結(jié)合 Text2ImagePipeline 生成圖像。針對 Flux 模型對精度變化非常敏感的特點(diǎn)，我們進(jìn)行了深度優(yōu)化，確保圖像生成性能與準(zhǔn)確度兼得。

LoRA適配器：模型定制利器

自前期版本起，OpenVINO 已支持基于 Safetensor 文件的LoRA 低秩適配技術(shù)，無需重新編譯即可動態(tài)切換 LoRA 適配器，從而快速方便的生成不同定制化風(fēng)格的圖像。本次更新進(jìn)一步擴(kuò)展至 Flux 模型家族，開發(fā)者可直接從 Hugging Face Hub 下載適配器，通過 GenAI 的 Text2ImagePipeline 快速實(shí)現(xiàn)風(fēng)格定制。

示例：

LoRA 增強(qiáng)的 FLUX.1-Dev 圖像生成效果

展示了 INT8 量化版 FLUX.1-dev 模型在應(yīng)用 Yarn 風(fēng)格 LoRA 前后的對比（提示詞："albert einstein, yarn art style"，初始種子=420，迭代次數(shù)=20）：

新場景支持：Image2Image 與 Inpainting

新增Image2Image與Inpainting流水線（預(yù)覽版），解鎖更可控的創(chuàng)作方式：

Image2Image：以圖像+文本為輸入生成新圖像，提升結(jié)果可控性；

Inpainting：通過掩碼圖像替換輸入圖像的指定區(qū)域，支持局部內(nèi)容再生。

兩種流水線均兼容 LoRA 適配器，滿足定制化需求。

文本生成場景優(yōu)化

本次新版本在 LLMPipeline API 中引入了對提示詞查找解碼的預(yù)覽支持，這是對推測解碼的簡化，它在輸入提示詞本身中用直接查找機(jī)制取代了傳統(tǒng)的草稿模型。這有助于在具有高相似性的請求的情況下顯著減少生成延遲。例如，通過對一組文檔的問答可以觀察到性能優(yōu)勢，因?yàn)榇鸢笇⒏鶕?jù)作為提示詞本身一部分的文檔來生成。

如我們的示例所示，只需對 LLMPipeline 中的代碼進(jìn)行很小的修改，即可啟用此功能?？偨Y(jié)來說，您需要將提示查找作為流水線中的一個參數(shù)啟用，并修改生成配置以添加兩個重要參數(shù)：在提示詞中查找多少 token 數(shù)以及匹配后取多少 token 數(shù)。

生成過程中的內(nèi)存使用是運(yùn)行應(yīng)用的一個重要考慮因素，因?yàn)?LLM 權(quán)重非常占用內(nèi)存。KV Cache 代表了額外的內(nèi)存消耗，并且可能會增長得相當(dāng)大。我們引入了 KV Cache 的壓縮作為一種減少內(nèi)存消耗的技術(shù)，在這個版本中，我們默認(rèn)在 CPU 上啟用它。為了確保壓縮的準(zhǔn)確性，我們引入了非對稱 INT8 壓縮，被證明是總體來說最準(zhǔn)確的壓縮方式。如果需要，INT4 壓縮也可作為進(jìn)一步減少內(nèi)存消耗的選項(xiàng)。在未來的版本中，我們計劃啟用更多的壓縮技術(shù)，請持續(xù)關(guān)注。

另外，我們一直在努力支持和驗(yàn)證最新的模型，包括 Mistral-7B-Instruct-v0.2、Qwen2.5，當(dāng)然我們也支持基于 LLama 和 Qwen 架構(gòu)的 DeepSeek 蒸餾模型。您可以探索我們的新的使用 DeepSeek-R1 蒸餾模型進(jìn)行 LLM 推理的 Notebook 代碼示例，并查看下面與英特爾酷睿 Ultra 200V GPU 上的 DeepSeek-R1-Llama-8b 模型的對話：

https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/deepseek-r1

通過 torch.compile

支持英特爾 NPU

2025.0 版本首次實(shí)現(xiàn) NPU 加速支持，開發(fā)者可通過 PyTorch 的 torch.compile 接口調(diào)用英特爾 NPU 算力。OpenVINO 作為 torch.compile 生態(tài)系統(tǒng)中的編譯器已經(jīng)面世一段時間了。它已經(jīng)在 CPU 和 GPU 上得到支持，并且在性能方面非常接近原生 OpenVINO 推理。在 2025.0 版本中，我們將推出對 Intel NPU 作為推理設(shè)備的預(yù)覽支持。這包括對 TorchVision、Timm 和 TorchBench 存儲庫中的300多個模型的支持。

啟用方式非常簡單，只需要增加如下兩行代碼：

結(jié)果因模型而異，因此建議您嘗試使用自己的模型以查看性能的提升情況。同時我們建議在英特爾酷睿 Ultra Series 2 及更高版本的平臺上使用此功能。

總結(jié)

隨著我們迎來激動人心的新一年，生成式AI的潛力繼續(xù)重塑我們的創(chuàng)造、工作和創(chuàng)新方式。

借助 OpenVINO 2025.0，我們提供了更多的模型覆蓋、更快的推理性能和擴(kuò)展的英特爾 NPU 支持。這只是一個開始——今年我們?nèi)暧媱澃l(fā)布更多版本，請繼續(xù)關(guān)注即將到來的更新！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴