日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenVINO?助力谷歌大語(yǔ)言模型Gemma實(shí)現(xiàn)高速智能推理

英特爾物聯(lián)網(wǎng) ? 來(lái)源:OpenVINO 中文社區(qū) ? 2024-03-17 17:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大型語(yǔ)言模型(LLM)正在迅速發(fā)展,變得更加強(qiáng)大和高效,使人們能夠在廣泛的應(yīng)用程序中越來(lái)越復(fù)雜地理解和生成類人文本。谷歌的Gemma是一個(gè)輕量級(jí)、先進(jìn)的開(kāi)源模型新家族,站在LLM創(chuàng)新的前沿。然而,對(duì)更高推理速度和更智能推理能力的追求并不僅僅局限于復(fù)雜模型的開(kāi)發(fā),它擴(kuò)展到模型優(yōu)化和部署技術(shù)領(lǐng)域。

OpenVINO 工具套件因此成為一股引人注目的力量,在這些領(lǐng)域發(fā)揮著越來(lái)越重要的作用。這篇博客文章深入探討了優(yōu)化谷歌的Gemma模型,并在不足千元的AI開(kāi)發(fā)板上進(jìn)行模型部署、使用OpenVINO 加速推理,將其轉(zhuǎn)化為能夠更快、更智能推理的AI引擎。

此文使用了研揚(yáng)科技針對(duì)邊緣AI行業(yè)開(kāi)發(fā)者推出的哪吒(Nezha)開(kāi)發(fā)套件,以信用卡大小(85x56mm)的開(kāi)發(fā)板-哪吒(Nezha)為核心,哪吒采用Intel N97處理器(Alder Lake-N),最大睿頻3.6GHz,Intel UHD Graphics內(nèi)核GPU,可實(shí)現(xiàn)高分辨率顯示;板載LPDDR5內(nèi)存、eMMC存儲(chǔ)及TPM 2.0,配備GPIO接口,支持Windows和Linux操作系統(tǒng),這些功能和無(wú)風(fēng)扇散熱方式相結(jié)合,為各種應(yīng)用程序構(gòu)建高效的解決方案,適用于如自動(dòng)化、物聯(lián)網(wǎng)網(wǎng)關(guān)、數(shù)字標(biāo)牌和機(jī)器人等應(yīng)用。

什么是Gemma?

Gemma是谷歌的一個(gè)輕量級(jí)、先進(jìn)的開(kāi)源模型家族,采用了與創(chuàng)建Gemini模型相同的研究和技術(shù)。它們以拉丁語(yǔ)單詞 “Gemma” 命名,意思是“寶石”,是文本到文本的、僅解碼器架構(gòu)的LLM,有英文版本,具有開(kāi)放權(quán)重、預(yù)訓(xùn)練變體和指令調(diào)整變體。Gemma模型非常適合各種文本生成任務(wù),包括問(wèn)答、摘要和推理。

Gemma模型系列,包括Gemma-2B和Gemma-7B模型,代表了深度學(xué)習(xí)模型可擴(kuò)展性和性能的分層方法。在本次博客中,我們將展示OpenVINO 如何優(yōu)化和加速Gemma-2B-it模型的推理,即Gemma-2B參數(shù)模型的指令微調(diào)后的版本。

利用OpenVINO 優(yōu)化和加速推理

優(yōu)化、推理加速和部署的過(guò)程包括以下具體步驟,使用的是我們常用的OpenVINO Notebooks GitHub倉(cāng)庫(kù) 中的254-llm-chatbot代碼示例。

由安裝必要的依賴包開(kāi)始

運(yùn)行OpenVINO Notebooks倉(cāng)庫(kù)的具體安裝指南在這里。運(yùn)行這個(gè)254-llm-chatbot的代碼示例,需要安裝以下必要的依賴包。

6e202c3e-e2c5-11ee-a297-92fbcf53809c.png

選擇推理的模型

由于我們?cè)贘upyter Notebook演示中提供了一組由OpenVINO 支持的LLM,您可以從下拉框中選擇 “Gemma-2B-it” 來(lái)運(yùn)行該模型的其余優(yōu)化和推理加速步驟。當(dāng)然,很容易切換到 “Gemma-7B-it” 和其他列出的型號(hào)。

6e300758-e2c5-11ee-a297-92fbcf53809c.png

使用Optimum Intel實(shí)例化模型

Optimum Intel是Hugging Face Transformers和Diffuser庫(kù)與OpenVINO 之間的接口,用于加速I(mǎi)ntel體系結(jié)構(gòu)上的端到端流水線。接下來(lái),我們將使用Optimum Intel從Hugging Face Hub加載優(yōu)化模型,并創(chuàng)建流水線,使用Hugging Face API以及OpenVINO Runtime運(yùn)行推理。在這種情況下,這意味著我們只需要將AutoModelForXxx類替換為相應(yīng)的OVModelForXxx類。

6e503d2a-e2c5-11ee-a297-92fbcf53809c.png

權(quán)重壓縮

盡管像Gemma-2B這樣的LLM在理解和生成類人文本方面變得越來(lái)越強(qiáng)大和復(fù)雜,但管理和部署這些模型在計(jì)算資源、內(nèi)存占用、推理速度等方面帶來(lái)了關(guān)鍵挑戰(zhàn),尤其是對(duì)于這種不足千元級(jí)的AI開(kāi)發(fā)板等客戶端設(shè)備。權(quán)重壓縮算法旨在壓縮模型的權(quán)重,可用于優(yōu)化模型體積和性能。

我們的Jupyter筆記本電腦使用Optimum Intel和NNCF提供INT8和INT4壓縮功能。與INT8壓縮相比,INT4壓縮進(jìn)一步提高了性能,但預(yù)測(cè)質(zhì)量略有下降。因此,我們將在此處選擇INT4壓縮。

6e6c02f8-e2c5-11ee-a297-92fbcf53809c.png

我們還可以比較模型權(quán)重壓縮前后的模型體積變化情況。

6e7f55b0-e2c5-11ee-a297-92fbcf53809c.png

選擇推理設(shè)備和模型變體

由于OpenVINO 能夠在一系列硬件設(shè)備上輕松部署,因此還提供了一個(gè)下拉框供您選擇將在其上運(yùn)行推理的設(shè)備??紤]到內(nèi)存使用情況,我們將選擇CPU作為推理設(shè)備。

6e9496a0-e2c5-11ee-a297-92fbcf53809c.png

運(yùn)行聊天機(jī)器人

現(xiàn)在萬(wàn)事具備,在這個(gè)Notebook代碼示例中我們還提供了一個(gè)基于Gradio的用戶友好的界面。現(xiàn)在就讓我們把聊天機(jī)器人運(yùn)行起來(lái)吧。

小結(jié)

整個(gè)的步驟就是這樣!現(xiàn)在就開(kāi)始跟著我們提供的代碼和步驟,動(dòng)手試試用OpenVINO 在哪吒開(kāi)發(fā)板上運(yùn)行基于大語(yǔ)言模型的聊天機(jī)器人吧。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20344

    瀏覽量

    255362
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31510

    瀏覽量

    223893
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2950

    文章

    48156

    瀏覽量

    418899
  • GPIO
    +關(guān)注

    關(guān)注

    16

    文章

    1334

    瀏覽量

    56487
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    118

    瀏覽量

    818

原文標(biāo)題:千元開(kāi)發(fā)板,百萬(wàn)可能:OpenVINO? 助力谷歌大語(yǔ)言模型Gemma實(shí)現(xiàn)高速智能推理 | 開(kāi)發(fā)者實(shí)戰(zhàn)

文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Google正式推出最新開(kāi)放模型Gemma 4

    今天,我們正式推出 Gemma 4 —— 這是我們迄今為止最智能的開(kāi)放模型。Gemma 4 專為高級(jí)推理
    的頭像 發(fā)表于 04-08 10:06 ?599次閱讀
    Google正式推出最新開(kāi)放<b class='flag-5'>模型</b><b class='flag-5'>Gemma</b> 4

    谷歌推出TranslateGemma全新開(kāi)放翻譯模型系列

    我們已正式推出 TranslateGemma,這一全新的開(kāi)放翻譯模型系列基于 Gemma 3 構(gòu)建,并提供 4B、12B 和 27B 三種參數(shù)規(guī)模。TranslateGemma 的問(wèn)世標(biāo)志著開(kāi)放翻譯領(lǐng)域邁出了重要一步,它可幫助人們跨越 55 種
    的頭像 發(fā)表于 02-26 10:22 ?765次閱讀

    解鎖谷歌FunctionGemma模型的無(wú)限潛力

    智能體 AI 領(lǐng)域,工具調(diào)用能力是將自然語(yǔ)言轉(zhuǎn)化為可執(zhí)行軟件操作的關(guān)鍵。此前,我們發(fā)布了專門(mén)針對(duì)函數(shù)調(diào)用而特別優(yōu)化的 Gemma 3 270M 模型版本 FunctionGemma。
    的頭像 發(fā)表于 02-04 11:30 ?469次閱讀
    解鎖<b class='flag-5'>谷歌</b>FunctionGemma<b class='flag-5'>模型</b>的無(wú)限潛力

    谷歌正式發(fā)布Gemma Scope 2模型

    語(yǔ)言模型 (LLM) 具備令人驚嘆的推理能力,但其內(nèi)部決策過(guò)程在很大程度上仍然不透明。如果系統(tǒng)未按預(yù)期運(yùn)行,對(duì)其內(nèi)部運(yùn)作機(jī)制缺乏可見(jiàn)性將難以準(zhǔn)確定位問(wèn)題根源。過(guò)去,我們通過(guò)發(fā)布 Gemma
    的頭像 發(fā)表于 01-24 14:01 ?766次閱讀

    借助谷歌FunctionGemma模型構(gòu)建下一代端側(cè)智能

    對(duì)于 Gemma 模型系列而言,2025 年是充滿變革的一年。我們的下載量已從 1 億次增長(zhǎng)到超過(guò) 3 億次,同時(shí)還展現(xiàn)了開(kāi)放模型的變革潛力: 從憑借 Gemma 3 定義最先進(jìn)的單加
    的頭像 發(fā)表于 01-20 09:11 ?863次閱讀
    借助<b class='flag-5'>谷歌</b>FunctionGemma<b class='flag-5'>模型</b>構(gòu)建下一代端側(cè)<b class='flag-5'>智能</b>體

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對(duì)當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?735次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    谷歌推出AI模型Gemma 3 270M

    過(guò)去幾個(gè)月,Gemma 開(kāi)放模型系列的發(fā)展是激動(dòng)人心的。我們推出了 Gemma 3 和 Gemma 3 QAT,為單一云端和桌面加速器帶來(lái)了最先進(jìn)的性能。
    的頭像 發(fā)表于 09-11 15:09 ?1341次閱讀

    谷歌Gemma 3n模型的新功能

    從第一個(gè) Gemma 模型于去年年初推出以來(lái),已逐漸發(fā)展為生機(jī)勃勃的 Gemmaverse 生態(tài)系統(tǒng),累計(jì)下載量突破 1.6 億。這個(gè)生態(tài)系統(tǒng)包括十余款專業(yè)模型系列,涵蓋從安全防護(hù)到醫(yī)療應(yīng)用的各領(lǐng)
    的頭像 發(fā)表于 07-25 10:16 ?1674次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemma</b> 3n<b class='flag-5'>模型</b>的新功能

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然
    發(fā)表于 07-16 15:29

    無(wú)法在NPU上推理OpenVINO?優(yōu)化的 TinyLlama 模型怎么解決?

    在 NPU 上推斷 OpenVINO?優(yōu)化的 TinyLlama 模型。 遇到的錯(cuò)誤: get_shape was called on a descriptor::Tensor with dynamic shape
    發(fā)表于 07-11 06:58

    模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大
    發(fā)表于 07-03 19:43

    谷歌Gemma 3n預(yù)覽版全新發(fā)布

    Gemma 3 和 Gemma 3 QAT 的成功發(fā)布之后,我們的先進(jìn)開(kāi)放模型系列具備了在單一云端或桌面加速器上運(yùn)行的能力,我們正在進(jìn)一步推進(jìn)我們對(duì)可訪問(wèn) AI 的愿景。Gemma
    的頭像 發(fā)表于 06-26 17:18 ?1141次閱讀

    無(wú)法將Tensorflow Lite模型轉(zhuǎn)換為OpenVINO?格式怎么處理?

    將 Tensorflow Lite 模型轉(zhuǎn)換為 OpenVINO? 格式。 遇到的錯(cuò)誤: FrontEnd API failed with OpConversionFailure:No translator found for TFLite_Detection_PostP
    發(fā)表于 06-25 08:27

    使用 NPU 插件對(duì)量化的 Llama 3.1 8b 模型進(jìn)行推理時(shí)出現(xiàn)“從 __Int64 轉(zhuǎn)換為無(wú)符號(hào) int 的錯(cuò)誤”,怎么解決?

    安裝了 OpenVINO? GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    發(fā)表于 06-25 07:20

    為什么無(wú)法在GPU上使用INT8 和 INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4 和 int8,并在 GPU 上使用 OpenVINO? 運(yùn)行
    發(fā)表于 06-23 07:11
    宜州市| 蚌埠市| 翁源县| 东辽县| 青海省| 乃东县| 平罗县| 濮阳县| 喜德县| 无极县| 理塘县| 精河县| 栾川县| 广宗县| 荔浦县| 永川市| 榆林市| 雅安市| 龙口市| 沙洋县| 四川省| 普陀区| 河曲县| 鄂托克旗| 三原县| 红河县| 和政县| 邓州市| 新建县| 乌鲁木齐县| 敦煌市| 石屏县| 涟水县| 灵璧县| 巴彦淖尔市| 富平县| 策勒县| 黄石市| 昌平区| 岱山县| 界首市|