日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

8x7B MoE與Flash Attention 2結(jié)合,不到10行代碼實(shí)現(xiàn)快速推理

深度學(xué)習(xí)自然語言處理 ? 來源:機(jī)器之心 ? 2024-01-04 16:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前段時(shí)間,Mistral AI 公布的 Mixtral 8x7B 模型爆火整個(gè)開源社區(qū),其架構(gòu)與 GPT-4 非常相似,很多人將其形容為 GPT-4 的「縮小版」。

我們都知道,OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的參數(shù)量和訓(xùn)練細(xì)節(jié)守口如瓶。Mistral 8x7B 的放出,無疑給廣大開發(fā)者提供了一種「非常接近 GPT-4」的開源選項(xiàng)。

在基準(zhǔn)測(cè)試中,Mistral 8x7B 的表現(xiàn)優(yōu)于 Llama 2 70B,在大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上與 GPT-3.5 不相上下,甚至略勝一籌。

5e8e9c7c-aa00-11ee-8b88-92fbcf53809c.png5e9b6678-aa00-11ee-8b88-92fbcf53809c.png▲圖源 https://mistral.ai/news/mixtral-of-experts/

隨著這項(xiàng)研究的出現(xiàn),很多人表示:「閉源大模型已經(jīng)走到了結(jié)局?!?/span> 5e9fa184-aa00-11ee-8b88-92fbcf53809c.png

短短幾周的時(shí)間,機(jī)器學(xué)習(xí)愛好者 Vaibhav (VB) Srivastav 表示:隨著 AutoAWQ(支持 Mixtral、LLaVa 等模型的量化)最新版本的發(fā)布,現(xiàn)在用戶可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結(jié)合使用,達(dá)到快速推理的目的,實(shí)現(xiàn)這一功能大約只需 24GB GPU VRAM、不到十行代碼。 5ea3abda-aa00-11ee-8b88-92fbcf53809c.png▲圖源 https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ地址:

https://github.com/casper-hansen/AutoAWQ 操作過程是這樣的: 首先是安裝 AutoAWQ 以及 transformers

pipinstallautoawqgit+https://github.com/huggingface/transformers.git
第二步是初始化 tokenizer 和模型: 5eaa2c8a-aa00-11ee-8b88-92fbcf53809c.png ?第三步是初始化 TextStreamer: 5eae1264-aa00-11ee-8b88-92fbcf53809c.png ?第四步對(duì)輸入進(jìn)行 Token 化: 5eb31566-aa00-11ee-8b88-92fbcf53809c.png ?第五步生成: 5eb7ddda-aa00-11ee-8b88-92fbcf53809c.png ?當(dāng)你配置好項(xiàng)目后,就可以與 Mixtral 進(jìn)行對(duì)話,例如對(duì)于用戶要求「如何做出最好的美式咖啡?通過簡(jiǎn)單的步驟完成」,Mixtral 會(huì)按照 1、2、3 等步驟進(jìn)行回答。

5ec0113a-aa00-11ee-8b88-92fbcf53809c.png

項(xiàng)目中使用的代碼:

5ec86e84-aa00-11ee-8b88-92fbcf53809c.png

Srivastav 表示上述實(shí)現(xiàn)也意味著用戶可以使用 AWQ 運(yùn)行所有的 Mixtral 微調(diào),并使用 Flash Attention 2 來提升它們。 看到這項(xiàng)研究后,網(wǎng)友不禁表示:真的很酷。

5ecdb254-aa00-11ee-8b88-92fbcf53809c.png ?5ed1689a-aa00-11ee-8b88-92fbcf53809c.png


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4977

    瀏覽量

    74422
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    374

    瀏覽量

    16988
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1253

    瀏覽量

    10296

原文標(biāo)題:8x7B MoE與Flash Attention 2結(jié)合,不到10行代碼實(shí)現(xiàn)快速推理

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    C8051F52x/F53x 8/4/2 kB ISP Flash MCU家族:功能特性與應(yīng)用指南

    C8051F52x/F53x 8/4/2 kB ISP Flash MCU家族:功能特性與應(yīng)用指南 在電子設(shè)計(jì)領(lǐng)域,微控制器(MCU)是核心
    的頭像 發(fā)表于 04-27 15:20 ?120次閱讀

    Onsemi NXH500B100H7Q2F2SHG/PHG飛電容升壓模塊:高效與可靠的完美結(jié)合

    Onsemi NXH500B100H7Q2F2SHG/PHG飛電容升壓模塊:高效與可靠的完美結(jié)合 在電子工程領(lǐng)域,電源模塊的性能和可靠性對(duì)于整個(gè)系統(tǒng)的穩(wěn)定運(yùn)行至關(guān)重要。Onsemi推出
    的頭像 發(fā)表于 04-27 14:00 ?95次閱讀

    AT89C51RD2/ED2:高性能8Flash微控制器的深度剖析

    AT89C51RD2/ED2:高性能8Flash微控制器的深度剖析 在電子設(shè)計(jì)領(lǐng)域,微控制器是眾多項(xiàng)目的核心。今天我們要深入探討的是AT89C51RD
    的頭像 發(fā)表于 04-05 16:40 ?1259次閱讀

    海光DCU完成Qwen3.5多模態(tài)MoE模型全量適配

    近日,海光DCU完成Qwen3.5-397B MoE旗艦多模態(tài)模型、Qwen3.5-35B-A3B MoE多模態(tài)模型全量適配、精度對(duì)齊與推理
    的頭像 發(fā)表于 03-26 09:35 ?780次閱讀

    階躍星辰開源Step 3.5 Flash,多家國(guó)產(chǎn)芯片廠商完成適配

    。 ? Step 3.5 Flash模型聚焦于實(shí)時(shí)Agent工作流場(chǎng)景,采用稀疏MoE架構(gòu),總參數(shù)量高達(dá)1960億,不過每個(gè)token僅激活約110億參數(shù)。這種設(shè)計(jì)旨在兼顧推理速度與使用成本,為智能體(Agent)提供穩(wěn)定可靠且
    的頭像 發(fā)表于 02-02 15:36 ?1879次閱讀

    如何正確配置AG32 MCU,實(shí)現(xiàn)FLASH或者代碼加密?

    的SDK資料:海振遠(yuǎn)科技為客戶提供豐富的開發(fā)資料和多款開發(fā)板可以選擇,方便用戶快速上手設(shè)計(jì)。 2、開發(fā)板資源: 二、如何正確配置AG32 MCU,實(shí)現(xiàn)FLASH或者
    發(fā)表于 01-22 15:01

    今日看點(diǎn):小米正式發(fā)布并開源新模型 MiMo-V2-Flash;磷酸鐵鋰開啟漲價(jià)潮

    (激活15B)的 MoE 模型,通過引入 Hybrid 注意力架構(gòu)創(chuàng)新 及 多層 MTP 推理加速,在多個(gè) Agent 測(cè)評(píng)基準(zhǔn)上進(jìn)入全球開源模型 Top 2;
    的頭像 發(fā)表于 12-17 09:42 ?4518次閱讀

    Qwen3-VL 4B/8B全面適配,BM1684X成邊緣最佳部署平臺(tái)!

    算能BM1684X上完成Qwen3-VL4B/8B模型的適配,推理速度13.7/7.2tokens/s,使其成為邊緣部署多模態(tài)大模型的最佳選擇。近日,阿里千問正式開源Qwen3-VL系
    的頭像 發(fā)表于 10-16 18:00 ?3253次閱讀
    Qwen3-VL 4<b class='flag-5'>B</b>/<b class='flag-5'>8B</b>全面適配,BM1684<b class='flag-5'>X</b>成邊緣最佳部署平臺(tái)!

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】基于MOE混合專家模型的學(xué)習(xí)和思考-2

    = F.softmax(self.gate(x), dim=-1) # 這就是公式中的 p_i^c # 2. 計(jì)算每個(gè)專家的輸出 expert_outputs = [] for expert
    發(fā)表于 08-23 17:00

    杭州靈汐類腦智算集群實(shí)現(xiàn)大模型快速推理

    據(jù)悉,“杭州靈汐類腦智算集群”已于7月底實(shí)現(xiàn)了大模型快速推理API的企業(yè)服務(wù)試運(yùn)行。該集群由杭州靈汐類腦科技有限公司牽頭搭建運(yùn)營(yíng),中國(guó)電信、中國(guó)電子科技南湖研究院以及腦啟社區(qū)作為合作方
    的頭像 發(fā)表于 08-18 16:06 ?1155次閱讀

    華為宣布開源盤古7B稠密和72B混合專家模型

    關(guān)鍵一步,為全球開發(fā)者、企業(yè)及研究人員提供了強(qiáng)大的技術(shù)支撐。 ? 華為此次開源行動(dòng)涵蓋三大核心板塊:盤古Pro MoE 72B模型權(quán)重與基礎(chǔ)推理代碼已率先上線開源平臺(tái);基于昇騰的超大規(guī)
    的頭像 發(fā)表于 07-06 05:51 ?7661次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    關(guān)鍵舉措,推動(dòng)大模型技術(shù)的研究與創(chuàng)新發(fā)展,加速推進(jìn)人工智能在千百業(yè)的應(yīng)用與價(jià)值創(chuàng)造。 盤古Pro MoE 72B模型權(quán)重、基礎(chǔ)推理代碼,已
    的頭像 發(fā)表于 06-30 11:19 ?1469次閱讀

    具有載波聚合的 RX 分集 FEM(B26、B8、B12/13、B2/25、B4 和 B7) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()具有載波聚合的 RX 分集 FEM(B26、B8、B12/13、B2/25、B4 和
    發(fā)表于 06-19 18:35
    具有載波聚合的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B8</b>、<b class='flag-5'>B</b>12/13、<b class='flag-5'>B2</b>/25、<b class='flag-5'>B</b>4 和 <b class='flag-5'>B7</b>) skyworksinc

    潤(rùn)和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例

    江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱“潤(rùn)和軟件”)自主研發(fā)的StackRUNS異構(gòu)分布式推理框架已在實(shí)際場(chǎng)景中取得顯著成效,成功應(yīng)用于大型園區(qū)多模態(tài)模型演練及高校滿血版DeepSeek-MoE 671B的運(yùn)行,有效推動(dòng)了大模型技術(shù)
    的頭像 發(fā)表于 06-13 09:11 ?1471次閱讀
    潤(rùn)和軟件StackRUNS異構(gòu)分布式<b class='flag-5'>推理</b>框架的應(yīng)用案例

    代碼革命的先鋒:aiXcoder-7B模型介紹

    ? ? 國(guó)內(nèi)開源代碼大模型 4月9日aiXcoder宣布正式開源其7B模型Base版,僅僅過去一個(gè)禮拜,aiXcoder-7B在軟件源代碼托管服務(wù)平臺(tái)GitHub上的Star數(shù)已超過
    的頭像 發(fā)表于 05-20 14:41 ?966次閱讀
    <b class='flag-5'>代碼</b>革命的先鋒:aiXcoder-<b class='flag-5'>7B</b>模型介紹
    唐山市| 四会市| 大新县| 杭锦后旗| 宜都市| 渝北区| 明水县| 平乡县| 来安县| 泰顺县| 交城县| 什邡市| 扶余县| 凤翔县| 潢川县| 田阳县| 旺苍县| 北京市| 陈巴尔虎旗| 台南县| 卓尼县| 天镇县| 青铜峡市| 金湖县| 梅河口市| 商都县| 南部县| 凤山市| 黎城县| 吉木乃县| 车致| 武邑县| 通化县| 平顶山市| 林甸县| 荥阳市| 德化县| 略阳县| 梧州市| 松原市| 綦江县|