日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對(duì)標(biāo)OpenAI GPT-4,MiniMax國(guó)內(nèi)首個(gè)MoE大語(yǔ)言模型全量上線(xiàn)

jf_WZTOguxH ? 來(lái)源:AI前線(xiàn) ? 2024-01-16 15:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 月 16 日,InfoQ 獲悉,經(jīng)過(guò)了半個(gè)月的部分客戶(hù)的內(nèi)測(cè)和反饋,MiniMax 全量發(fā)布大語(yǔ)言模型 abab6,該模型為國(guó)內(nèi)首個(gè) MoE(Mixture-of-Experts)大語(yǔ)言模型。

早在上個(gè)月舉辦的數(shù)字中國(guó)論壇成立大會(huì)暨數(shù)字化發(fā)展論壇的一場(chǎng)分論壇上,MiniMax 副總裁魏偉就曾透露將于近期發(fā)布國(guó)內(nèi)首個(gè)基于 MoE 架構(gòu)的大模型,對(duì)標(biāo) OpenAI GPT-4。

在 MoE 結(jié)構(gòu)下,abab6 擁有大參數(shù)帶來(lái)的處理復(fù)雜任務(wù)的能力,同時(shí)模型在單位時(shí)間內(nèi)能夠訓(xùn)練足夠多的數(shù)據(jù),計(jì)算效率也可以得到大幅提升。改進(jìn)了 abab5.5 在處理更復(fù)雜、對(duì)模型輸出有更精細(xì)要求場(chǎng)景中出現(xiàn)的問(wèn)題。 為什么選擇 MoE 架構(gòu)?

那么,MoE 到底是什么?MiniMax 的大模型為何要使用使用 MoE 架構(gòu)?

MoE 架構(gòu)全稱(chēng)專(zhuān)家混合(Mixture-of-Experts),是一種集成方法,其中整個(gè)問(wèn)題被分為多個(gè)子任務(wù),并將針對(duì)每個(gè)子任務(wù)訓(xùn)練一組專(zhuān)家。MoE 模型將覆蓋不同學(xué)習(xí)者(專(zhuān)家)的不同輸入數(shù)據(jù)。

621db644-b431-11ee-8b88-92fbcf53809c.png

圖片來(lái)源:https ://arxiv.org/pdf/1701.06538.pdf

有傳聞稱(chēng),GPT-4 也采用了相同的架構(gòu)方案。

2023 年 4 月,MiniMax 發(fā)布了開(kāi)放平臺(tái)。過(guò)去半年多,MiniMax 陸續(xù)服務(wù)了近千家客戶(hù),包括金山辦公、小紅書(shū)、騰訊、小米和閱文在內(nèi)的多家頭部互聯(lián)網(wǎng)公司,MiniMax 開(kāi)放平臺(tái)平均單日的 token 處理量達(dá)到了數(shù)百億。

MiniMax 在官微中發(fā)文稱(chēng):“這半年多來(lái),客戶(hù)給我們提供了很多有價(jià)值的反饋和建議。例如,大家認(rèn)為我們做得比較好的地方有:在寫(xiě)作、聊天、問(wèn)答等場(chǎng)景中,abab5.5 的表現(xiàn)不錯(cuò),達(dá)到了 GPT-3.5 的水平?!?/p>

但是和最先進(jìn)的模型 GPT-4 相比,仍有明顯差距。這主要體現(xiàn)在處理更復(fù)雜的、對(duì)模型輸出有精細(xì)要求的場(chǎng)景時(shí),存在一定概率違反用戶(hù)要求的輸出格式,或是在推理過(guò)程中發(fā)生錯(cuò)誤。當(dāng)然,這不僅是 abab5.5 的問(wèn)題,也是目前除 GPT-4 以外,幾乎所有大語(yǔ)言模型存在的缺陷。

為了解決這個(gè)問(wèn)題,進(jìn)一步提升模型在復(fù)雜任務(wù)下的效果,MiniMax 技術(shù)團(tuán)隊(duì)從去年 6 月份起開(kāi)始研發(fā) MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已應(yīng)用于其 C 端產(chǎn)品中)。

雖然MiniMax 并未透露Abab6 的具體參數(shù),但據(jù)MiniMax 透露,Abab6 比上一個(gè)版本大了一個(gè)量級(jí)。更大的模型意味著 abab6 可以更好的從訓(xùn)練語(yǔ)料中學(xué)到更精細(xì)的規(guī)律,完成更復(fù)雜的任務(wù)。

但僅擴(kuò)大參數(shù)量會(huì)帶來(lái)新的問(wèn)題:降低模型的推理速度以及更慢的訓(xùn)練時(shí)間。在很多應(yīng)用場(chǎng)景中,訓(xùn)練推理速度和模型效果同樣重要。為了保證 abab6 的運(yùn)算速度,MiniMax 技術(shù)團(tuán)隊(duì)使用了 MoE (Mixture of Experts 混合專(zhuān)家模型)結(jié)構(gòu)。在該結(jié)構(gòu)下,模型參數(shù)被劃分為多組“專(zhuān)家”,每次推理時(shí)只有一部分專(zhuān)家參與計(jì)算。基于 MoE 結(jié)構(gòu),abab6 可以具備大參數(shù)帶來(lái)的處理復(fù)雜任務(wù)的能力;計(jì)算效率也會(huì)得到提升,模型在單位時(shí)間內(nèi)能夠訓(xùn)練足夠多的數(shù)據(jù)。

目前大部分大語(yǔ)言模型開(kāi)源和學(xué)術(shù)工作都沒(méi)有使用 MoE 架構(gòu)。為了訓(xùn)練 abab6,MiniMax 還自研了高效的 MoE 訓(xùn)練和推理框架,也發(fā)明了一些 MoE 模型的訓(xùn)練技巧。到目前為止,abab6 是國(guó)內(nèi)第一個(gè)千億參數(shù)量以上的基于 MoE 架構(gòu)的大語(yǔ)言模型。

測(cè)評(píng)結(jié)果

為了對(duì)比各模型在復(fù)雜場(chǎng)景下的表現(xiàn),MiniMax 對(duì) abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用進(jìn)行了自動(dòng)評(píng)測(cè)。在簡(jiǎn)單的任務(wù)上,abab5.5 已經(jīng)做得比較好,因此 MiniMax 選擇了三種涵蓋了較復(fù)雜的問(wèn)題的評(píng)測(cè)方法:

IFEval:這個(gè)評(píng)測(cè)主要測(cè)試模型遵守用戶(hù)指令的能力。在測(cè)試時(shí),提問(wèn)者會(huì)問(wèn)模型一些帶有約束條件的問(wèn)題,例如“以 XX 為標(biāo)題,列出三個(gè)具體對(duì)方法,每個(gè)方法的描述不超過(guò)兩句話(huà)”,然后統(tǒng)計(jì)有多少回答嚴(yán)格滿(mǎn)足了約束條件。

MT-Bench:這個(gè)評(píng)測(cè)衡量模型的英文綜合能力。提問(wèn)者會(huì)問(wèn)模型多個(gè)類(lèi)別的問(wèn)題,包括角色扮演、寫(xiě)作、信息提取、推理、數(shù)學(xué)、代碼、知識(shí)問(wèn)答。MiniMax 技術(shù)團(tuán)隊(duì)會(huì)用另一個(gè)大模型(GPT-4)對(duì)模型的回答打分,并統(tǒng)計(jì)平均分。

AlignBench:該評(píng)測(cè)反映了模型的中文綜合能力測(cè)試,測(cè)試形式與 MT-Bench 類(lèi)似。

測(cè)評(píng)及對(duì)比結(jié)果如下:

6221c5d6-b431-11ee-8b88-92fbcf53809c.png

注:對(duì)比模型均選擇各自最新、效果最好的版本,分別為 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 號(hào)的版本。

可以看出,abab6 在三個(gè)測(cè)試集中均明顯好于前一代模型 abab5.5。在指令遵從、中文綜合能力和英文綜合能力上,abab6 大幅超過(guò)了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵從、中文綜合能力和英文綜合能力上略勝一籌。相較于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵從和中文綜合能力上都優(yōu)于 Mistral-Medium,在英文綜合能力上與 Mistral- Medium 旗鼓相當(dāng)。

如果想體驗(yàn) MiniMax MoE 大模型,可訪(fǎng)問(wèn) MiniMax 開(kāi)放平臺(tái)官網(wǎng):api.minimax.chat

ps:MiniMax 方面稱(chēng),模型還在持續(xù)訓(xùn)練中,遠(yuǎn)沒(méi)有收斂,歡迎大家反饋。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    575

    瀏覽量

    11345
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1252

    瀏覽量

    10294
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3797

    瀏覽量

    5279

原文標(biāo)題:對(duì)標(biāo)OpenAI GPT-4,MiniMax 國(guó)內(nèi)首個(gè) MoE 大語(yǔ)言模型全量上線(xiàn)

文章出處:【微信號(hào):AI前線(xiàn),微信公眾號(hào):AI前線(xiàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OpenClaw 全面接入DeepSeek-V4系列模型

    近期,OpenClaw 2026.4.24版本全面接入DeepSeek-V4系列模型,以V4-Flash為默認(rèn)大腦,V4-Pro同步上線(xiàn),構(gòu)
    的頭像 發(fā)表于 04-28 09:29 ?622次閱讀

    天數(shù)智芯Day 0適配MiniMax最新開(kāi)源M2.7大模型

      4月12 日,MiniMax 最新開(kāi)源 M2.7 大模型正式發(fā)布,憑借自主迭代能力與優(yōu)異的工程、辦公性能引發(fā)行業(yè)關(guān)注。天數(shù)智芯與FlagOS 統(tǒng)一開(kāi)源技術(shù)棧合作實(shí)現(xiàn)Day0落地,在模型
    的頭像 發(fā)表于 04-15 15:42 ?885次閱讀

    MiniMax M2.7全球開(kāi)源,摩爾線(xiàn)程、沐曦等完成Day0適配

    廠(chǎng)商、推理平臺(tái)已完成Day0適配,即在開(kāi)源首日已經(jīng)完成模型接入與推理適配工作。 ? MiniMax介紹,三周前MiniMax M2.7率先上線(xiàn),開(kāi)啟了
    的頭像 發(fā)表于 04-14 11:05 ?1841次閱讀

    昆侖芯科技完成MiniMax M2.7模型極速適配

    今日,MiniMax正式開(kāi)源MiniMax M2.7模型。昆侖芯同步完成對(duì)該模型的Day 0適配與深度優(yōu)化,成為首批實(shí)現(xiàn)適配的國(guó)產(chǎn)算力廠(chǎng)商之一,再次驗(yàn)證其在主流大
    的頭像 發(fā)表于 04-13 17:07 ?517次閱讀

    Day-0支持|摩爾線(xiàn)程率先完成MiniMax M2.7大模型適配

    4月12日,摩爾線(xiàn)程旗艦級(jí)AI訓(xùn)推一體全功能GPU?MTT S5000已完成對(duì)新一代大模型MiniMax M2.7的Day-0極速適配,再次驗(yàn)證了國(guó)產(chǎn)全功能GPU對(duì)前沿AI大模型的快速
    發(fā)表于 04-13 07:57 ?1376次閱讀
    Day-0支持|摩爾線(xiàn)程率先完成<b class='flag-5'>MiniMax</b> M2.7大<b class='flag-5'>模型</b>適配

    海光DCU完成Qwen3.5多模態(tài)MoE模型適配

    近日,海光DCU完成Qwen3.5-397B MoE旗艦多模態(tài)模型、Qwen3.5-35B-A3B MoE多模態(tài)模型
    的頭像 發(fā)表于 03-26 09:35 ?763次閱讀

    沐曦曦云C500/C550 GPU產(chǎn)品深度適配MiniMax M2.5模型

    2月13日晚間,MiniMax正式開(kāi)源MiniMax M2.5模型。沐曦技術(shù)團(tuán)隊(duì)依托MXMACA軟件棧,在24小時(shí)內(nèi)完成曦云C500/C550 對(duì)該模型的深度適配。
    的頭像 發(fā)表于 02-26 14:19 ?1184次閱讀

    GPT-5.1發(fā)布 OpenAI開(kāi)始拼情商

    OpenAI正式上線(xiàn)GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實(shí)測(cè)發(fā)現(xiàn)
    的頭像 發(fā)表于 11-13 15:49 ?840次閱讀

    OpenAI Sora 2模型上線(xiàn)微軟Azure AI Foundry國(guó)際版

    我們非常激動(dòng)地宣布,OpenAI 的新一代多模態(tài)視頻生成模型 Sora 2 現(xiàn)已在 Azure AI Foundry(國(guó)際版)上線(xiàn),進(jìn)入公共預(yù)覽階段。
    的頭像 發(fā)表于 10-22 09:44 ?992次閱讀
    <b class='flag-5'>OpenAI</b> Sora 2<b class='flag-5'>模型</b><b class='flag-5'>上線(xiàn)</b>微軟Azure AI Foundry國(guó)際版

    中科曙光助力首個(gè)地質(zhì)大模型“坤樞”上線(xiàn)

    近日,首個(gè)地質(zhì)領(lǐng)域?qū)S么?b class='flag-5'>語(yǔ)言模型“坤樞”在河南鄭州正式上線(xiàn),該大模型的部署將有助于夯實(shí)地質(zhì)產(chǎn)業(yè)數(shù)字化基礎(chǔ),在保障國(guó)家能源資源信息安全前提下,
    的頭像 發(fā)表于 10-14 16:12 ?962次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    Token (TPS)。 這兩個(gè) gpt-oss 模型是具有鏈?zhǔn)剿季S和工具調(diào)用能力的文本推理大語(yǔ)言模型 (LLM),采用了廣受歡迎的混合專(zhuān)家模型
    的頭像 發(fā)表于 08-15 20:34 ?2538次閱讀
    NVIDIA從云到邊緣加速<b class='flag-5'>OpenAI</b> <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    訊飛星辰MaaS平臺(tái)率先上線(xiàn)OpenAI最新開(kāi)源模型

    8月6日凌晨,OpenAI 時(shí)隔六年再次回歸開(kāi)源,發(fā)布兩款全新的大語(yǔ)言模型gpt-oss-120b和gpt-oss-20b,性能與o
    的頭像 發(fā)表于 08-13 16:43 ?1958次閱讀

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價(jià)向美國(guó)政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語(yǔ)言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報(bào)道,GPT-5很可能在周五凌晨發(fā)布。這是
    的頭像 發(fā)表于 08-07 14:13 ?1.6w次閱讀

    亞馬遜云科技現(xiàn)已上線(xiàn)OpenAI開(kāi)放權(quán)重模型

    客戶(hù)現(xiàn)可通過(guò)Amazon Bedrock和Amazon SageMaker AI使用OpenAI開(kāi)放權(quán)重模型,實(shí)現(xiàn)將先進(jìn)的開(kāi)放權(quán)重模型與全球最廣泛云服務(wù)的深度集成。 亞馬遜云科技首次上線(xiàn)
    的頭像 發(fā)表于 08-06 19:29 ?973次閱讀

    OpenAI發(fā)布2款開(kāi)源模型

    OpenAI開(kāi)源了兩款高性能權(quán)重語(yǔ)言模型gpt-oss-120b和gpt-oss-20b,OpenAI
    的頭像 發(fā)表于 08-06 14:25 ?1167次閱讀
    潜江市| 岳池县| 武功县| 同仁县| 宁德市| 镇原县| 资阳市| 洪泽县| 澳门| 鹤岗市| 汉阴县| 伊宁县| 黄陵县| 始兴县| 什邡市| 东安县| 临潭县| 耿马| 双流县| 龙泉市| 六安市| 凤凰县| 马尔康县| 铜陵市| 平昌县| 常德市| 会理县| 广宁县| 肇庆市| 苏尼特右旗| 长沙市| 固始县| 长岛县| 南昌县| 晋城| 淳化县| 嘉义市| 辽源市| 通城县| 潞西市| 丰镇市|