色九九国产,日日骚网站一区

1 月 16 日，InfoQ 獲悉，經(jīng)過(guò)了半個(gè)月的部分客戶(hù)的內(nèi)測(cè)和反饋，MiniMax 全量發(fā)布大語(yǔ)言模型 abab6，該模型為國(guó)內(nèi)首個(gè) MoE（Mixture-of-Experts）大語(yǔ)言模型。

早在上個(gè)月舉辦的數(shù)字中國(guó)論壇成立大會(huì)暨數(shù)字化發(fā)展論壇的一場(chǎng)分論壇上，MiniMax 副總裁魏偉就曾透露將于近期發(fā)布國(guó)內(nèi)首個(gè)基于 MoE 架構(gòu)的大模型，對(duì)標(biāo) OpenAI GPT-4。

在 MoE 結(jié)構(gòu)下，abab6 擁有大參數(shù)帶來(lái)的處理復(fù)雜任務(wù)的能力，同時(shí)模型在單位時(shí)間內(nèi)能夠訓(xùn)練足夠多的數(shù)據(jù)，計(jì)算效率也可以得到大幅提升。改進(jìn)了 abab5.5 在處理更復(fù)雜、對(duì)模型輸出有更精細(xì)要求場(chǎng)景中出現(xiàn)的問(wèn)題。為什么選擇 MoE 架構(gòu)？

那么，MoE 到底是什么？MiniMax 的大模型為何要使用使用 MoE 架構(gòu)？

MoE 架構(gòu)全稱(chēng)專(zhuān)家混合（Mixture-of-Experts），是一種集成方法，其中整個(gè)問(wèn)題被分為多個(gè)子任務(wù)，并將針對(duì)每個(gè)子任務(wù)訓(xùn)練一組專(zhuān)家。MoE 模型將覆蓋不同學(xué)習(xí)者（專(zhuān)家）的不同輸入數(shù)據(jù)。

圖片來(lái)源：https ://arxiv.org/pdf/1701.06538.pdf

有傳聞稱(chēng)，GPT-4 也采用了相同的架構(gòu)方案。

2023 年 4 月，MiniMax 發(fā)布了開(kāi)放平臺(tái)。過(guò)去半年多，MiniMax 陸續(xù)服務(wù)了近千家客戶(hù)，包括金山辦公、小紅書(shū)、騰訊、小米和閱文在內(nèi)的多家頭部互聯(lián)網(wǎng)公司，MiniMax 開(kāi)放平臺(tái)平均單日的 token 處理量達(dá)到了數(shù)百億。

MiniMax 在官微中發(fā)文稱(chēng)：“這半年多來(lái)，客戶(hù)給我們提供了很多有價(jià)值的反饋和建議。例如，大家認(rèn)為我們做得比較好的地方有：在寫(xiě)作、聊天、問(wèn)答等場(chǎng)景中，abab5.5 的表現(xiàn)不錯(cuò)，達(dá)到了 GPT-3.5 的水平?！?/p>

但是和最先進(jìn)的模型 GPT-4 相比，仍有明顯差距。這主要體現(xiàn)在處理更復(fù)雜的、對(duì)模型輸出有精細(xì)要求的場(chǎng)景時(shí)，存在一定概率違反用戶(hù)要求的輸出格式，或是在推理過(guò)程中發(fā)生錯(cuò)誤。當(dāng)然，這不僅是 abab5.5 的問(wèn)題，也是目前除 GPT-4 以外，幾乎所有大語(yǔ)言模型存在的缺陷。

為了解決這個(gè)問(wèn)題，進(jìn)一步提升模型在復(fù)雜任務(wù)下的效果，MiniMax 技術(shù)團(tuán)隊(duì)從去年 6 月份起開(kāi)始研發(fā) MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型（第一版 MoE 大模型已應(yīng)用于其 C 端產(chǎn)品中）。

雖然MiniMax 并未透露Abab6 的具體參數(shù)，但據(jù)MiniMax 透露，Abab6 比上一個(gè)版本大了一個(gè)量級(jí)。更大的模型意味著 abab6 可以更好的從訓(xùn)練語(yǔ)料中學(xué)到更精細(xì)的規(guī)律，完成更復(fù)雜的任務(wù)。

但僅擴(kuò)大參數(shù)量會(huì)帶來(lái)新的問(wèn)題：降低模型的推理速度以及更慢的訓(xùn)練時(shí)間。在很多應(yīng)用場(chǎng)景中，訓(xùn)練推理速度和模型效果同樣重要。為了保證 abab6 的運(yùn)算速度，MiniMax 技術(shù)團(tuán)隊(duì)使用了 MoE (Mixture of Experts 混合專(zhuān)家模型）結(jié)構(gòu)。在該結(jié)構(gòu)下，模型參數(shù)被劃分為多組“專(zhuān)家”，每次推理時(shí)只有一部分專(zhuān)家參與計(jì)算。基于 MoE 結(jié)構(gòu)，abab6 可以具備大參數(shù)帶來(lái)的處理復(fù)雜任務(wù)的能力；計(jì)算效率也會(huì)得到提升，模型在單位時(shí)間內(nèi)能夠訓(xùn)練足夠多的數(shù)據(jù)。

目前大部分大語(yǔ)言模型開(kāi)源和學(xué)術(shù)工作都沒(méi)有使用 MoE 架構(gòu)。為了訓(xùn)練 abab6，MiniMax 還自研了高效的 MoE 訓(xùn)練和推理框架，也發(fā)明了一些 MoE 模型的訓(xùn)練技巧。到目前為止，abab6 是國(guó)內(nèi)第一個(gè)千億參數(shù)量以上的基于 MoE 架構(gòu)的大語(yǔ)言模型。

測(cè)評(píng)結(jié)果

為了對(duì)比各模型在復(fù)雜場(chǎng)景下的表現(xiàn)，MiniMax 對(duì) abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用進(jìn)行了自動(dòng)評(píng)測(cè)。在簡(jiǎn)單的任務(wù)上，abab5.5 已經(jīng)做得比較好，因此 MiniMax 選擇了三種涵蓋了較復(fù)雜的問(wèn)題的評(píng)測(cè)方法：

IFEval：這個(gè)評(píng)測(cè)主要測(cè)試模型遵守用戶(hù)指令的能力。在測(cè)試時(shí)，提問(wèn)者會(huì)問(wèn)模型一些帶有約束條件的問(wèn)題，例如“以 XX 為標(biāo)題，列出三個(gè)具體對(duì)方法，每個(gè)方法的描述不超過(guò)兩句話(huà)”，然后統(tǒng)計(jì)有多少回答嚴(yán)格滿(mǎn)足了約束條件。

MT-Bench：這個(gè)評(píng)測(cè)衡量模型的英文綜合能力。提問(wèn)者會(huì)問(wèn)模型多個(gè)類(lèi)別的問(wèn)題，包括角色扮演、寫(xiě)作、信息提取、推理、數(shù)學(xué)、代碼、知識(shí)問(wèn)答。MiniMax 技術(shù)團(tuán)隊(duì)會(huì)用另一個(gè)大模型（GPT-4）對(duì)模型的回答打分，并統(tǒng)計(jì)平均分。

AlignBench：該評(píng)測(cè)反映了模型的中文綜合能力測(cè)試，測(cè)試形式與 MT-Bench 類(lèi)似。

測(cè)評(píng)及對(duì)比結(jié)果如下：

注：對(duì)比模型均選擇各自最新、效果最好的版本，分別為 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview；GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 號(hào)的版本。

可以看出，abab6 在三個(gè)測(cè)試集中均明顯好于前一代模型 abab5.5。在指令遵從、中文綜合能力和英文綜合能力上，abab6 大幅超過(guò)了 GPT-3.5。和 Claude 2.1 相比，abab6 也在指令遵從、中文綜合能力和英文綜合能力上略勝一籌。相較于 Mistral 的商用版本 Mistral-Medium，abab6 在指令遵從和中文綜合能力上都優(yōu)于 Mistral-Medium，在英文綜合能力上與 Mistral- Medium 旗鼓相當(dāng)。

如果想體驗(yàn) MiniMax MoE 大模型，可訪(fǎng)問(wèn) MiniMax 開(kāi)放平臺(tái)官網(wǎng)：api.minimax.chat

ps：MiniMax 方面稱(chēng)，模型還在持續(xù)訓(xùn)練中，遠(yuǎn)沒(méi)有收斂，歡迎大家反饋。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
575

瀏覽量
11345
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1252

瀏覽量
10294
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3797

瀏覽量
5279

原文標(biāo)題：對(duì)標(biāo)OpenAI GPT-4，MiniMax 國(guó)內(nèi)首個(gè) MoE 大語(yǔ)言模型全量上線(xiàn)

文章出處：【微信號(hào)：AI前線(xiàn)，微信公眾號(hào)：AI前線(xiàn)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

對(duì)標(biāo)OpenAI GPT-4，MiniMax國(guó)內(nèi)首個(gè)MoE大語(yǔ)言模型全量上線(xiàn)

評(píng)論

搜索歷史

對(duì)標(biāo)OpenAI GPT-4，MiniMax國(guó)內(nèi)首個(gè)MoE大語(yǔ)言模型全量上線(xiàn)

評(píng)論

對(duì)標(biāo)OpenAI GPT-4，MiniMax國(guó)內(nèi)首個(gè)MoE大語(yǔ)言模型全量上線(xiàn)