Claude-3力壓GPT-4榮膺最佳大語言模型

近日，LMSYS Org發(fā)布最新的基準測試報告，顯示Cordulas公司的Claude-3在平臺大語言模型中的得分略勝OpenAI的GPT-4。

值得注意的是，LMSYS Org是由加州大學伯克利分校、加州大學圣地亞哥分校以及卡內基梅隆大學共同發(fā)起設立的研究組織。

日前，這家機構推出了一項名為Chatbot Arena的服務，這是針對大語言模型（LLM）進行評估的基準平臺，該平臺采用眾包形式對大型語言模型進行匿名隨機競爭打分，參考源于競技比賽領域中廣泛應用的Elo評分體系。

分數(shù)評價結果主要取決于用戶的投票意向，每次由系統(tǒng)隨機挑選兩個不同的大語言模型參與與用戶的對話，同時，為保障客觀性，匿名選擇哪個版本的大模型表現(xiàn)優(yōu)秀至關重要。

自去年啟動以來，GPT-4一直占據(jù)評測榜單之首。然而，昨日，由Anthropos推出的Claude 3 Opus以微弱優(yōu)勢戰(zhàn)勝了GPT-4，將OpenAI的LLM擠出了首位。

考慮到細微差距及誤差風險，委員會決定授予Claude 3與GPT-4并列第一的榮譽，GPT-4的另外一個預設版也被列入并列第一的行列。此外，更引人注目的是，Claude 3 Haiku成功躋身前十名。Haiku是Anthropos針對本地規(guī)模的新型模型，功能類似谷歌的GeminiNano。

相較Opus參數(shù)高達幾萬億，Haiku體型更為緊湊，運行速度更快。據(jù)LMSYS數(shù)據(jù)顯示，Haikn在評測成績中排名第七，與GPT-4表現(xiàn)不遑多讓。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6260

瀏覽量
112074
語言模型

語言模型

+關注

關注
0

文章
575

瀏覽量
11349
GPT

GPT

+關注

關注
0

文章
374

瀏覽量
16997

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 對比各家主流MCU指標，國產MCU真的品質不佳？
Hot 模擬信號和數(shù)字信號的區(qū)別和特點

New 方正電機成為小鵬汽車驅動電機供應商，總需求量預計達35萬臺
New 雷諾-吉利動力總成合資企業(yè)HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

邁向自動駕駛的前奏已奏響，華為乾崑發(fā)布ADS5，技術和體驗升級到哪里了？

章鷹觀察
1天前

5013 閱讀

LDO熱性能評估指南

安世半導體
1天前

1786 閱讀

BSP調試#08：Audio(RK3588)

BSP調試從0到1
1天前

1495 閱讀

瑞芯微(EASY EAI)RV1126B resnet50訓練部署教程

廣州靈眸科技有限公司
2天前

2294 閱讀

凈利潤大漲30.66%！發(fā)力端側AI和車規(guī)級藍牙6.0，泰凌微2025年業(yè)績亮眼

章鷹觀察
2天前

6288 閱讀

C語言實例精粹

李鴻洋
8540

10積分

1225下載

快速充電設計攻略集錦

盧國藝
1765KB

4積分

111下載

OpenDCP基于Docker的云資源管理與調度平臺

深圳市正商電子科有限公司
39.32 MB

免費

0下載

現(xiàn)場總線介質接入單元評估板AMIS492X0GEVB數(shù)據(jù)手冊

980.48 KB

免費

0下載

DA1453x-DA1469x 生產線工具軟件和硬件用戶手冊

23.26 MB

免費

1下載

【瑞薩RA2L1入門學習】步進電機驅動

jf_07365693
4天前

1123 閱讀

R_IOPORT_Open

jf_91972191
6天前

1159 閱讀

【瑞薩RA2L1入門學習】+ RA-Eco-RA2L1-V2.0開發(fā)板自定義按鍵控制 LED

jf_84491108
5天前

1109 閱讀

【瑞薩RA2L1入門學習】+ RA-Eco-RA2L1-V2.0開發(fā)板概覽、環(huán)境搭建與TTL串口燒錄點燈

jf_84491108
8天前

1491 閱讀

【瑞薩RA2L1入門學習】+ touch控制OLED

安安踢球球
6天前

1523 閱讀

推薦專欄
更多

企業(yè)產品

資料

方案
更多

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

Claude-3力壓GPT-4榮膺最佳大語言模型

評論

GPT-5即將面市性能遠超GPT-4