近日,智源研究院發(fā)布并解讀了國(guó)內(nèi)外100余個(gè)開(kāi)源和商業(yè)閉源的語(yǔ)言、視覺(jué)語(yǔ)言、文生圖、文生視頻、語(yǔ)音語(yǔ)言大模型綜合及專項(xiàng)評(píng)測(cè)結(jié)果。云知聲山海大模型(UniGPT4.0-0730)在此次評(píng)測(cè)中表現(xiàn)優(yōu)異。云知聲山海大模型在100多個(gè)參評(píng)大語(yǔ)言模型中,客觀評(píng)測(cè)全球第6,國(guó)內(nèi)第3;主觀評(píng)測(cè)全球第12,國(guó)內(nèi)第8,繼續(xù)穩(wěn)居我國(guó)大語(yǔ)言模型第一梯隊(duì)。這一佳績(jī)不僅彰顯了云知聲在人工智能領(lǐng)域的深厚技術(shù)底蘊(yùn),也標(biāo)志著公司在大模型技術(shù)的應(yīng)用和綜合能力提升方面取得了顯著的進(jìn)展。云知聲山海大模型的卓越表現(xiàn),證明了其在激烈的市場(chǎng)競(jìng)爭(zhēng)中具備強(qiáng)勁的競(jìng)爭(zhēng)力,并且在技術(shù)創(chuàng)新和應(yīng)用實(shí)踐上不斷取得突破。
能力卓越,山海大模型多項(xiàng)評(píng)測(cè)名列前茅
智源研究院的大模型評(píng)測(cè)平臺(tái)FlagEval自2023年6月上線以來(lái),已覆蓋全球800余個(gè)開(kāi)閉源模型,超過(guò)200萬(wàn)條評(píng)測(cè)題目,成為全球大模型評(píng)測(cè)的重要平臺(tái)。此次評(píng)測(cè),F(xiàn)lagEval在評(píng)測(cè)方法與工具上聯(lián)合了全國(guó)10余家高校和機(jī)構(gòu)合作共建,不僅擴(kuò)展、豐富和細(xì)化了評(píng)測(cè)任務(wù),還新增了數(shù)據(jù)處理、高級(jí)編程和工具調(diào)用的相關(guān)能力與任務(wù),以及面向真實(shí)金融量化交易場(chǎng)景的應(yīng)用能力評(píng)估。
在FlagEval“大語(yǔ)言模型評(píng)測(cè)能力榜單”中,山海大模型(UniGPT4.0-0730)在主客觀兩大評(píng)測(cè)維度中均展現(xiàn)出了非凡的實(shí)力。本輪評(píng)測(cè)主要聚焦對(duì)話模型,其中主觀評(píng)測(cè)更側(cè)重于考察中文能力。在涉及約2.2萬(wàn)道題目、覆蓋40余個(gè)語(yǔ)言模型的廣泛評(píng)測(cè)中,山海大模型憑借其卓越的性能,贏得了業(yè)界的廣泛認(rèn)可。
在客觀評(píng)測(cè)方面,該榜單詳盡涵蓋了語(yǔ)言能力、知識(shí)運(yùn)用、推理能力、數(shù)學(xué)能力、代碼能力、指令遵循、工具調(diào)用七大評(píng)估類別,全方位考察各項(xiàng)技能。山海大模型(UniGPT4.0-0730)以54.46的綜合評(píng)分,在榜單中位列第3,這充分彰顯了其堅(jiān)實(shí)的綜合基礎(chǔ)。特別是在代碼能力方面,山海大模型得分高達(dá)55.05,榮獲國(guó)內(nèi)第1,進(jìn)一步凸顯了其在編程和代碼處理方面的卓越才能。同時(shí),其數(shù)學(xué)能力得分53.56,也使其榮獲國(guó)內(nèi)第2,再次證明了其在解決復(fù)雜數(shù)學(xué)問(wèn)題上的非凡實(shí)力。
在主觀評(píng)測(cè)方面,該榜單精心設(shè)置了簡(jiǎn)單理解、知識(shí)運(yùn)用、推理能力、數(shù)學(xué)能力、任務(wù)解決、安全與價(jià)值觀六大評(píng)估維度,全面衡量各項(xiàng)能力。山海大模型(UniGPT4.0-0730)憑借69.63的綜合評(píng)分,在榜單中脫穎而出,位列第8名,充分展示了其強(qiáng)大的綜合性能。此外,其數(shù)學(xué)能力得分高達(dá)71,位居國(guó)內(nèi)第3名,進(jìn)一步凸顯了山海大模型在解決復(fù)雜數(shù)學(xué)問(wèn)題上的出色能力。
智慧賦能,加速AI應(yīng)用落地與產(chǎn)業(yè)升級(jí)
隨著人工智能技術(shù)的快速發(fā)展,大模型已成為全球科技競(jìng)爭(zhēng)的新高地、未來(lái)產(chǎn)業(yè)的新賽道、經(jīng)濟(jì)發(fā)展的新引擎。當(dāng)前,通用大模型、行業(yè)大模型以及端側(cè)大模型正如雨后春筍般層出不窮,大模型產(chǎn)業(yè)的應(yīng)用落地步伐顯著加快。
作為國(guó)內(nèi)頂尖的人工智能獨(dú)角獸企業(yè),云知聲于2016年開(kāi)始建立Atlas人工智能基礎(chǔ)設(shè)施,并以此為基礎(chǔ),構(gòu)建云知大腦(UniBrain)技術(shù)中臺(tái)——以山海(UniGPT)通用認(rèn)知大模型為核心,結(jié)合多模態(tài)感知與生成、知識(shí)圖譜、物聯(lián)平臺(tái)等智能組件,為云知聲智慧物聯(lián)、智慧醫(yī)療、智慧座艙、智慧交通等業(yè)務(wù)提供高效的產(chǎn)品化支撐,持續(xù)推動(dòng)千行百業(yè)的智慧化升級(jí)。
山海大模型作為云知大腦的核心,在實(shí)際應(yīng)用中展現(xiàn)出了卓越的潛力與實(shí)力。通過(guò)持續(xù)的技術(shù)創(chuàng)新和豐富的應(yīng)用場(chǎng)景實(shí)踐,山海大模型不僅在通用能力上達(dá)到了世界一流水平,而且在專業(yè)能力上也表現(xiàn)出色,處于行業(yè)領(lǐng)先地位。
目前,山海大模型已相繼在OpenCompass大模型評(píng)測(cè)、SuperCLUE中文大模型基準(zhǔn)測(cè)評(píng)、MedBench評(píng)測(cè)、Flageval大模型評(píng)測(cè)、SuperBench、MMMU等多個(gè)權(quán)威評(píng)測(cè)中屢創(chuàng)佳績(jī),穩(wěn)居國(guó)內(nèi)大模型第一梯隊(duì),展現(xiàn)了其強(qiáng)大的通用能力。在專業(yè)能力層面,其基于山海大模型孵化的醫(yī)療大模型在CCKS 2023 PromptCBLUE醫(yī)療大模型評(píng)測(cè)中奪得通用賽道一等獎(jiǎng),并在2024年5月和6月的MedBench評(píng)測(cè)中連續(xù)登頂榜首。此外,在2024年全國(guó)智慧醫(yī)保大賽中,憑借“基于大模型的DRG結(jié)算清單智能生成方案”,團(tuán)隊(duì)在總決賽中榮獲一等獎(jiǎng)。
此次榮登智源FlagEval“百模”評(píng)測(cè)榜前列,不僅是對(duì)山海大模型技術(shù)實(shí)力的有力證明,更是對(duì)其在人工智能領(lǐng)域持續(xù)創(chuàng)新和深耕細(xì)作的肯定。未來(lái),云知聲將繼續(xù)秉承創(chuàng)新理念,不斷突破技術(shù)瓶頸,為人工智能產(chǎn)業(yè)的發(fā)展貢獻(xiàn)更多力量,推動(dòng)AI技術(shù)創(chuàng)新與行業(yè)應(yīng)用的深度融合。
-
人工智能
+關(guān)注
關(guān)注
1821文章
50366瀏覽量
267056 -
云知聲
+關(guān)注
關(guān)注
0文章
330瀏覽量
9481 -
大模型
+關(guān)注
關(guān)注
2文章
3797瀏覽量
5279
原文標(biāo)題:智源FlagEval“百?!痹u(píng)測(cè)揭曉:云知聲山海大模型表現(xiàn)卓越,名列前茅
文章出處:【微信號(hào):云知聲,微信公眾號(hào):云知聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
云知聲以大模型技術(shù)實(shí)現(xiàn)質(zhì)變躍升
云知聲與AMD ROCm Lab簽署戰(zhàn)略合作協(xié)議
云知聲正式推出Unisound U1-OCR文檔智能基礎(chǔ)大模型
云知聲發(fā)布“山海·知音”大模型2.0,醫(yī)療AI加速落地驅(qū)動(dòng)業(yè)績(jī)高增長(zhǎng)
云知聲與嘉會(huì)醫(yī)療達(dá)成戰(zhàn)略合作
云知聲山海知音大模型2.0重磅發(fā)布
云知聲榮登MedAIBench優(yōu)秀國(guó)產(chǎn)醫(yī)療大模型榜單
云知聲山海醫(yī)療大模型問(wèn)鼎MedBench4.0三項(xiàng)榜首
云知聲山海大模型多項(xiàng)評(píng)測(cè)名列前茅
評(píng)論