日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI圈巨震!微軟論文聲稱ChatGPT是20B(200億)參數(shù)量的模型?

CVer ? 來源:新智元 ? 2023-11-01 16:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】微軟最近一篇論文爆料,GPT-3.5的參數(shù)量只有20B,遠遠小于之前GPT-3公布175B。網(wǎng)友表示,ChatGPT能力似乎「配得上」這個體量?

GPT-3.5只有200億參數(shù)?

今天,大模型圈都被微軟論文中的一紙截圖刷爆了,究竟是怎么回事?

就在前幾天,微軟發(fā)表了篇論文并掛在了arXiv上,該論文提出了一個參數(shù)量只有75M的小規(guī)模擴散模型——CodeFusion。

性能方面,7500萬參數(shù)的CodeFusion在top-1準確率指標上,可以與最先進的350M-175B模型相媲美。

fc683000-785c-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2310.17680

這篇論文的工作很有意義,但引起大家格外注意的卻是——

作者在對比ChatGPT(gpt-3.5-turbo)時,標稱的參數(shù)量竟然只有20B!

fc77aca6-785c-11ee-939d-92fbcf53809c.png

在此之前,大家針對GPT-3.5參數(shù)量的猜測都是1750億,這相當(dāng)于是縮減了差不多十倍!

fc8a2fac-785c-11ee-939d-92fbcf53809c.png

根據(jù)這篇論文的爆料,網(wǎng)友還去維基百科上更新了GPT-3.5的介紹,直接把參數(shù)大小改成了20B。

消息一出,直接登上知乎熱搜,網(wǎng)友們都炸了。

fca5c104-785c-11ee-939d-92fbcf53809c.png

有人表示,趕緊回頭再把我之前模型蒸餾的博文拿出來復(fù)習(xí)復(fù)習(xí) 。

fcb0865c-785c-11ee-939d-92fbcf53809c.png

是「烏龍」還是「事實」?

網(wǎng)友的爆料貼一出,瞬間就引發(fā)了激烈的討論。

目前,已經(jīng)有超過68萬人前來圍觀。

fcbf4048-785c-11ee-939d-92fbcf53809c.png

這位老哥表示,論文的幾位作者也都在用推特,估計過不了多久就會親自下場解釋。

fcca9e5c-785c-11ee-939d-92fbcf53809c.png

而對于這個神秘的「20B」,網(wǎng)友們也是眾說紛紜。

fcdd2298-785c-11ee-939d-92fbcf53809c.png

有人猜測,這很可能是作者手誤打錯了。比如原本是120B,或者200B。

fceadfd2-785c-11ee-939d-92fbcf53809c.png

結(jié)合現(xiàn)實中的各項評測來看,確實有很多小模型能夠取得和ChatGPT差不多的成績,比如Mistral-7B。

fcf5aa3e-785c-11ee-939d-92fbcf53809c.png

也許,這也是側(cè)面證實了GPT-3.5體量真的不大。

fcffd162-785c-11ee-939d-92fbcf53809c.png

很多網(wǎng)友也認為20B的參數(shù)可能是準確的,紛紛發(fā)出感嘆:

「這也太難以想象了!Falcon-180B和Llama2-70B,竟然都無法擊敗這款20B的模型?!?/p>

fd15eb00-785c-11ee-939d-92fbcf53809c.png

也有網(wǎng)友認為,gpt-3.5-turbo是精煉版的gpt-3.5。

而這次參數(shù)的「泄露」,正好從側(cè)面印證了那些關(guān)于gpt-3.5-turbo表現(xiàn)不如舊版gpt-3.5的傳言。

fd20504a-785c-11ee-939d-92fbcf53809c.png

不過,根據(jù)OpenAI的官方文檔,除了已經(jīng)不再使用的text-davinci和code-davinci,GPT-3.5家族全員都是基于gpt-3.5-turbo構(gòu)成的。

fd2a28fe-785c-11ee-939d-92fbcf53809c.png

fd3462c4-785c-11ee-939d-92fbcf53809c.png

fd473494-785c-11ee-939d-92fbcf53809c.png

微軟發(fā)布CodeFusion

而爆出GPT3.5只有20B參數(shù)的微軟論文,是想介紹一個用于代碼生成的擴散模型。

研究人員針對Bash、Python和Microsoft Excel條件格式(CF)規(guī)則的自然語言生成代碼的任務(wù)來評估這個模型——CodeFusion。

實驗表明,CodeFusion(只有75M參數(shù))在top-1精度方面與最先進的LLM(350M-175B參數(shù))相當(dāng),并且在top-3和top-5精度方面性能和參數(shù)比非常優(yōu)秀。

fd52e794-785c-11ee-939d-92fbcf53809c.png

模型架構(gòu)CODEFUSION用于代碼生成任務(wù),它的訓(xùn)練分為兩個階段,第一階段是無監(jiān)督預(yù)訓(xùn)練,第二階段是有監(jiān)督微調(diào)。

fd5d9748-785c-11ee-939d-92fbcf53809c.png

在第一階段,CODEFUSION使用未標記的代碼片段來訓(xùn)練降噪器和解碼器。它還使用可訓(xùn)練的嵌入層L,將代碼片段嵌入到連續(xù)空間中。

在第二階段,CODEFUSION進行有監(jiān)督的微調(diào),使用來自文本-代碼對數(shù)據(jù)。在這個階段,編碼器、降噪器和解碼器都會得到調(diào)整,以更好地執(zhí)行任務(wù)。

此外,CODEFUSION還借鑒了之前有關(guān)文本擴散的研究成果,將來自解碼器的隱藏表示D融合到模型中。這是為了改進模型的性能。在訓(xùn)練過程中,在不同step中,模型引入一些噪聲,然后計算損失函數(shù),以確保生成的代碼片段更符合預(yù)期的標準。

總之,CODEFUSION是一個執(zhí)行代碼生成工作的小模型,通過兩個階段的訓(xùn)練和噪聲引入來不斷提升其性能。這個模型的靈感來自于文本擴散的研究,并通過融合解碼器的隱藏表示來改進損失函數(shù),以更好地生成高質(zhì)量的代碼片段。

評估結(jié)果

下表總結(jié)了CODEFUSION模型與各個基線模型在top-1、top-3和top-5設(shè)置下的性能表現(xiàn)。

在top-1中,CODEFUSION的性能與自回歸模型相媲美,甚至在某些情況下表現(xiàn)更出色,尤其是在Python任務(wù)中,只有GPT-3(175B)的性能稍微優(yōu)于CODEFUSION(75M)。然而,在top-3和top-5方面,CODEFUSION明顯優(yōu)于所有基線模型。

fd7e7cec-785c-11ee-939d-92fbcf53809c.png

表下表展示了CODEFUSION和自回歸模型(包括T5、CodeT5、StarCoder、CodeGen、GPT-3)在各項基準任務(wù)上的平均多樣性結(jié)果,考察了每個模型的前5代生成結(jié)果。

相對于自回歸模型,CODEFUSION生成更加多樣化的結(jié)果,表現(xiàn)更出色。

fd897d68-785c-11ee-939d-92fbcf53809c.png

在消融實驗中,作者停止了去噪過程,并生成了在時間步t∈[0, T]范圍內(nèi)的當(dāng)前狀態(tài)的代碼片段。利用歸一化字符串編輯距離來衡量每個時間步長(每100步為一個增量)所獲得的結(jié)果。

這一方法有助于總結(jié)和展示CODEFUSION模型的逐步進展,如下圖所示。

fd96984a-785c-11ee-939d-92fbcf53809c.png

說了這么多,GPT-3.5的參數(shù)量到底是多少?GPT-4與GPT-3.5在技術(shù)和其他方面有著什么樣的聯(lián)系?

GPT-3.5是一個個小專家模型的集成還是一個通才模型?是通過更大模型的蒸餾還是更大數(shù)據(jù)訓(xùn)練?

這些問題的答案只能等到真正開源的時候才能揭曉了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41326

    瀏覽量

    302727
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52289
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1600

    瀏覽量

    10403

原文標題:AI圈巨震!微軟論文聲稱ChatGPT是20B(200億)參數(shù)量的模型?

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    壁仞科技光速支持阿里Qwen3.6-35B-A3B模型

    4月16日晚,阿里巴巴通義實驗室正式宣布全量開源Qwen3.6-35B-A3B模型。該模型為混合專家(MoE)模型,總參數(shù)量為350
    的頭像 發(fā)表于 04-20 17:50 ?1594次閱讀

    AI模型微調(diào)企業(yè)項目實戰(zhàn)課

    決勝未來 未來十年,AI 的競爭將不再是“誰家模型參數(shù)大”的軍備競賽,而是“誰家模型更懂行業(yè)、更安全”的落地較量。 參與企業(yè)微調(diào)實戰(zhàn)課,其意義遠超掌握一門技術(shù)工具。它本質(zhì)上是幫助企業(yè)培
    發(fā)表于 04-16 18:48

    邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    48GB / 96GB LPDDR4X的選項,速率高達4266MHz。這一配置在同尺寸設(shè)備中不多見,其產(chǎn)業(yè)價值體現(xiàn)在三個層面: 1. 大模型的“內(nèi)存墻”突破 運行一個70參數(shù)(7B
    發(fā)表于 03-10 14:19

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發(fā)表于 02-19 13:43

    微軟發(fā)布AI芯片Maia 200,性能超越谷歌TPU和亞馬遜Trainium

    。 ? Maia 200采用臺積電先進的3納米工藝制造,現(xiàn)已開始部署至愛荷華州的數(shù)據(jù)中心,后續(xù)還將進駐鳳凰城地區(qū)。微軟云與AI業(yè)務(wù)負責(zé)人Scott Guthrie在博客文章中宣稱,Maia 2
    的頭像 發(fā)表于 01-27 16:46 ?7547次閱讀
    <b class='flag-5'>微軟</b>發(fā)布<b class='flag-5'>AI</b>芯片Maia <b class='flag-5'>200</b>,性能超越谷歌TPU和亞馬遜Trainium

    今日看點:微軟發(fā)布新定制 AI 芯片 Maia 200;國芯科技累計出貨2500萬顆創(chuàng)新高

    微軟發(fā)布新定制 AI 芯片 Maia 200 ? 近日,微軟在官方博客正式發(fā)布了其定制 AI 加速芯片 Maia
    發(fā)表于 01-27 10:23 ?1163次閱讀

    如何在NVIDIA Jetson AGX Thor上部署1200參數(shù)模型

    我們將嘗試能否在 Jetson AGX Thor 上部署并成功運行高達 1,200 參數(shù)量的 gpt-oss-120b模型。
    的頭像 發(fā)表于 12-26 17:06 ?5295次閱讀
    如何在NVIDIA Jetson AGX Thor上部署1200<b class='flag-5'>億</b><b class='flag-5'>參數(shù)</b>大<b class='flag-5'>模型</b>

    【 HD200I A2(20T)】基于昇騰 310B 的智能計算模組

    HD200IA2(20T)是一款基于華為昇騰 310B 的高性能 AI 智能計 算模組。該模組將華為的昇騰 310B 芯片集成在了一個 82
    的頭像 發(fā)表于 11-17 14:54 ?1127次閱讀
    【 HD<b class='flag-5'>200</b>I A2(<b class='flag-5'>20</b>T)】基于昇騰 310<b class='flag-5'>B</b> 的智能計算模組

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    、現(xiàn)階段更智能、更接近AGI的6中算法與模型 1、MoE模型 MoE模型作為Transfomer模型的后繼者,代表著AI技術(shù)的一項重大創(chuàng)新和
    發(fā)表于 09-18 15:31

    英特爾可變顯存技術(shù)讓32GB內(nèi)存筆記本流暢運行Qwen 30B模型

    近日,阿里通義千問發(fā)布了兩款新版本30B(300參數(shù))MoE大模型——Qwen3-30B-A3B-Instruct-2507 和 Qwen
    的頭像 發(fā)表于 08-14 15:39 ?2036次閱讀

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?直接發(fā)個安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    發(fā)表于 07-09 18:30

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70參數(shù)的稠密模型、盤古Pro MoE 720參數(shù)的混合專家
    的頭像 發(fā)表于 06-30 11:19 ?1469次閱讀

    華為助力中國石油發(fā)布3000參數(shù)昆侖大模型

    昆侖大模型完成備案,成為中國能源化工行業(yè)首個通過備案的大模型,到2024年11月發(fā)布700參數(shù)昆侖大模型建設(shè)成果,中國石油始終緊緊圍繞行業(yè)
    的頭像 發(fā)表于 05-29 09:19 ?1229次閱讀
    華為助力中國石油發(fā)布3000<b class='flag-5'>億</b><b class='flag-5'>參數(shù)</b>昆侖大<b class='flag-5'>模型</b>

    如何賦能醫(yī)療AI模型應(yīng)用?

    引言自ChatGPT掀起熱潮以來,眾多AI模型如雨后春筍般涌現(xiàn),其中包括百度科技的文心一言、科大訊飛的訊飛星火、華為的盤古AI模型、騰訊
    的頭像 發(fā)表于 05-07 09:36 ?819次閱讀
    如何賦能醫(yī)療<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>應(yīng)用?
    海兴县| 杭州市| 濮阳县| 湘乡市| 河东区| 承德县| 临邑县| 九台市| 苍溪县| 新河县| 麻城市| 定远县| 都匀市| 吉林省| 额尔古纳市| 东乌| 明溪县| 元谋县| 岑巩县| 淮阳县| 云安县| 开平市| 乌鲁木齐县| 娱乐| 汝城县| 视频| 邹城市| 齐河县| 汉寿县| 江永县| 宜城市| 射阳县| 阳谷县| 汕头市| 肥东县| 衡阳县| 吴川市| 大新县| 西安市| 英山县| 安图县|