日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么ChatGPT模型大了就有上下文聯(lián)系能力?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-04-27 09:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

關(guān)于這點(diǎn),在一篇采訪OpenAI 總裁Greg Brockman 的報(bào)道中提到了:

“Q:ChatGPT是如何產(chǎn)生的?GPT模型當(dāng)初發(fā)布時(shí)顯得有些違反常識(shí),但卻在某種程度上掀起了最新的AI浪潮,這與你們當(dāng)初構(gòu)建這些技術(shù)時(shí)的預(yù)期是否一致?

A:ChatGPT、GPT-3、DALL·E 2這些模型看似一夜成名,但其實(shí)構(gòu)建這些模型耗費(fèi)了整整五年時(shí)間,飽含多年的心血。GPT模型的構(gòu)建要從2017年發(fā)布的情感神經(jīng)元論文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)說(shuō)起,這篇論文的思想很新穎,不過(guò)很多人可能已經(jīng)忘了。

....“

于是好奇去查了這篇文章,很遺憾,并不是上面提到的這篇文章,而是官網(wǎng)Learning to Generate Reviews and Discovering Sentiment這篇文章。這篇文章的作者很激動(dòng)、誠(chéng)懇甚至有點(diǎn)卑微的表達(dá)了它的意外發(fā)現(xiàn),那就是單純訓(xùn)練LSTM 模型的去預(yù)測(cè)下一個(gè)單詞,模型中的某個(gè)神經(jīng)元意外對(duì)應(yīng)著情感狀態(tài),用Greg Brockman的原話說(shuō)就是:

“我們發(fā)現(xiàn)LSTM模型中的單個(gè)神經(jīng)元有助于開(kāi)發(fā)出SOTA情感分析分類器(sentiment analysis classifier),可以告知你文本情感(正面評(píng)價(jià)或負(fù)面評(píng)價(jià)),這一發(fā)現(xiàn)聽(tīng)起來(lái)平平無(wú)奇,但我們非常清楚地知道,這是一個(gè)超越語(yǔ)法并轉(zhuǎn)向語(yǔ)義的時(shí)刻。”

關(guān)于為何會(huì)出現(xiàn)這種涌現(xiàn)行為,文章的作者提出了他的思路:

“情緒作為條件特征可能對(duì)語(yǔ)言建模具有很強(qiáng)的預(yù)測(cè)能力。(It is possible that sentiment as a conditioning feature has strong predictive capability for language modelling.)“

這個(gè)思路是典型的達(dá)爾文進(jìn)化思維:

即模型本身有生成各種能力的潛力,當(dāng)某項(xiàng)能力有利于模型完成任務(wù)(完不成的參數(shù)被調(diào)整,等駕馭被任務(wù)淘汰),這項(xiàng)能力就能自發(fā)進(jìn)化出來(lái)。

神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的時(shí)候,采用的隨機(jī)梯度下降算法,一定程度上等效于物種的基因突變,本質(zhì)是有一定方向的隨機(jī)摸索,在強(qiáng)大的生存壓力下,錯(cuò)誤的摸索被淘汰,久而久之,積累越來(lái)越多的正確摸索,某些高層的功能就這么涌現(xiàn)出來(lái)了。

這種思路是不同于還原論的,ChatGPT 的出現(xiàn)讓很多這個(gè)行業(yè)的老人困惑:“似乎原理上沒(méi)有任何創(chuàng)新,為何能力出現(xiàn)巨大提升呢?”“涌現(xiàn)這個(gè)詞本身就是個(gè)模棱兩可的詞,我并不知道具體的細(xì)節(jié),那就是偽科學(xué)?!薄癈hatGPT 具備的推理能力不過(guò)是另一種歸納,永遠(yuǎn)無(wú)法替代演繹”。

還原論的思想講究從底層到高層的逐漸構(gòu)建,每行代碼都有清晰的含義,這樣寫(xiě)出來(lái)的系統(tǒng)才叫系統(tǒng),但進(jìn)化論的思想完全不同,進(jìn)化論需要構(gòu)建一個(gè)萬(wàn)能生成器,然后建立一個(gè)淘汰機(jī)制,對(duì)萬(wàn)能生成器生成的各種可能進(jìn)行篩選淘汰,這樣進(jìn)化出來(lái)的系統(tǒng),就能很好的完成任務(wù),至于里面形成的微結(jié)構(gòu),那并不是重點(diǎn),甚至都無(wú)法用簡(jiǎn)單的語(yǔ)言描述,因?yàn)楸旧砭褪侨止餐鹱饔玫摹?/p>

所謂上下文推理,不過(guò)就是給定前文,準(zhǔn)確給出后文的能力,這其實(shí)就是語(yǔ)言模型預(yù)訓(xùn)練時(shí)候就在做的事情,為了能做到這點(diǎn),在訓(xùn)練的過(guò)程中,各種有助于提高預(yù)測(cè)能力的高層能力,都會(huì)自然而然的進(jìn)化出來(lái),所謂的高層能力,不過(guò)是一種函數(shù),而神經(jīng)網(wǎng)絡(luò)本身可以擬合一切函數(shù),同時(shí)隨機(jī)梯度下降,又讓神經(jīng)網(wǎng)絡(luò)具備了參數(shù)自動(dòng)填充的能力。當(dāng)然,進(jìn)化的過(guò)程中,神經(jīng)網(wǎng)絡(luò)總會(huì)嘗試找到更好的解法,比如死記硬背,但這些解法往往跟我們預(yù)期的解法不一致,這時(shí)候任務(wù)的合理構(gòu)建就很重要了,需要巧妙的設(shè)計(jì),讓我們預(yù)期的解法是神經(jīng)網(wǎng)絡(luò)進(jìn)化的唯一解。

其實(shí)換個(gè)角度想,人為什么有推理能力?人的一切能力也是進(jìn)化而來(lái)的,人的各種生存壓力,配合基因的隨機(jī)突變和大自然的定向篩選,導(dǎo)致推理等能力的出現(xiàn),換句話說(shuō),當(dāng)推理能力的出現(xiàn)有助于人這個(gè)群體生存的時(shí)候,這個(gè)能力就會(huì)出現(xiàn),跟GPT 涌現(xiàn)的各種能力的原理一樣。

不要總拿著還原論思想去看待世界,幾百年前,就出現(xiàn)了進(jìn)化論思想,因?yàn)檫M(jìn)化論思想沒(méi)有寫(xiě)進(jìn)義務(wù)教育的教材,導(dǎo)致太多人沒(méi)有深刻理解這個(gè)工具。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108218
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3835

    瀏覽量

    52293
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1603

    瀏覽量

    10404

原文標(biāo)題:為什么ChatGPT模型大了就有上下文聯(lián)系能力?

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中軟國(guó)際極速部署DeepSeek-V4大模型

    近日,DeepSeek-V4大模型正式發(fā)布,作為國(guó)產(chǎn)大模型領(lǐng)域的里程碑之作,其憑借百萬(wàn)級(jí)上下文窗口、頂尖編程能力與智能體性能,以及出色的國(guó)產(chǎn)化算力適配表現(xiàn),一經(jīng)推出便迅速引發(fā)行業(yè)廣泛關(guān)
    的頭像 發(fā)表于 05-07 15:59 ?50次閱讀

    燧弘華創(chuàng)HonMaaS平臺(tái)深度適配DeepSeek-V4大模型

    第一時(shí)間完成DeepSeek-V4全系列模型深度適配與無(wú)縫集成。目前,基于DeepSeek-V4的高性能Token服務(wù)已正式面向企業(yè)客戶開(kāi)放,讓百萬(wàn)級(jí)超長(zhǎng)上下文能力落地普及,真正變身千行百業(yè)輕量化、易取用的核心生產(chǎn)力。
    的頭像 發(fā)表于 05-06 14:55 ?267次閱讀
    燧弘華創(chuàng)HonMaaS平臺(tái)深度適配DeepSeek-V4大<b class='flag-5'>模型</b>

    寧暢AI服務(wù)器全棧適配DeepSeek V4大模型

    4月24日,國(guó)產(chǎn)大模型領(lǐng)域迎來(lái)重磅發(fā)布——DeepSeekV4系列正式亮相。這款新一代旗艦大模型,以雙版本MoE架構(gòu)、百萬(wàn)Token超長(zhǎng)上下文、純文本超強(qiáng)推理能力,以及極致的算力效率,
    的頭像 發(fā)表于 04-29 11:11 ?526次閱讀

    華為云首發(fā)適配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式發(fā)布并開(kāi)源,華為云首發(fā)適配。DeepSeek-V4擁有百萬(wàn)Token超長(zhǎng)上下文,在Agent能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開(kāi)源領(lǐng)域的領(lǐng)先。其中
    的頭像 發(fā)表于 04-28 17:01 ?593次閱讀

    安信可AI語(yǔ)音模組支持MCP模型上下文協(xié)議

    安信可 PalChat 系列(V1/V2)支持 MCP(模型上下文協(xié)議),工程師只需寫(xiě)幾十行 C 代碼,就能讓 AI 模型直接控制硬件設(shè)備。V1 基于 Ai-WB2-12F,適合快速驗(yàn)證;V2
    的頭像 發(fā)表于 04-15 09:54 ?523次閱讀

    工作流大模型節(jié)點(diǎn)說(shuō)明

    推薦。 輸入 模型的輸入可以選取前面節(jié)點(diǎn)的輸入和輸出的參數(shù),也可以手動(dòng)輸入具體的值。 模型根據(jù)輸入的參數(shù),以及提示詞,生成回復(fù)。 會(huì)話上下文 開(kāi)關(guān)控制是否將會(huì)話上下文信息發(fā)送到
    發(fā)表于 03-19 14:56

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語(yǔ)言。大語(yǔ)言模型通過(guò)“閱讀”海量的文本數(shù)據(jù)(如書(shū)籍、網(wǎng)頁(yè)、文章等)進(jìn)行預(yù)訓(xùn)練,學(xué)會(huì)語(yǔ)言的模式、知識(shí)和上下文
    的頭像 發(fā)表于 02-02 16:36 ?1158次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    NVIDIA BlueField-4為推理上下文記憶存儲(chǔ)平臺(tái)提供強(qiáng)大支持

    隨著代理式 AI 工作流將上下文窗口擴(kuò)展到數(shù)百萬(wàn)個(gè) token,并將模型規(guī)模擴(kuò)展到數(shù)百萬(wàn)億個(gè)參數(shù),AI 原生企業(yè)正面臨著越來(lái)越多的擴(kuò)展挑戰(zhàn)。這些系統(tǒng)目前依賴于智能體長(zhǎng)期記憶來(lái)存儲(chǔ)跨多輪、工具和會(huì)話持續(xù)保存的上下文,以便智能體能夠
    的頭像 發(fā)表于 02-02 10:29 ?1333次閱讀
    NVIDIA BlueField-4為推理<b class='flag-5'>上下文</b>記憶存儲(chǔ)平臺(tái)提供強(qiáng)大支持

    深入解析NVIDIA Nemotron 3系列開(kāi)放模型

    這一全新開(kāi)放模型系列引入了開(kāi)放的混合 Mamba-Transformer MoE 架構(gòu),使多智能體系統(tǒng)能夠進(jìn)行快速長(zhǎng)上下文推理。
    的頭像 發(fā)表于 12-24 10:34 ?4380次閱讀
    深入解析NVIDIA Nemotron 3系列開(kāi)放<b class='flag-5'>模型</b>

    大語(yǔ)言模型如何處理上下文窗口中的輸入

    本博客介紹五個(gè)基本概念,闡述大語(yǔ)言模型如何處理上下文窗口中的輸入。通過(guò)明確的例子和實(shí)踐中獲得的見(jiàn)解,本文介紹多個(gè)與
    的頭像 發(fā)表于 12-03 13:48 ?793次閱讀
    大語(yǔ)言<b class='flag-5'>模型</b>如何處理<b class='flag-5'>上下文</b>窗口中的輸入

    請(qǐng)問(wèn)riscv中斷還需要軟件保存上下文和恢復(fù)嗎?

    以下是我拷貝的文檔里的說(shuō)明,這個(gè)中斷處理還需要軟件來(lái)寫(xiě)上下文保存和恢復(fù),在使用ARM核的單片機(jī)都不需要考慮這些的,使用過(guò)的小伙伴能解答嗎? 3.8. 進(jìn)出中斷的上下文保存和恢復(fù) RISC-V架構(gòu)
    發(fā)表于 10-20 09:56

    HarmonyOSAI編程編輯區(qū)代碼續(xù)寫(xiě)

    利用AI大模型分析并理解開(kāi)發(fā)者在代碼編輯區(qū)的上下文信息或自然語(yǔ)言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 使用約束 建議在編輯區(qū)內(nèi)已有較豐富上下文,能夠使
    發(fā)表于 08-21 15:43

    HarmonyOS AI輔助編程工具(CodeGenie)代碼續(xù)寫(xiě)

    利用AI大模型分析并理解開(kāi)發(fā)者在代碼編輯區(qū)的上下文信息或自然語(yǔ)言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 一、使用約束 建議在編輯區(qū)內(nèi)已有較豐富上下文,能夠使
    發(fā)表于 07-15 16:15

    鴻蒙中Stage模型與FA模型詳解

    模型中, featureAbility 是舊版FA模型(Feature Ability)的用法 ,Stage模型已采用全新的應(yīng)用架構(gòu),推薦使用 組件化的上下文獲取方式 ,而非依賴
    的頭像 發(fā)表于 07-07 11:50 ?1117次閱讀

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版

    摘要:隨著鴻蒙系統(tǒng)API升級(jí)至16版本(modelVersion5.1.1),多項(xiàng)API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發(fā)表于 07-01 10:57 ?922次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版
    乌兰察布市| 林芝县| 灌云县| 金坛市| 姜堰市| 绥阳县| 峡江县| 阿拉善右旗| 卓资县| 五大连池市| 汉沽区| 泌阳县| 宁南县| 虹口区| 花莲县| 玛多县| 贵溪市| 昆明市| 阿坝| 新巴尔虎左旗| 辛集市| 宝坻区| 马边| 江永县| 上杭县| 黄浦区| 郓城县| 大化| 上高县| 泾川县| 鄂托克前旗| 北京市| 丹棱县| 潢川县| 巴中市| 遵化市| 卢龙县| 新郑市| 尖扎县| 彰武县| 保康县|