欧美精品色噜噜,秋霞影视不卡,少妇熟女视频一区

ChatGPT應該是近期當之無愧的“炸子雞”，不論是因它掀起的微軟、谷歌、百度等在AI領域血雨腥風、或明或暗的“狂飆”，抑或是微軟將GPT 4植入Office引起的打工人們的恐慌或狂歡，有關ChatGPT的新聞不絕于耳。那么，為什么在一眾AI技術和產(chǎn)品中，ChatGPT能殺出重圍引發(fā)海量關注呢？“不是我優(yōu)秀，全靠同行襯托”，其優(yōu)秀的性能表現(xiàn)將AI的發(fā)展帶入了一個新階段。那么，它是如何實現(xiàn)的呢？

本文作者對ChatGPT的版本發(fā)展和特點進行了梳理，發(fā)現(xiàn)明明更擅長RL（強化學習）的ChatGPT技術團隊，在GPT 3中融入了情景學習，并在后續(xù)的InstructGPT/ChatGPT中利用人類反饋優(yōu)化模型，在參數(shù)數(shù)量減少的情況下，通過語言模型的預訓練、獎勵模型訓練、利用RL方式微調(diào)LM等新訓練范式，使得ChatGPT模型的性能和質(zhì)量得到了極大提升，并由此對機器學習的研究方法有了新的啟示：機器學習技術的交叉和融合、數(shù)據(jù)的價值、ChatGPT的影響與挑戰(zhàn)等。

在ChatGPT處在風口浪尖的當下，希望讀者朋友們不論是進行技術研究還是投資布局，在閱讀本文后都會有所收獲。

前言

經(jīng)過了近十年的高速發(fā)展和擴張，數(shù)據(jù)驅(qū)動的人工智能模型已經(jīng)廣泛應用于計算機視覺（Computer Vision ， CV）、自然語言處理（Natural Language Processing， NLP）、智能控制等諸多領域。為了獲得更強的模型性能，工程師們不斷增加模型的參數(shù)、壓榨訓練設備的性能極限，模型結(jié)構(gòu)也經(jīng)歷著不斷迭代和更新。隨著對算法模型性能的提升逐漸趨于穩(wěn)定，業(yè)界對人工智能（Artificial Intelligence， AI）快速發(fā)展和擴張的熱情也逐漸冷卻，L4級別的自動駕駛和NLP問答機器人等領域發(fā)展均遇到瓶頸。在此背景下，ChatGPT的出現(xiàn)成為人工智能領域的一個全新亮點，為人工智能的發(fā)展注入動力。

ChatGPT是OpenAI公司提出的一種多模態(tài)大型語言模型（Large Language Model， LLM）。一經(jīng)推出，憑借著出色的性能立刻吸引了全球無數(shù)用戶的目光。

OpenAI公司發(fā)展的主要事件如下：

2015年12月11日，OpenAI成立；

2016年4月27日，發(fā)布OpenAI Gym Beta；

2017年7月20日，發(fā)布Proximal Policy Optimization （PPO）算法；

2019年7月22日，微軟投資OpenAI并與其合作；

2021年1月5日，研究從文本創(chuàng)建圖像神經(jīng)網(wǎng)絡DALL-E；

2022年12月1日，ChatGPT發(fā)布；

2023年2月2日，OpenAI宣布推出ChatGPT Plus訂閱服務。

可見，OpenAI是一家以強化學習（Reinforcement Learning， RL）立足，并逐漸在AIGC（AI Generated Content）領域深耕的公司。OpenAI構(gòu)建的Gym庫是常用于測試RL算法性能的環(huán)境庫，而PPO算法憑借優(yōu)秀的性能以及泛用性，成為了RL算法的基準。一個在RL領域有深厚積淀的公司推出了ChatGPT，而不是專職研究NLP的團隊，這是非常有趣的事。從之前發(fā)布的論文看，該方法的主要研究人員中，甚至很多作者更擅長RL領域。

ChatGPT的由來

在ChatGPT問世之前，OpenAI公司已經(jīng)推出了3代GPT模型以及InstructGPT模型，它們的公布時間、主要研究點和參數(shù)規(guī)模如表1所示［1］。

表1 GPT系列模型指標

從ChatGPT的發(fā)展歷程可見，從GPT3開始，它加入了情景學習的要素，使得模型的輸出可以聯(lián)系前后文的語義和語境，產(chǎn)生的結(jié)果性能更符合邏輯。而在InstructGPT中加入了人類反饋，成為了GPT系列模型性能取得突破的關鍵因素，即以RL方式依據(jù)人類反饋優(yōu)化原模型，這就是Reinforcement Learning from Human Feedback。

對于數(shù)據(jù)驅(qū)動的語言模型（Language Model， LM），常規(guī)的方法是以預測下一個單詞的方式和損失函數(shù)來建模，通過降低損失函數(shù)使模型預測的準確度提高。這種方式的目標是最小化損失函數(shù)，與用戶希望獲得的體驗在優(yōu)化方向上并不完全一致。因此，用人類反饋作為性能衡量標準調(diào)整模型，使模型的輸出與人類價值對齊，取得了很好的效果。兩種思路的對比如圖1所示。

| 圖1 對于機器學習模型追求目標的不同

因此，在GPT3的基礎上，InstructGPT由于加入了人類反饋，取得了驚人的性能。從GPT1到GPT3，模型的規(guī)?？焖贁U張，參數(shù)量從1.17億飆升至1750億［1］。但規(guī)模的擴張沒有帶來性能的跨代提升。為何InstructGPT僅用了不到GPT3百分之一的參數(shù)量，卻取得了更好的效果，RLHF發(fā)揮了巨大的作用。

*由于ChatGPT的算法細節(jié)官方還沒有公開，考慮到InstructGPT使用的方法和ChatGPT接近，下面的討論和應用的文獻以InstructGPT為主。

優(yōu)秀的性能從何而來

ChatGPT/InstructGPT的模型訓練主要分為三個部分［2］［3］

語言模型的預訓練

原始的語言模型是不需要嚴格意義上的標簽的，可以從數(shù)據(jù)庫中抽取樣本進行訓練。在ChatGPT/InstructGPT中，OpenAI雇傭了40位專家對從數(shù)據(jù)集抽取的提示（prompt）編寫了理想的輸出，即進行了數(shù)據(jù)編寫及標記數(shù)據(jù)，制作了包含11295個樣本的監(jiān)督學習訓練集［4］，如圖2所示。利用該數(shù)據(jù)集對原始模型進行了監(jiān)督訓練，得到了SFT（supervised fine-tune）模型。

| 圖2 InstructGPT的數(shù)據(jù)集數(shù)量

獎勵模型訓練

利用預訓練的SFT模型，可以根據(jù)不同的prompt輸出回答了。但生成的回答不一定都能讓用戶滿意。解決該問題的一個合理的思路是請標記者（labeler）對模型的輸出進行打分，給更優(yōu)秀的答案賦予更高的分值，以引導模型產(chǎn)生更合適的回答。但面臨著以下問題：1.labeler很難一直跟上模型訓練的過程；2.人工成本高昂；3.分值容易受到labeler主觀因素影響。因此，考慮構(gòu)建一個獎勵模型。

首先針對同一個prompt利用模型產(chǎn)生多個結(jié)果，labeler僅需要對生成的結(jié)果按照從好到壞的順序排序即可。該方法一方面可以降低labeler的工作量，另一方面，對于直接打分存在主觀影響，給結(jié)果排序更可能獲得一個相對收斂的結(jié)果。再引入Elo排位系統(tǒng)，將針對結(jié)果的排序轉(zhuǎn)換成數(shù)值。該數(shù)值就以標量的形式表示了不同回答的好壞。也就構(gòu)建起了《samples， reward》的訓練樣本。利用這些訓練樣本即可訓練得到獎勵模型。

利用RL方式微調(diào)LM

將該微調(diào)（fine-tune）任務描述為一個RL問題。InstructGPT是利用PPO算法微調(diào)語言模型。首先將一個prompt輸出微調(diào)的LM模型和輸出的SFT模型。微調(diào)的LM模型是根據(jù)RL策略產(chǎn)生的輸出，并根據(jù)步驟2的獎勵模型產(chǎn)生獎勵值，以評價輸出結(jié)果的好壞。根據(jù)PPO算法的原理，除了需要以獲得更多獎勵的方向進行微調(diào)LM模型的訓練，還要計算該微調(diào)模型和SFT模型的KL散度，如下式所示［4］。

式中，期望的第一項即為獎勵函數(shù)反饋的獎勵值。第二項為微調(diào)模型和SFT模型的KL散度，該懲罰項有助于保證模型輸出合理連貫的文本片段。如果沒有該懲罰項，優(yōu)化可能會產(chǎn)生亂碼的文本。第三項是在預訓練模型上求的期望，提升模型的泛化能力，防止模型僅關注當前任務。隨著RL策略的更新，由于有獎勵模型的引導，微調(diào)LM模型的輸出為逐漸向人類評分較高的結(jié)果靠近。

*對于該訓練過程，用戶還可以繼續(xù)將這些輸出與模型的早期版本進行排名，目前還沒有論文討論這一點。這引入了RL策略和獎勵模型演變的復雜動態(tài)，是一個復雜而開放的研究問題。

ChatGPT的思考和啟示

ChatGPT的成功在給用戶和研究者帶來震撼的同時，也將目前機器學習的研究方法清晰的展現(xiàn)在人們面前。

機器學習技術的交叉和融合

| 圖3 機器學習技術融合

傳統(tǒng)上，機器學習可以分成監(jiān)督學習、非監(jiān)督學習和強化學習。非監(jiān)督學習專注以挖掘數(shù)據(jù)之間的規(guī)律和價值。監(jiān)督學習建立起數(shù)據(jù)和標簽之間的映射關系，即。強化學習則是可以根據(jù)當前狀態(tài)進行智能決策。算法的進步不僅是在各自的領域深挖和探索，分支之間的技術融合也可以迸發(fā)出強大的性能提升。2013年，DeepMind提出用神經(jīng)網(wǎng)絡取代RL中的價值表格，可看作是利用深度學習（Deep Learning， DL）對RL的優(yōu)化方法。該方法解決了價值表格由于表達能力不足無法適用于具有高緯度離散狀態(tài)空間和連續(xù)動作空間的RL問題，極大地擴展了RL的研究范圍和使用場景，開拓了深度強化學習（Deep Reinforcement Learning， DRL）這一領域［5］。該成果在后續(xù)優(yōu)化后于2015年發(fā)表在Nature上［6］。而ChatGPT則是利用RL算法優(yōu)化了DL模型的一個很好的例子。目前，利用RL進行fine-tune已經(jīng)出現(xiàn)成為全新的模型訓練范式的趨勢?？梢灶A見，該范式未來會廣泛應用于其他研究領域。ChatGPT是否會像DQN那樣，成為新的訓練范式促進DL發(fā)展的標志，我們拭目以待。

*根據(jù)2023年2月26日的新聞，google計劃將利用RL微調(diào)模型的訓練范式引入到CV。

數(shù)據(jù)的價值

傳統(tǒng)上對于深度模型的研究，無論是設計更巧妙的模型結(jié)構(gòu)、或者是標記更多的訓練樣本、再或者是擴大模型參數(shù)期望大力出奇跡，都在“大”或者“多”的方向深挖。ChatGPT讓我們看到了“質(zhì)”的重要性。

| 圖4 分階段的模型訓練方法

OpenAI公開表示將模型和人類意圖對齊的投資，相較于訓練更大的模型，投入產(chǎn)出比更高更好。就像前文所說，GPT3的參數(shù)有1750億個，而InstructGPT的參數(shù)僅有13億。數(shù)據(jù)量大幅縮減的同時，反而取得了碾壓的性能優(yōu)勢。這是否意味著，目前超大規(guī)模的模型在“體型”方面是否已經(jīng)足夠應付目前研究的任務，而真正缺少的是高質(zhì)量的關鍵數(shù)據(jù)呢？

RLHF的訓練范式被越來越多的研究驗證，對于模型性能的提升是空前的。那么未來針對不同的問題構(gòu)建fine-tune的數(shù)據(jù)集就成為了關鍵。如圖5所示。傳統(tǒng)的、大量的數(shù)據(jù)集可能構(gòu)建起了模型的初始性能，在此基礎上需要專家樣本對其進行引導，這部分數(shù)據(jù)的量遠小于初始的數(shù)據(jù)集，但對模型取得的效果卻遠超簡單的增加原始數(shù)據(jù)集的效果。針對任務，如何構(gòu)建高質(zhì)量的fine-tune數(shù)據(jù)也是需要解決的問題。

| 圖5 不同質(zhì)量的數(shù)據(jù)支撐模型訓練

ChatGPT的影響與挑戰(zhàn)

在NovaAI問世之初，人們就見識到了AIGC的威力。如今，ChatGPT已經(jīng)出現(xiàn)在我們的面前，高超的性能讓很多行業(yè)的從業(yè)者感受到了巨大的壓力。未來，GPT4的公布和投入使用，將會很大程度地影響當前的業(yè)界態(tài)勢。

工作效率的提升

狹義上說，ChatGPT直接改變了文本處理、簡單的代碼編寫、資料查詢等生產(chǎn)和生活方式。微軟已經(jīng)將ChatGPT融合進bing搜索引擎，直接對google和baidu等搜索引擎取得了絕對的優(yōu)勢；將ChatGPT融合進office，提升工作效率。一些工作組也在嘗試制作插件融合進集成開發(fā)環(huán)境（Integrated Development Environment， IDE），輔助程序員更快的完成項目代碼等。

廣義上說，受到ChatGPT啟發(fā)，未來在更多的領域?qū)a(chǎn)生性能直逼人類專家的AI模型和算法。ChatGPT是將RLHF應用與LLM的成功案例，但相信利用此方法產(chǎn)生高性能模型的探索會迎來快速增長，未來將會在各領域涌現(xiàn)。工具性能的差距某種程度上會影響社會信息化的發(fā)展進度，掌握未來核心算法和數(shù)據(jù)也是國內(nèi)研究者需要面臨的問題。

用戶數(shù)據(jù)的獲取

ChatGPT在上線之后僅5天就實現(xiàn)了獲得超過100萬用戶的里程碑。這個速度遠超twitter、FB等知名應用，大量的用戶為ChatGPT帶來了海量的數(shù)據(jù)。在大數(shù)據(jù)的時代，先入場往往就能夠吸引更多的數(shù)據(jù)。但從目前的研究看，fine-tune數(shù)據(jù)是提升模型性能的關鍵，而這些數(shù)據(jù)往往需要具備專業(yè)知識的專家標記。大量的用戶數(shù)據(jù)由于質(zhì)量參差不齊，是否會使GPT的后續(xù)模型性能越來越優(yōu)秀，并逐漸成為該領域獨樹一幟的存在，也是一個值得觀察和研究的問題。

在生成模型之上的新范式

ChatGPT依然是一個文本生成模型，即使利用RLHF進行了和人類價值的對齊，但依然無法和人類輸出的結(jié)果在任何情形下都一樣。例如，當向ChatGPT詢問某領域或者某會議的論文時，輸出的結(jié)果從形式上看有模有樣。但如果查閱，會發(fā)現(xiàn)很多文章是ChatGPT杜撰的。因此，ChatGPT目前只學到了“形似”。但將ChatGPT和bing搜索引擎融合的new bing一定程度上克服了這個問題。因為相較于ChatGPT的生成，new bing是搜索+生成的模型，而搜索得到的結(jié)果是客觀存在的。因此，當使用new bing獲取某領域或者某會議的文章時，產(chǎn)生的結(jié)果是真實存在的。這在一些領域可能更有使用價值。

國內(nèi)缺少可對標的產(chǎn)品

ChatGPT帶來的工作效率的提升是顯而易見的，并且當該模型投入商業(yè)化后，能夠取得的收益相信也是非常可觀的。目前國內(nèi)還沒有性能可與之對標的產(chǎn)品。該模型訓練不僅需要高昂的成本和時間，對于fine-tune的構(gòu)建和后續(xù)的優(yōu)化也非常重要。我們期待能夠媲美GPT系列的國內(nèi)語言模型的問世。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴