日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TeleAI提出COPO對齊方法:8B模型超越Llama3-70B的表現(xiàn)

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術研 ? 2025-02-17 17:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在自然界中,好奇心驅使著生物探索未知,是生存和進化的關鍵。人類,作為地球上最具智能的物種,其探索精神引領了科技、文化和社會的進步。1492 年,哥倫布懷揣探索未知的理想,勇敢地向西航行,最終發(fā)現(xiàn)了新大陸。

正如人類在面對未知時展現(xiàn)出的探索行為,在人工智能領域,尤其在大型語言模型(LLMs)理解語言和知識中,研究人員正嘗試賦予 LLM 類似的探索能力,從而突破其在給定數(shù)據(jù)集中學習的能力邊界,進一步提升性能和安全性。

近期,中國電信集團 CTO、首席科學家、中國電信人工智能研究院(TeleAI)院長李學龍教授帶領團隊在全模態(tài)星辰大模型體系深耕的基礎之上,聯(lián)合清華大學、香港城市大學、上海人工智能實驗室等單位提出了一種新的探索驅動的大模型對齊方法 Count-based Online Preference Optimization(COPO)。

該工作將人類探索的本能融入到大語言模型的后訓練(Post-Training)中,引導模型在人類反饋強化學習(RLHF)框架下主動探索尚未充分理解的知識,解決了現(xiàn)有對齊框架受限于偏好數(shù)據(jù)集覆蓋范圍的問題。

這一創(chuàng)新成果為智傳網(wǎng)(AI Flow)中 “基于連接與交互的智能涌現(xiàn)” 提供了重要技術支撐,使得模型在動態(tài)交互中不斷學習和進步,在探索的過程中實現(xiàn)智能的持續(xù)涌現(xiàn)。論文被國際表征學習大會 ICLR 2025 錄用,實現(xiàn)了大模型多輪交互探索中的能力持續(xù)提升。TeleAI 研究科學家白辰甲為論文的第一作者。

論文標題:

Online Preference Alignment for Language Models via Count-based Exploration

論文地址:

https://arxiv.org/abs/2501.12735

代碼地址:

https://github.com/Baichenjia/COPO

研究動機

雖然大型語言模型(LLM)在進行多種語言任務中已經(jīng)有出色的表現(xiàn),但它們在與人類價值觀和意圖對齊方面仍面臨著很多挑戰(zhàn)。現(xiàn)有的大模型 RLHF 框架主要依賴于預先收集的偏好數(shù)據(jù)集進行對齊,其性能受限于離線偏好數(shù)據(jù)集對提示 - 回復(Prompt-Response)的覆蓋范圍,對數(shù)據(jù)集覆蓋之外的語言難以進行有效泛化。

然而,人類偏好數(shù)據(jù)集的收集是較為昂貴的,且現(xiàn)有的偏好數(shù)據(jù)難以覆蓋所有可能的提示和回復。這就引出了一個關鍵問題:是否可以使 LLM 在對齊過程中對語言空間進行自主探索,從而突破離線數(shù)據(jù)集的約束,不斷提升泛化能力?

為了解決這一問題,近期的大模型相關研究開始由人類反饋強化學習驅動的離線對齊(Offline RLHF)轉向在線對齊(Online RLHF),通過迭代式地收集提示和回復,允許大模型在與語言環(huán)境的互動中不斷學習和進步,從而在偏好數(shù)據(jù)集的覆蓋之外進行探索。

本研究旨在解決在線 RLHF 過程中的核心問題:如何使 LLM 高效在語言空間(類比于強化學習動作空間)中進行探索。

具體地,強化學習算法在進行大規(guī)模的狀態(tài)動作空間(類比于 LLM 中的語言生成空間)中的最優(yōu)策略求解時,系統(tǒng)性探索(Systematic Exploration)對于收集有益的經(jīng)驗至關重要,會直接關系到策略學習的效果。在 LLM 對齊中,如果缺乏有效的探索機制,可能會導致模型對齊陷入局部最優(yōu)策略。

同時,有效的探索可以幫助大模型更好地理解語言環(huán)境的知識,從而在廣闊的語言空間中找到最優(yōu)回復策略。

本研究的目標在于解決在線 RLHF 中的探索問題,即如何在每次迭代中有效地探索提示 - 回復空間,以擴大偏好數(shù)據(jù)覆蓋范圍,提高模型對人類偏好的學習和適應能力。具體地,COPO 算法通過結合基于計數(shù)的探索(Count-based Exploration)和直接偏好優(yōu)化(DPO)框架,利用一個輕量級的偽計數(shù)模塊來平衡探索和偏好優(yōu)化,并在線性獎勵函數(shù)近似和離散狀態(tài)空間中提供了理論框架。

實驗中,在 Zephyr 和 Llama-3 模型上進行的 RLHF 實驗結果表明,COPO 在指令遵循和學術基準測試中的性能優(yōu)于其他 RLHF 基線。

理論框架、

研究的理論框架基于大模型獎勵的線性假設,將獎勵函數(shù)簡化為參數(shù)向量和特征向量的內積形式。在此假設下,可以將復雜大模型對語言提取的特征作為一個低維的向量,將 RLHF 過程中構建的顯式或隱式的大模型獎勵視為向量的線性函數(shù),具體地:

在此基礎上,給定大模型偏好數(shù)據(jù)集 ,在現(xiàn)有 Bradley-Terry (BT) 獎勵模型的基礎上可以通過極大似然估計來估計獎勵模型的參數(shù),即:

隨后,根據(jù)統(tǒng)計學中的相關理論,可以定量地為獎勵模型提供了一個明確的誤差界限,并得到關于獎勵模型參數(shù)的置信集合(confidence set),從而使估計的參數(shù)以較大概率落在置信集合中。具體地:

隨后,在參數(shù)集合中可以使用樂觀的期望值函數(shù)來獲得值函數(shù)估計的置信上界,從而實現(xiàn)了強化學習探中的樂觀原則(Optimism), 使大模型策略向樂觀方向進行策略優(yōu)化。

在上述目標中,最終的優(yōu)化項包含兩個部分:第一部分對應于經(jīng)典的兩階段 RLHF 方法,在 BT 模型的基礎上估計獎勵,通過最大化獎勵來學習策略,同時保持和原始大模型策略的接近性約束。第二部分為新引入的置信區(qū)間上界(UCB)項,用于測量當前數(shù)據(jù)集對目標策略生成的狀態(tài)分布的覆蓋程度,鼓勵模型探索那些尚未充分探索的語言空間。

具體來說,UCB 項通過增加對較少產(chǎn)生的提問 - 回答的組合的對數(shù)似然,從而鼓勵大模型生成新的、可能更優(yōu)的回答。這將有助于大模型在最大化獎勵和探索新響應之間的權衡,即著名的強化學習探索 - 利用權衡(exploration-exploitation trade-off)。

最終,研究證明了采用 COPO 算法的在線學習范式能夠在 T 次迭代后,將總后悔值限制在 O (√T) 的量級內,顯示了算法在處理大規(guī)模狀態(tài)空間時的效率和穩(wěn)定性。

算法設計

在理論框架下,具體的算法設計中結合了直接偏好優(yōu)化(DPO)的算法框架。其中第一項對獎勵的構建和獎勵最大化的學習具象化為 DPO 的學習目標,而將樂觀探索的 UCB 項轉化為更容易求解的目標。具體地,在有限狀態(tài)動作空間的假設下,樂觀探索項可以表示為基于狀態(tài) - 動作計數(shù)(Count)的學習目標,即:

從而,最終的學習目標表示為 DPO 獎勵和基于提示 - 回答計數(shù)的探索目標。具體地:

上式中第二項通過在偏好數(shù)據(jù)中對模型產(chǎn)生的提示 - 回答進行計數(shù),可以鼓勵增加對之前出現(xiàn)次數(shù)較少的提示 - 回答的探索來鼓勵大模型突破離線數(shù)據(jù)集的覆蓋,使模型主動探索新的、可能更優(yōu)的回復,從而在迭代過程中擴大數(shù)據(jù)覆蓋范圍并提高策略的性能。

進而可以通過求解梯度的方式進一步的解析 COPO 優(yōu)化目標的意義:

由兩部分組成:第一部分負責優(yōu)化模型以最大化偏好數(shù)據(jù)上的預期獎勵;第二部分對應于探索項的梯度,它根據(jù)提示 - 回復對的歷史訪問次數(shù)來調整模型的優(yōu)化方向。

當某個回復的歷史訪問次數(shù)較少時,該項會推動模型增加生成該回復的對數(shù)似然,從而鼓勵模型探索那些較少被訪問但可能帶來更高獎勵的區(qū)域,使算法能夠在最大化獎勵的同時有效地平衡探索與利用,實現(xiàn)更優(yōu)的策略學習。

然而,在對大模型進行上述目標優(yōu)化中,往往無法在大規(guī)模語言空間中實現(xiàn)對 “提示 - 回復” 的準確 “計數(shù)”。語言空間的狀態(tài)通常是無限的,且完全相同的回復很少被多次產(chǎn)生,因此需要一種方法來估計或模擬這些提示 - 回復對的 “偽計數(shù)”,以便算法能夠在探索較少訪問的區(qū)域時獲得激勵。

在此基礎上,COPO 提出使用 Coin Flipping Network(CFN)來高效的實現(xiàn)偽計數(shù)。CFN 不依賴于復雜的密度估計或對模型架構和訓練過程的限制,而是通過一個簡單的回歸問題來預測基于計數(shù)的探索獎勵。

具體地,CFN 基于的基本假設是,計數(shù)可以通過從 Rademacher 分布的采樣來估計來得到,考慮從 {-1,1} 的集合中近似隨機采樣得到的分布,如果進行 n 次采樣并對采樣結果取平均,則該變量的二階矩和計數(shù)的倒數(shù)呈現(xiàn)出等價的關系,即:

進而,CFN 通過在每次遇到狀態(tài)時進行 Rademacher 試驗(即硬幣翻轉),并利用這些試驗的平均值來推斷狀態(tài)的訪問頻率。在實現(xiàn)中,CFN 表示為一個輕量化的網(wǎng)絡,它通過最小化預測值和實際 Rademacher 標簽之間的均方誤差來進行訓練。

在實現(xiàn)中,CFN 接受由主語言模型提取的提示 - 回復對的最后隱藏狀態(tài)作為輸入,并輸出一個預測值,該值與狀態(tài)的 “偽計數(shù)” 成反比。通過這種方式,CFN 能夠為每個提示 - 響應提供一個探索激勵,鼓勵模型在探索迭代中擴大數(shù)據(jù)覆蓋范圍,提高模型對齊的性能。

實驗結果

在實驗中使用 UltraFeedback 60K 偏好數(shù)據(jù)集來對 Zephyr-7B 和 Llama3-8B 模型進行微調,數(shù)據(jù)集中包含豐富的單輪對話偏好對的數(shù)據(jù)。

實驗中使用了一個小型的獎勵模型 PairRM 0.4B 來對多輪迭代過程中模型模型生成的回復進行偏好排序,從而在探索中利用不斷更新后的大模型來產(chǎn)生不斷擴充的偏好數(shù)據(jù),提升了數(shù)據(jù)集的質量和覆蓋率。

此外,實驗中使用輕量化的 CFN 網(wǎng)絡實現(xiàn)對提示 - 響應對的偽計數(shù),大幅提升了在線 RLHF 算法的探索能力。

實驗結果表明,COPO 算法在 AlpacaEval 2.0 和 MT-Bench 基準測試可以通過多輪探索和對齊來不斷進行性能提升。具體地,相比于離線 DPO 算法,COPO 顯著提升了 Zephyr-7B 和 Llama3-8B 模型的 LC 勝率,分別達到了 18.8% 和 7.1% 的提升,驗證了 LLM 探索能力提升對獲取更大數(shù)據(jù)覆蓋和最優(yōu)策略方面的優(yōu)勢。

此外,COPO 超越了在線 DPO、SELM 等當前最好的在線對齊方法,以 8B 的模型容量超越了許多大體量模型(如 Yi-34B,Llama3-70B)的性能,提升了大模型在語言任務中的指令跟隨能力和泛化能力。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1821

    文章

    50376

    瀏覽量

    267082
  • LLM
    LLM
    +關注

    關注

    1

    文章

    350

    瀏覽量

    1397

原文標題:ICLR 2025 | 8B模型反超Llama3-70B!TeleAI提出探索驅動的對齊方法COPO

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    沐曦股份Day 0適配阿里千問Qwen3.6-35B-A3B模型

    阿里巴巴千問模型團隊最新宣布,開源旗下多模態(tài)“智能體小鋼炮” Qwen3.6-35B-A3B模型。沐曦股份與FlagOS合作,完成了該模型的Day0 適配。經(jīng)測試,基于沐曦芯片,實現(xiàn)了
    的頭像 發(fā)表于 04-22 11:13 ?795次閱讀
    沐曦股份Day 0適配阿里千問Qwen3.6-35<b class='flag-5'>B-A3B</b>大<b class='flag-5'>模型</b>

    海光信息DCU平臺適配阿里通義Qwen3.6-35B-A3B模型

      近日,阿里通義正式開源多模態(tài)智能體大模型Qwen3.6-35B-A3B,發(fā)布不到24小時,海光信息聯(lián)合眾智FlagOS社區(qū)完成該模型在海光DCU平臺的全流程適配、精度對齊與部署驗證
    的頭像 發(fā)表于 04-21 17:40 ?1713次閱讀

    壁仞科技光速支持阿里Qwen3.6-35B-A3B模型

    4月16日晚,阿里巴巴通義實驗室正式宣布全量開源Qwen3.6-35B-A3B模型。該模型為混合專家(MoE)模型,總參數(shù)量為350億,激活參數(shù)僅30億。壁仞科技(06082.HK)
    的頭像 發(fā)表于 04-20 17:50 ?1600次閱讀

    商湯科技正式開源多模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開源多模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準測試中以 69.74 分超越Gemini-
    的頭像 發(fā)表于 01-30 10:13 ?814次閱讀
    商湯科技正式開源多模態(tài)自主推理<b class='flag-5'>模型</b>SenseNova-MARS

    【CIE全國RISC-V創(chuàng)新應用大賽】基于 K1 AI CPU 的大模型部署落地

    量化” 策略。我們必須使用 Q2_K (2-bit) 量化格式,將模型體積壓縮到 5.5GB 左右,從而在 8GB 內存上給 KV Cache(上下文)留出空間。 以下是按照官方工具鏈針對 14B
    發(fā)表于 11-27 14:43

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型

    為助力打造實時、動態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語言模型(SLM),可實現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1457次閱讀

    Qwen3-VL 4B/8B全面適配,BM1684X成邊緣最佳部署平臺!

    算能BM1684X上完成Qwen3-VL4B/8B模型的適配,推理速度13.7/7.2tokens/s,使其成為邊緣部署多模態(tài)大模型的最佳選擇。近日,阿里千問正式開源Qwen
    的頭像 發(fā)表于 10-16 18:00 ?3253次閱讀
    Qwen<b class='flag-5'>3</b>-VL 4<b class='flag-5'>B</b>/<b class='flag-5'>8B</b>全面適配,BM1684X成邊緣最佳部署平臺!

    廣和通成功部署DeepSeek-R1-0528-Qwen3-8B模型

    近日,廣和通在MediaTek MT8893平臺上成功部署并運行了DeepSeek-R1-0528-Qwen3-8B模型,顯著提升了端側AI設備的處理效率與智能化水平,特別是在本地化復雜
    的頭像 發(fā)表于 09-26 13:35 ?1011次閱讀

    ALINX VD100低功耗端側大模型部署方案,運行3B模型功耗僅5W?!

    完整模型,以降低延遲、保護隱私并節(jié)省通信成本。但真正落地時卻發(fā)現(xiàn):功耗吃緊、模型裁剪嚴重、開發(fā)流程繁瑣,使得“能運行”遠遠達不到“用得好”。 基于 ALINX VD100 開發(fā)平臺,客戶打造出一套面向 AI 終端的大模型部署方案
    的頭像 發(fā)表于 09-03 14:58 ?901次閱讀
    ALINX VD100低功耗端側大<b class='flag-5'>模型</b>部署方案,運行<b class='flag-5'>3B</b><b class='flag-5'>模型</b>功耗僅5W?!

    阿里通義千問發(fā)布小尺寸模型Qwen3-4B,手機也能跑

    電子發(fā)燒友網(wǎng)綜合報道 8月7日,阿里通義千問宣布發(fā)布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。目前新
    的頭像 發(fā)表于 08-12 17:15 ?7059次閱讀
    阿里通義千問發(fā)布小尺寸<b class='flag-5'>模型</b>Qwen<b class='flag-5'>3-4B</b>,手機也能跑

    【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

    的系統(tǒng)和芯片架構。 3、拉取/運行大語言模型 ollama的使用方法和docker很像。 返回到ollama的編譯路徑,找到ollama可執(zhí)行文件 執(zhí)行 ./ollama run qwen3
    發(fā)表于 07-19 15:45

    低頻段 LNA 前端模塊(B26/B5/B18/B19、B8B20、B12/13/17、B28A、B28BB29) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()低頻段 LNA 前端模塊(B26/B5/B18/B19、B8B20、
    發(fā)表于 06-27 18:32
    低頻段 LNA 前端模塊(<b class='flag-5'>B</b>26/<b class='flag-5'>B</b>5/<b class='flag-5'>B</b>18/<b class='flag-5'>B</b>19、<b class='flag-5'>B8</b>、<b class='flag-5'>B</b>20、<b class='flag-5'>B</b>12/13/17、<b class='flag-5'>B</b>28A、<b class='flag-5'>B28B</b> 和 <b class='flag-5'>B</b>29) skyworksinc

    帶增益的 RX 分集 FEM(B26、B8、B20、B1/4、B3B7) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()帶增益的 RX 分集 FEM(B26、B8、B20、B1/4、B3B
    發(fā)表于 06-27 18:31
    帶增益的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B8</b>、<b class='flag-5'>B</b>20、<b class='flag-5'>B</b>1/4、<b class='flag-5'>B3</b> 和 <b class='flag-5'>B</b>7) skyworksinc

    使用 NPU 插件對量化的 Llama 3.1 8b 模型進行推理時出現(xiàn)“從 __Int64 轉換為無符號 int 的錯誤”,怎么解決?

    安裝了 OpenVINO? GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    發(fā)表于 06-25 07:20

    NVIDIA使用Qwen3系列模型的最佳實踐

    220 億)和 30B-A3B,以及六款稠密 (Dense) 模型 0.6B、1.7B、4B、8B
    的頭像 發(fā)表于 05-08 11:45 ?3247次閱讀
    NVIDIA使用Qwen<b class='flag-5'>3</b>系列<b class='flag-5'>模型</b>的最佳實踐
    三江| 灌南县| 建湖县| 广河县| 呼和浩特市| 阳高县| 张北县| 舒兰市| 夏河县| 景洪市| 志丹县| 平定县| 榆林市| 焉耆| 芮城县| 靖安县| 吉木萨尔县| 平潭县| 察隅县| 保定市| 汾西县| 儋州市| 宿迁市| 汝阳县| 柞水县| 获嘉县| 高雄市| 开封市| 丹东市| 诏安县| 扎兰屯市| 庆安县| 紫金县| 北碚区| 高阳县| 微山县| 苏尼特左旗| 收藏| 临湘市| 巴塘县| 金山区|