日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

13B模型全方位碾壓GPT-4?這背后有什么貓膩

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-11-20 09:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你的測試集信息在訓(xùn)練集中泄漏了嗎?


一個(gè)參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結(jié)果的有效性,這項(xiàng)測試還遵循了 OpenAI 的數(shù)據(jù)去污方法,更關(guān)鍵的是沒有發(fā)現(xiàn)數(shù)據(jù)污染的證據(jù)。

如果你細(xì)細(xì)查看圖中的模型,發(fā)現(xiàn)只要帶有「rephraser」這個(gè)單詞,模型性能都比較高。
這背后到底有何貓膩?原來是數(shù)據(jù)污染了,即測試集信息在訓(xùn)練集中遭到泄漏,而且這種污染還不易被檢測到。盡管這一問題非常關(guān)鍵,但理解和檢測污染仍然是一個(gè)開放且具有挑戰(zhàn)性的難題。
現(xiàn)階段,去污最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴于字符串匹配來檢測污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預(yù)訓(xùn)練模型(例如 BERT)的嵌入來查找相似且可能受到污染的示例。
然而,來自 UC 伯克利、上海交通大學(xué)的研究表明測試數(shù)據(jù)的簡單變化(例如,改寫、翻譯)就可以輕松繞過現(xiàn)有的檢測方法。他們并將測試用例的此類變體稱為「改寫樣本(Rephrased Samples)」。
下面演示了 MMLU 基準(zhǔn)測試中的改寫樣本。結(jié)果證明,如果訓(xùn)練集中包含此類樣本,13B 模型可以達(dá)到極高的性能 (MMLU 85.9)。不幸的是,現(xiàn)有的檢測方法(例如,n-gram 重疊、嵌入相似性)無法檢測到這種污染。比如嵌入相似性方法很難將改寫的問題與同一主題(高中美國歷史)中的其他問題區(qū)分開來。

通過類似的改寫技術(shù),本文在廣泛使用的編碼和數(shù)學(xué)基準(zhǔn)測試中觀察到一致的結(jié)果,例如 HumanEval 和 GSM-8K(如文章開頭圖中所示)。因此,能夠檢測此類改寫樣本變得至關(guān)重要。
接下來,我們看看這項(xiàng)研究是如何進(jìn)行的。


  • 論文地址:https://arxiv.org/pdf/2311.04850.pdf

  • 項(xiàng)目地址:https://github.com/lm-sys/llm-decontaminator#detect


論文介紹
文中表示,大模型(LLM)在快速發(fā)展的同時(shí),關(guān)于測試集污染的問題被越來越多的重視起來,很多人對公共基準(zhǔn)的可信度表示擔(dān)憂。
為了解決這一問題,有些人采用傳統(tǒng)的去污方法如字符串匹配(例如,n-gram 重疊)來刪除基準(zhǔn)數(shù)據(jù),但這些操作還遠(yuǎn)遠(yuǎn)不夠,因?yàn)閷y試數(shù)據(jù)進(jìn)行一些簡單的更改(例如,改寫、翻譯)就可以輕松繞過這些凈化措施。
更重要的是,如果不消除測試數(shù)據(jù)的這種更改,13B 模型很容易過度擬合測試基準(zhǔn)并實(shí)現(xiàn)與 GPT-4 相當(dāng)?shù)男阅堋K麄冊?MMLU、GSK8k 和 HumanEval 等基準(zhǔn)測試中驗(yàn)證了這些觀察結(jié)果。
同時(shí)為了解決這些日益增長的風(fēng)險(xiǎn),本文還提出了一種更為強(qiáng)大的基于 LLM 的去污方法 LLM decontaminator,并將其應(yīng)用于流行的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集,結(jié)果表明,本文提出的 LLM 方法在刪除改寫樣本方面明顯優(yōu)于現(xiàn)有方法。
這一做法也揭露了一些先前未知的測試重疊(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等預(yù)訓(xùn)練集中,本文發(fā)現(xiàn) HumanEval 基準(zhǔn)有 8-18% 重疊。此外,本文還在 GPT-3.5/4 生成的合成數(shù)據(jù)集中發(fā)現(xiàn)了這種污染,這也說明了在 AI 領(lǐng)域存在潛在的意外污染風(fēng)險(xiǎn)。
本文希望,社區(qū)在使用公共基準(zhǔn)時(shí)采取更強(qiáng)有力的凈化方法,并呼吁社區(qū)積極開發(fā)新的一次性測試(one-time exams)案例來準(zhǔn)確評估模型。
改寫樣本
本文的目標(biāo)是調(diào)查訓(xùn)練集中包含測試集的簡單變化是否會影響最終的基準(zhǔn)性能,并將測試用例的這種變化稱為「改寫樣本」。實(shí)驗(yàn)中考慮了基準(zhǔn)的各個(gè)領(lǐng)域,包括數(shù)學(xué)、知識和編碼。示例 1 是來自 GSM-8k 的改寫樣本,其中有 10-gram 重疊無法檢測到,修改后和原始文本保持相同的語義。

基準(zhǔn)污染具有不同的形式,因此改寫技術(shù)存在一些細(xì)微的差異。對于基于文本的基準(zhǔn),本文在不改變語義的情況下改寫測試用例,例如通過重新排列詞序或用同義術(shù)語替換;對于基于代碼的基準(zhǔn)測試,本文改變編碼風(fēng)格、命名方式等。
如下所示,算法 1 中針對給定的測試集提出了一種簡單的算法。該方法可以幫助測試樣本逃避檢測。

接下來本文提出了一種新的污染檢測方法,可以準(zhǔn)確地從相對于基準(zhǔn)的數(shù)據(jù)集中刪除改寫樣本。
具體而言,本文引入了 LLM decontaminator。首先,對于每個(gè)測試用例,它使用嵌入相似度搜索來識別具有最高相似度的 top-k 訓(xùn)練項(xiàng),之后通過 LLM(例如 GPT-4)評估每一對是否相同。這種方法有助于確定數(shù)據(jù)集中有多少改寫樣本。
圖 4 展示了不同污染以及不同檢測方法的維恩圖。

實(shí)驗(yàn)
在第 5.1 節(jié)中,實(shí)驗(yàn)證明了在改寫樣本上訓(xùn)練的模型可以取得顯著的高分,在三個(gè)廣泛使用的基準(zhǔn)(MMLU、HumanEval 和 GSM-8k)中實(shí)現(xiàn)與 GPT-4 相當(dāng)?shù)男阅?,這表明改寫樣本應(yīng)被視為污染,應(yīng)從訓(xùn)練數(shù)據(jù)中刪除。在第 5.2 節(jié)中,本文根據(jù) MMLU/HumanEval 中改寫樣本評估不同的污染檢測方法。在第 5.3 節(jié)中,本文將 LLM decontaminator 應(yīng)用于廣泛使用的訓(xùn)練集并發(fā)現(xiàn)以前未知的污染。
接下來我們看看一些主要結(jié)果。
改寫樣本污染基準(zhǔn)
如表 2 所示,在改寫樣本上訓(xùn)練的 Llama-2 7B 和 13B 在 MMLU 上取得顯著的高分,從 45.3 到 88.5。這表明經(jīng)過改寫的樣本可能會嚴(yán)重扭曲基準(zhǔn)數(shù)據(jù),應(yīng)被視為污染。

本文還對 HumanEval 測試集進(jìn)行了改寫,并將其翻譯成五種編程語言:C、JavaScript、Rust、Go 和 Java。結(jié)果顯示,在改寫樣本上訓(xùn)練的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得極高的分?jǐn)?shù),分別從 32.9 到 67.7 以及 36.0 到 81.1。相比之下,GPT-4 在 HumanEval 上只能達(dá)到 67.0。

下表 4 取得了同樣的效果:

對檢測污染方法的評估
如表 5 所示,除 LLM decontaminator 外,所有其他檢測方法都會引入一些誤報(bào)。改寫和翻譯的樣本都不會被 n-gram 重疊檢測到。使用 multi-qa BERT,嵌入相似性搜索被證明對翻譯樣本完全無效。

數(shù)據(jù)集污染情況
表 7 顯示了每個(gè)訓(xùn)練數(shù)據(jù)集中不同基準(zhǔn)的數(shù)據(jù)污染百分比。

LLM decontaminator 揭示了 79 個(gè)自改寫樣本的實(shí)例,占 MATH 測試集的 1.58%。示例 5 是 MATH 訓(xùn)練數(shù)據(jù)中 MATH 測試的改寫示例。




原文標(biāo)題:13B模型全方位碾壓GPT-4?這背后有什么貓膩

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:13B模型全方位碾壓GPT-4?這背后有什么貓膩

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    ST72324B-Auto:汽車級8位MCU的全方位解析

    ST72324B-Auto:汽車級8位MCU的全方位解析 在汽車電子領(lǐng)域,微控制器(MCU)扮演著至關(guān)重要的角色。ST72324B-Auto作為一款專為汽車應(yīng)用設(shè)計(jì)的8位MCU,具有諸多出色的特性
    的頭像 發(fā)表于 04-16 13:00 ?150次閱讀

    AD7386 - 4/AD7387 - 4/AD7388 - 4:高性能SAR ADC的全方位解析

    AD7386 - 4/AD7387 - 4/AD7388 - 4:高性能SAR ADC的全方位解析 在電子設(shè)計(jì)領(lǐng)域,模數(shù)轉(zhuǎn)換器(ADC)是連接模擬世界和數(shù)字世界的關(guān)鍵橋梁。今天,我們就
    的頭像 發(fā)表于 03-25 15:00 ?195次閱讀

    LPC1111/12/13/14 32位 ARM Cortex - M0 微控制器全方位剖析

    LPC1111/12/13/14 32位 ARM Cortex - M0 微控制器全方位剖析 在嵌入式系統(tǒng)設(shè)計(jì)領(lǐng)域,微控制器的選擇至關(guān)重要,它直接影響著產(chǎn)品的性能、功耗、成本等多個(gè)關(guān)鍵指標(biāo)。今天我們
    的頭像 發(fā)表于 03-24 17:20 ?652次閱讀

    SGM2077B:高性能CMOS電壓調(diào)節(jié)器的全方位解析

    SGM2077B:高性能CMOS電壓調(diào)節(jié)器的全方位解析 在電子設(shè)計(jì)領(lǐng)域,電壓調(diào)節(jié)器是不可或缺的關(guān)鍵組件,它對于保障電子設(shè)備的穩(wěn)定運(yùn)行起著至關(guān)重要的作用。SGMICRO推出的SGM2077B是一款采用
    的頭像 發(fā)表于 03-20 09:30 ?331次閱讀

    SGM61131B:高性能同步降壓轉(zhuǎn)換器的全方位解析

    SGM61131B:高性能同步降壓轉(zhuǎn)換器的全方位解析 在電子工程師的日常設(shè)計(jì)工作中,電源管理芯片是不可或缺的關(guān)鍵組件。今天,我們就來深入探討SGM61131B這款4.5V至17V輸入、3A輸出的同步
    的頭像 發(fā)表于 03-19 10:00 ?396次閱讀

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實(shí)測發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大
    的頭像 發(fā)表于 11-13 15:49 ?851次閱讀

    技術(shù)升級煥新體驗(yàn)!RV1126B全方位突破

    技術(shù)升級煥新體驗(yàn)!RV1126B全方位突破,賦能多領(lǐng)域智能發(fā)展 當(dāng)嵌入式AI硬件市場還在為RV1126的停產(chǎn)議論紛紛時(shí),全新升級的RV1126B橫空出世,瞬間吸引了行業(yè)的目光。這款產(chǎn)品并非對前代產(chǎn)品
    的頭像 發(fā)表于 10-22 17:49 ?1077次閱讀

    政策加碼加氫站,背后有哪些考量與機(jī)遇?

    加氫站是兌現(xiàn)氫能源價(jià)值的出口,在整個(gè)氫能源供應(yīng)體系中,加氫站是鏈接上游制備、運(yùn)輸與終端應(yīng)用的關(guān)鍵節(jié)點(diǎn),2025 年上半年,從頂層設(shè)計(jì)到地方實(shí)踐,眾多支持氫能產(chǎn)業(yè)的政策紅利持續(xù)釋放,其中涉及加氫站建設(shè)、運(yùn)營等方面的支持力度更勝以往,政策加碼加氫站背后有哪些考量呢?而圍繞加氫站又會有哪些產(chǎn)業(yè)機(jī)遇呢?
    的頭像 發(fā)表于 09-04 14:59 ?610次閱讀
    政策加碼加氫站,<b class='flag-5'>背后有</b>哪些考量與機(jī)遇?

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理

    ? 自 2016 年推出 NVIDIA DGX 以來,NVIDIA 與 OpenAI 便開始共同推動 AI 技術(shù)的邊界。此次 OpenAI gpt-oss-20bgpt-oss-120b 模型
    的頭像 發(fā)表于 08-15 20:34 ?2543次閱讀
    NVIDIA從云到邊緣加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬TPS推理

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時(shí)隔六年再次回歸開源,發(fā)布兩款全新的大語言模型gpt-oss-120bgpt-oss-20b,性能與o4-mini 水平相當(dāng),并且可以在消費(fèi)級硬件上運(yùn)行
    的頭像 發(fā)表于 08-13 16:43 ?1966次閱讀

    阿里通義千問發(fā)布小尺寸模型Qwen3-4B,手機(jī)也能跑

    電子發(fā)燒友網(wǎng)綜合報(bào)道 8月7日,阿里通義千問宣布發(fā)布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。目前新模型已在魔搭社區(qū)
    的頭像 發(fā)表于 08-12 17:15 ?7064次閱讀
    阿里通義千問發(fā)布小尺寸<b class='flag-5'>模型</b>Qwen3-<b class='flag-5'>4B</b>,手機(jī)也能跑

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價(jià)向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報(bào)道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的3月份推出自然語言處理模型
    的頭像 發(fā)表于 08-07 14:13 ?1.6w次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權(quán)重語言模型gpt-oss-120bgpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 發(fā)布了!我們做了一個(gè)開放
    的頭像 發(fā)表于 08-06 14:25 ?1173次閱讀

    具有載波聚合的 RX 分集 FEM(B26、B8、B12/13、B2/25、B4B7) skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()具有載波聚合的 RX 分集 FEM(B26、B8、B12/13、B2/25、B4
    發(fā)表于 06-19 18:35
    具有載波聚合的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B</b>8、<b class='flag-5'>B</b>12/<b class='flag-5'>13</b>、<b class='flag-5'>B</b>2/25、<b class='flag-5'>B4</b> 和 <b class='flag-5'>B</b>7) skyworksinc

    GPT-5即將面市 性能遠(yuǎn)超GPT-4

    行業(yè)芯事
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年06月04日 13:38:23
    鹤峰县| 卢湾区| 丰镇市| 当阳市| 洪雅县| 天津市| 论坛| 上高县| 区。| 丹寨县| 遵化市| 绥芬河市| 辽阳市| 盘锦市| 鄂温| 新和县| 张家口市| 达尔| 江山市| 象州县| 南城县| 炉霍县| 定日县| 泰来县| 澄江县| 渭南市| 林芝县| 贡嘎县| 保定市| 自贡市| 怀集县| 昌都县| 合山市| 视频| 团风县| 屏南县| 晋江市| 开鲁县| 连州市| 铁岭市| 通州区|