日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-12-20 14:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型場景微調(diào)里面,最關(guān)鍵地的一個是問題是:

選擇什么樣的數(shù)據(jù)微調(diào)?

大的方向上大家都能把握,大概無非是要注意數(shù)據(jù)的多樣性,要注意數(shù)據(jù)的質(zhì)量,那在實踐中有哪些技巧呢?

比如我們會經(jīng)常遇到下面幾種情況:

1.數(shù)據(jù)要不要都去標注,標的比較慢咋辦?

2.我已經(jīng)有一批標好的數(shù)據(jù)了,再去選哪些數(shù)據(jù)送標注比較好?

3.能不能總結(jié)出一套數(shù)據(jù)構(gòu)造方面自動化的方法?

其實在大模型之前,就有很多人研究過這樣的問題。在做一個模型時候,比如簡單的文本分類,我不可能一股腦把所有數(shù)據(jù)都扔給標注,這樣干存在一個問題,一般情況下我們數(shù)據(jù)的分布都是符合一個長尾分布的。主要的幾個類別數(shù)據(jù)占據(jù)了90%的數(shù)據(jù)量,剩下的90%的類別只有10%的數(shù)據(jù)量。

比如小紅書上,query的意圖識別里,美食,穿搭,旅游攻略類非常多,但是還有一些同學去搜大模型微調(diào)的數(shù)據(jù)技巧。

如果說我們直接采樣一批線上的圖文文本,直接送給標注的話,會存在一個嚴重的問題:他們標注的數(shù)據(jù)大部分都是攻略類,技術(shù)類比較少,標了3個月才攢了幾千條大模型技術(shù)文本,但是攻略類已經(jīng)成幾萬了。

這樣搞肯定是不行的,人力成本方面的消耗是在是太大了,并且模型因為數(shù)據(jù)平衡的問題也沒有特別好,我們有沒有辦法去優(yōu)化這個過程呢?

在大模型微調(diào)里面對應的生成小紅書文案場景,同樣的問題也是爬來的數(shù)據(jù)就可以直接用嗎?

大家都有個直觀的答案,就是去重,那我們再考慮模型上數(shù)據(jù)的迭代呢?如果數(shù)據(jù)是分階段爬去的怎么辦?已經(jīng)有一批人工處理的的高質(zhì)量數(shù)據(jù)怎么辦?

但其實從監(jiān)督學習的演進來看,這套東西其實已經(jīng)被研究的很多了,用一個技術(shù)名詞叫 “主動學習”。

主動學習有兩個基本原則,在監(jiān)督訓練的時候,注意主動發(fā)現(xiàn)數(shù)據(jù)的兩個方面,一個是數(shù)據(jù)多樣性,另外一個是數(shù)據(jù)的不確定性。這樣講是比較抽象的概念,那我們在大模型實踐中如何體現(xiàn)呢?

第一,數(shù)據(jù)的多樣性。

多樣性即為數(shù)據(jù)的去重,去重這件事的核心是相似度度量,現(xiàn)在的相似度度量方法大家用的比較多的是基于對比學習構(gòu)造的語義向量這套思路,當然簡單的基于詞袋或者tfidf的方案也是可以的。有了核心的相似度度量方法后,我們可以使用簡單的onepass聚類方法進行過濾,考慮復雜一點的話,我們可以使用帶優(yōu)化目標的聚類:比如K-Center-Greedy算法,其約束條件是在最大化多樣性的情況下,使指令數(shù)據(jù)集最小。

bda740f4-9ef9-11ee-8b88-92fbcf53809c.png

另外,如果我們已經(jīng)有了一批已經(jīng)去重的人工處理過的高質(zhì)量數(shù)據(jù),那么我們?nèi)绾螌ふ遗c這批數(shù)據(jù)不一樣的數(shù)據(jù)呢?

這里有一個非常簡單實用的方案,并且這個方案可以用在很多其他的地方。

我們簡單地把已有的數(shù)據(jù)全部當成正樣本打上1,然后待篩選的數(shù)據(jù)全部當成負樣本打上0,我們使用deberta等構(gòu)建二分類模型,并進行K-fold的交叉驗證,在交叉驗證過程中,選出每一個fold過程中的測試集合里概率接近于0的樣本。

通過這樣的操作,就能把長得與已有數(shù)據(jù)不一樣的數(shù)據(jù)給選出來了,并且這個過程是半監(jiān)督的。

套方案也可以用在很多其他地方,比如數(shù)據(jù)質(zhì)量選擇,只要我們有一批已經(jīng)確定標簽/結(jié)果/標注的種子數(shù)據(jù),就能通過這樣的方法選出與種子數(shù)據(jù)長得比較像的,長得不像的。

第二,數(shù)據(jù)的不確定性。

數(shù)據(jù)的不確定性主要體現(xiàn)數(shù)據(jù)的質(zhì)量篩選上,選取模型學的不那好的數(shù)據(jù),模型沒有把握的數(shù)據(jù)。

最簡單的,我們可以選出模型對應PPL值比較差的那批數(shù)據(jù)。如果是指令數(shù)據(jù)的話,比如大模型做題和對應的答案。我們可以把所有選項對應的概率之和計算出來,然后過濾出概率和比較低的那一批數(shù)據(jù),這批數(shù)據(jù)就是模型“不太肯定”的樣本,我們需要加強針對性的訓練。

當然這樣可能有一個副作用,就是這批數(shù)據(jù)是質(zhì)量比較差而不是模型學的不太好的。

為此,我們還要借助reward model,這個reward model是廣義的,他是一個質(zhì)量的二分類模型??梢约莱鑫覀兊膁eberta,繼續(xù)用標注數(shù)據(jù)進行做二分類,進行數(shù)據(jù)質(zhì)量的判斷。

有了質(zhì)量打分模型后,我們就可以判斷一些指令數(shù)據(jù)的質(zhì)量高低,并且據(jù)此選出模型真正不確定的數(shù)據(jù)。

這個過程類似于手動的拒絕采樣,核心是選擇“模型不確定”+“數(shù)據(jù)質(zhì)量達標”的那部分數(shù)據(jù)。

總結(jié)一下,監(jiān)督學習中主動學習的兩個基本原則是尋找多樣性的數(shù)據(jù),模型不確定性的數(shù)據(jù),在尋找的過程中,我們使用了一些小技巧,比如聚類去重,對抗半監(jiān)督過濾,自建reward二分類等方法。這幾個小技巧,學術(shù)上沒有什么高深莫測的東西,都是實踐中總結(jié)出來的好用的方法。

并且你把上面的過程串聯(lián)起來,其實就是一套高效率,低成本的數(shù)據(jù)構(gòu)造pipeline了,不僅可以用在大模型的數(shù)據(jù)選擇和構(gòu)造,在所有的監(jiān)督學習上,這套思路和方法都是實適用的。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 半監(jiān)督學習
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    2768
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3811

    瀏覽量

    5282

原文標題:大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    零基礎(chǔ)手寫大模型資料2026

    方式使模型能區(qū)分\"貓追狗\"和\"狗追貓\"的語義差異。 三、訓練優(yōu)化:從原始代碼到實用模型 1. 損失函數(shù)與優(yōu)化器選擇 分類任務常用交叉熵損失,回歸任務用均方
    發(fā)表于 05-01 17:44

    HM博學谷狂野AI大模型第四期

    ,抽象的數(shù)學概念將轉(zhuǎn)化為具象的張量流動邏輯。開發(fā)者將不再被復雜的網(wǎng)絡(luò)結(jié)構(gòu)圖所迷惑,而是能夠清晰地看到數(shù)據(jù)模型內(nèi)部的流動軌跡,為后續(xù)的模型優(yōu)化與定制打下堅實的算法地基。 二、 訓練引擎解構(gòu):從預訓練到
    發(fā)表于 05-01 17:30

    推薦一個企業(yè)級AI大模型微調(diào)項目實戰(zhàn)課

    ,模型微調(diào)始終是連接算法創(chuàng)新與實際應用的橋梁。完成系統(tǒng)化的微調(diào)實戰(zhàn)課程學習后,我深刻體會到這項技術(shù)如何突破"AI可用性"的瓶頸,真正實現(xiàn)從理論到商業(yè)價值的跨越。這種認知轉(zhuǎn)變不僅體現(xiàn)在技術(shù)層面,更重塑了我對AI工程化的理解框架。
    的頭像 發(fā)表于 04-25 11:19 ?332次閱讀

    AI大模型企業(yè)級微調(diào)項目實戰(zhàn)課

    企業(yè)AI轉(zhuǎn)型未來路徑:從微調(diào)實戰(zhàn)到規(guī)模化應用 在2026年的商業(yè)版圖中,企業(yè)AI轉(zhuǎn)型已不再是一道選擇題,而是一場關(guān)乎生存的必答題。然而,大多數(shù)企業(yè)正卡在“從試點到規(guī)?;钡乃劳鲋龋核麄儞碛?/div>
    的頭像 發(fā)表于 04-24 16:42 ?218次閱讀

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)課

    取非結(jié)構(gòu)化文本,通過去重、脫敏,最終轉(zhuǎn)化為符合大模型閱讀習慣的“指令-回復”對。幾千條高質(zhì)量、無矛盾的垂直行業(yè)數(shù)據(jù),其效果遠勝于幾萬條從網(wǎng)上爬取的劣質(zhì)問答。 第二步:精準手術(shù)——參數(shù)高效微調(diào)(PEFT
    發(fā)表于 04-16 18:48

    亞馬遜云科技擴展模型選擇 Amazon Bedrock新增18款開放權(quán)重模型

    亞馬遜云科技在2025 re:Invent全球大會上宣布在Amazon Bedrock中新增18款開放權(quán)重模型,進一步強化其提供廣泛全托管模型選擇的承諾。Amazon Bedrock使客戶能夠
    的頭像 發(fā)表于 12-13 13:53 ?907次閱讀

    在以下嵌入式軟件設(shè)計模型中,屬于數(shù)據(jù)模型的是,哪里有設(shè)計模型的介紹?

    在以下嵌入式軟件設(shè)計模型中,屬于數(shù)據(jù)模型的是()。A. CCSB. CSPC. FSMD. Petri Net
    發(fā)表于 11-24 15:55

    Vishay Sfernice M61系列金屬陶瓷微調(diào)電位器技術(shù)解析

    Vishay/Sfernice M61 3/8”方形單匝金屬陶瓷微調(diào)電位器有多種引腳配置可供選擇,用于手指設(shè)置。這些微調(diào)電位器通過物理操作輕松調(diào)整電阻值,組裝在PCB上后可提供穩(wěn)定性。M61系列采用
    的頭像 發(fā)表于 11-10 11:44 ?882次閱讀
    Vishay Sfernice M61系列金屬陶瓷<b class='flag-5'>微調(diào)</b>電位器技術(shù)解析

    LLM安全新威脅:為什么幾百個毒樣本就能破壞整個模型

    本文轉(zhuǎn)自:DeepHubIMBA作者:DhanushKumar數(shù)據(jù)投毒,也叫模型投毒或訓練數(shù)據(jù)后門攻擊,本質(zhì)上是在LLM的訓練、微調(diào)或檢索階段偷偷塞入精心
    的頭像 發(fā)表于 10-29 11:06 ?889次閱讀
    LLM安全新威脅:為什么幾百個毒樣本就能破壞整個<b class='flag-5'>模型</b>

    如何在vivadoHLS中使用.TLite模型

    \"#include \"hls_model.h\"http:// 包含導入的模型頭文件4. 定義輸入和輸出端口 根據(jù)模型的輸入和輸出形狀,選擇合適的數(shù)據(jù)類型和數(shù)組維度。例如,對于
    發(fā)表于 10-22 06:29

    NVMe高速傳輸之擺脫XDMA設(shè)計27: 橋設(shè)備模型設(shè)計

    構(gòu)造 PCIe Switch 模型。 最小橋設(shè)備模型結(jié)構(gòu)如圖 1所示。圖1 最小橋設(shè)備模型結(jié)構(gòu)圖 最小橋設(shè)備模型只包含一個唯一的上游端口和一
    發(fā)表于 09-18 09:11

    北成供應哈默納科減速機HPG斷面模型使用的內(nèi)部構(gòu)造演示

    模型
    北京北成新控
    發(fā)布于 :2025年08月28日 11:26:27

    千方科技推出AI大模型公路構(gòu)造物評定系統(tǒng)

    公路構(gòu)造物(橋梁、隧道、涵洞等)檢測評定是養(yǎng)護管理的核心環(huán)節(jié),通過量化構(gòu)造物的技術(shù)狀況評定等級,可為養(yǎng)護資源分配決策提供技術(shù)支持。傳統(tǒng)公路構(gòu)造物技術(shù)狀況評定面臨“三座大山”:一是評定結(jié)果易受人
    的頭像 發(fā)表于 07-09 15:54 ?1146次閱讀

    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學習

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學習」明晚8點精彩開播期待與您云相聚,共襄學術(shù)盛宴!|直播信息報告題目面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學習報告簡介
    的頭像 發(fā)表于 06-24 08:01 ?1242次閱讀
    明晚開播 |<b class='flag-5'>數(shù)據(jù)</b>智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間建模與<b class='flag-5'>微調(diào)</b>學習
    尉犁县| 丹江口市| 丽水市| 库车县| 鄱阳县| 波密县| 年辖:市辖区| 武穴市| 申扎县| 石林| 利辛县| 吉木萨尔县| 金门县| 简阳市| 合川市| 乐陵市| 丹阳市| 荥阳市| 叙永县| 梧州市| 内江市| 五常市| 宜兰县| 应用必备| 香港| 丽水市| 珠海市| 望江县| 耒阳市| 定南县| 阿克| 祁东县| 汝州市| 清原| 凤城市| 紫金县| 同江市| 大方县| 安塞县| 绵竹市| 吐鲁番市|