日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在檢索任務(wù)中訓(xùn)練數(shù)據(jù)在推理時(shí)也大有用處

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NewBeeNLP ? 作者:h1654155273.8628 ? 2022-06-15 10:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從大規(guī)模數(shù)據(jù)中檢索通常比較耗時(shí),僅從訓(xùn)練數(shù)據(jù)中也能有巨大收益。具體做法是檢索與輸入文本最相似的訓(xùn)練樣例,拼接后作為輸入喂入模型,然后生成結(jié)果。結(jié)果在摘要、翻譯、語(yǔ)言模型和QA上都取得了不錯(cuò)的效果。

論文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code:microsoft/REINA[2]

一句話概述:在檢索任務(wù)中訓(xùn)練數(shù)據(jù)在推理時(shí)也大有用處。

文章上來(lái)就給我們呈現(xiàn)了整體的結(jié)構(gòu):

b2e83ada-ebed-11ec-ba43-dac502259ad0.jpg

有點(diǎn)類似 Prompt 學(xué)習(xí),但本文主要關(guān)注有監(jiān)督學(xué)習(xí)的設(shè)置。結(jié)果不僅效果很好,而且很容易擴(kuò)展(只要增加有標(biāo)注訓(xùn)練數(shù)據(jù)就行),計(jì)算代價(jià)也小。我覺得本文相對(duì)最有意思的一個(gè)發(fā)現(xiàn)是文中所寫:即便有成噸的參數(shù),一個(gè)模型也不能記住訓(xùn)練數(shù)據(jù)中的所有模式。所以,重新捕獲相關(guān)的訓(xùn)練數(shù)據(jù)作為一個(gè)手拉手提示器,就可以提供明確的信息來(lái)提高模型(推理)的性能。

整體架構(gòu)如下圖所示(REINA):

b316d20a-ebed-11ec-ba43-dac502259ad0.jpg

一張圖其實(shí)已經(jīng)很清楚地表達(dá)出意思了:對(duì)不同的任務(wù)構(gòu)造不同的輸入,但都會(huì)將訓(xùn)練數(shù)據(jù)拼接上后再喂入模型,得到最后的答案,這里的答案是通過(guò)語(yǔ)言模型生成的。檢索算法使用 BM25。

形式化模型為:

其中,M 表示生成模型,x 是輸入,大括號(hào)里的就是 top K 個(gè)檢索到的最相似的訓(xùn)練數(shù)據(jù)。

對(duì) QA 任務(wù),將輸入文本和每個(gè)選項(xiàng)拼接后作為 query,然后獲取相關(guān)的訓(xùn)練數(shù)據(jù)。如果需要加入外部知識(shí),則調(diào)整為:

其中,C 表示選項(xiàng)。拼接實(shí)體字典定義和關(guān)系 R,用來(lái)為一個(gè) Q 構(gòu)造知識(shí) K。

Ex 表示與 Q 相關(guān)的實(shí)體,Ec 表示與 A 相關(guān)的實(shí)體。本文的相關(guān)指:在句子中出現(xiàn)。

用人話簡(jiǎn)單描述一下就是:給定 Q,在訓(xùn)練數(shù)據(jù)中找到相似的 QA 對(duì),對(duì)每個(gè) QA 對(duì),找到其中所涉及的實(shí)體和關(guān)系,然后將實(shí)體的定義和關(guān)系也拼接進(jìn)去,最后組成一長(zhǎng)串文本作為模型輸入。

相似檢索使用 Lucene Index,模型訓(xùn)練使用 Transformers。實(shí)驗(yàn)結(jié)果(以文本摘要為例)如下:

b3394fe2-ebed-11ec-ba43-dac502259ad0.jpg

結(jié)果顯示,REINA 可以顯著提升(幾乎所有數(shù)據(jù)集)使用不同預(yù)訓(xùn)練模型初始化的基線。在 case 分析時(shí),作者發(fā)現(xiàn) REINA 的數(shù)據(jù)和真實(shí)標(biāo)簽之間有很強(qiáng)的相關(guān)性。

總之,本文的思路非常簡(jiǎn)單,但效果卻不錯(cuò),在工業(yè)上可以一試,尤其是生成式文本摘要和 QA 任務(wù)。不過(guò),感覺這好像也算是一種 prompt 吧,使用訓(xùn)練數(shù)據(jù)來(lái)「拉近」輸入和真實(shí)標(biāo)簽之間的距離。

本文參考資料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95060
  • 檢索
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    13434

原文標(biāo)題:ACL2022 | 微軟:永遠(yuǎn)不要低估你的訓(xùn)練數(shù)據(jù)!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI Ceph 分布式存儲(chǔ)教程資料大模型學(xué)習(xí)資料2026

    。面向 C 端用戶的推理場(chǎng)景,向量數(shù)據(jù)庫(kù)與模型權(quán)重的加載對(duì)存儲(chǔ)系統(tǒng)提出了新的挑戰(zhàn)。 實(shí)戰(zhàn)的 AI 存儲(chǔ)需要支持高并發(fā)的向量
    發(fā)表于 05-01 17:35

    【瑞薩AI挑戰(zhàn)賽】手寫數(shù)字識(shí)別模型RA8P1 Titan Board上的部署

    訓(xùn)練多分類模型,實(shí)現(xiàn)手寫字母、漢字的識(shí)別; 邊緣計(jì)算拓展:利用開發(fā)板的以太網(wǎng)接口,將識(shí)別結(jié)果上傳至邊緣服務(wù)器,實(shí)現(xiàn)多設(shè)備的協(xié)同推理數(shù)據(jù)管理。 RA8P1 Titan Board開發(fā)板為嵌入式AI開發(fā)
    發(fā)表于 03-15 20:42

    RAG(檢索增強(qiáng)生成)原理與實(shí)踐

    思想 RAG的核心思想非常直觀:在生成答案之前,先從知識(shí)庫(kù)檢索相關(guān)信息,然后將這些信息作為上下文提供給大語(yǔ)言模型,讓模型基于這些\"參考資料\"來(lái)生成更準(zhǔn)確的回答。 這就像是讓AI
    發(fā)表于 02-11 12:46

    訓(xùn)練推理:大模型算力需求的新拐點(diǎn)已至

    大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中大模型訓(xùn)練所需的算力投入。一個(gè)萬(wàn)億參數(shù)大模型的訓(xùn)練可能需要數(shù)千張GPU芯片連續(xù)運(yùn)行數(shù)月,成本高達(dá)數(shù)千萬(wàn)甚至上億元。但隨著大模型技術(shù)的成熟和
    的頭像 發(fā)表于 02-05 16:07 ?1061次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到<b class='flag-5'>推理</b>:大模型算力需求的新拐點(diǎn)已至

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    電子發(fā)燒友網(wǎng)綜合報(bào)道,人工智能迅猛發(fā)展的當(dāng)下,AI推理芯片需求正呈爆發(fā)式增長(zhǎng)。 ? AI推理,即支撐如ChatGPT這類AI模型響應(yīng)用戶問(wèn)題和請(qǐng)求的計(jì)算過(guò)程。過(guò)去,英偉達(dá)
    的頭像 發(fā)表于 02-03 17:15 ?3311次閱讀

    數(shù)據(jù)傳輸拖慢訓(xùn)練?三維一體調(diào)度讓AI任務(wù)提速40%

    、模型三者割裂,資源調(diào)度與數(shù)據(jù)流轉(zhuǎn)不同步,訓(xùn)練任務(wù)頻繁卡頓;更無(wú)奈的是,優(yōu)化了算法、升級(jí)了硬件,卻因底層傳輸與調(diào)度低效,始終無(wú)法突破訓(xùn)練效率瓶頸。 AI模型規(guī)模越來(lái)越大、
    的頭像 發(fā)表于 01-26 14:20 ?270次閱讀

    使用NVIDIA Grove簡(jiǎn)化Kubernetes上的復(fù)雜AI推理

    器 (vision encoders)、鍵值 (KV) 路由器等。此外,完整的代理式管道正在興起,其中多個(gè)模型實(shí)例協(xié)同工作,執(zhí)行推理檢索或多模態(tài)任務(wù)。
    的頭像 發(fā)表于 11-14 10:25 ?5493次閱讀
    使用NVIDIA Grove簡(jiǎn)化Kubernetes上的復(fù)雜AI<b class='flag-5'>推理</b>

    Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    一文看懂AI訓(xùn)練、推理與訓(xùn)推一體的底層關(guān)系

    我們正在參加全球電子成就獎(jiǎng)的評(píng)選,歡迎大家?guī)臀覀兺镀薄x謝支持很多人聽過(guò)“大模型”,但沒(méi)搞懂兩件事。我們總說(shuō)AI有多強(qiáng),但真正決定AI能否落地的,是它的兩個(gè)階段:訓(xùn)練(Training)和推理
    的頭像 發(fā)表于 09-19 11:58 ?2908次閱讀
    一文看懂AI<b class='flag-5'>訓(xùn)練</b>、<b class='flag-5'>推理</b>與訓(xùn)推一體的底層關(guān)系

    PCIe協(xié)議分析儀能測(cè)試哪些設(shè)備?

    訓(xùn)練環(huán)境中高效的數(shù)據(jù)交換。 異構(gòu)計(jì)算集群 測(cè)試場(chǎng)景:包含CPU、GPU、FPGA等多種計(jì)算單元的系統(tǒng),分析各組件間的PCIe通信模式。 應(yīng)用價(jià)值:優(yōu)化
    發(fā)表于 07-25 14:09

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得

    推理能力和泛化能力。 多項(xiàng)基準(zhǔn)測(cè)試,DeepSeek-V3的表現(xiàn)優(yōu)于GPT-4等主流閉源模型,長(zhǎng)文本處理、 代碼生成和數(shù)學(xué)推理等領(lǐng)
    發(fā)表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    學(xué)習(xí)、大規(guī)模數(shù)據(jù)分析等前沿技術(shù)。DeepSeek-R1具備卓越的邏輯推理、多模態(tài)分析(文本/圖像/語(yǔ)音)和實(shí)時(shí)交互能力,能夠高效處理代碼生成、復(fù)雜問(wèn)題求解、跨模態(tài)學(xué)習(xí)等高階任務(wù)。憑借其開源、高效、多
    發(fā)表于 07-16 15:29

    Aux-Think打破視覺語(yǔ)言導(dǎo)航任務(wù)的常規(guī)推理范式

    視覺語(yǔ)言導(dǎo)航(VLN)任務(wù)的核心挑戰(zhàn),是讓機(jī)器人在復(fù)雜環(huán)境中聽懂指令、看懂世界,并果斷行動(dòng)。我們系統(tǒng)性地引入推理任務(wù),探索其導(dǎo)航策略學(xué)習(xí)
    的頭像 發(fā)表于 07-08 10:00 ?764次閱讀
    Aux-Think打破視覺語(yǔ)言導(dǎo)航<b class='flag-5'>任務(wù)</b>的常規(guī)<b class='flag-5'>推理</b>范式

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過(guò)深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)或分類的過(guò)程。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,這給實(shí)際應(yīng)用帶來(lái)了以下挑戰(zhàn): 顯存不足:大模型
    發(fā)表于 07-03 19:43

    CPU密集型任務(wù)開發(fā)指導(dǎo)

    ; }} Worker線程完成任務(wù)之后,執(zhí)行Worker線程銷毀操作。銷毀線程的方式主要有兩種:根據(jù)需要可以宿主線程對(duì)Worker線
    發(fā)表于 06-19 06:05
    上思县| 甘孜县| 洪洞县| 珲春市| 噶尔县| 兴仁县| 察雅县| 布尔津县| 和龙市| 朝阳区| 静宁县| 蒲城县| 新和县| 江达县| 堆龙德庆县| 廉江市| 浦东新区| 梨树县| 竹北市| 绥宁县| 泰安市| 鄯善县| 陆良县| 林口县| 夏邑县| 内黄县| 广饶县| 临夏市| 宁明县| 岢岚县| 花莲县| 兴山县| 罗定市| 城步| 湖口县| 桐乡市| 阿瓦提县| 青州市| 西丰县| 宝丰县| 伊春市|