日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何優(yōu)雅地使用bert處理長文本

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:wangThr ? 2020-12-26 09:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這是今年清華大學及阿里巴巴發(fā)表在NIPS 2020上的一篇論文《CogLTX: Applying BERT to Long Texts》,介紹了如何優(yōu)雅地使用bert處理長文本。作者同時開源了不同NLP任務下使用COGLTX的代碼:

論文題目:

CogLTX: Applying BERT to Long Texts

論文鏈接:

http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdf

Github:

https://github.com/Sleepychord/CogLTX

bert在長文本處理一般分為三種方法[1]:

截斷法;

Pooling法;

壓縮法。

該論文就是壓縮法的一種,是三種方法中最好的。我們在科研和工作中都會遇到該問題,例如我最近關注的一個文本分類比賽:

面向數(shù)據(jù)安全治理的數(shù)據(jù)內(nèi)容智能發(fā)現(xiàn)與分級分類 競賽 - DataFountain[2].

其文本數(shù)據(jù)長度就都在3000左右,無法將其完整輸入bert,使用COGLTX就可以很好地處理該問題,那么就一起來看看該論文具體是怎么做的吧。

1.背景

基于以下情形:

bert作為目前最優(yōu)秀的PLM,不用是不可能的;

長文本數(shù)據(jù)普遍存在,且文本中包含的信息非常分散,難以使用滑動窗口[3]截斷。

而由于bert消耗計算資源和時間隨著token的長度是平方級別增長的,所以其無法處理太長的token,目前最長只支持512個token,token過長也很容易會內(nèi)存溢出,所以在使用bert處理長文本時需要設計巧妙的方法來解決這個問題。

b48db3fa-4690-11eb-8b86-12bb97331649.jpg

2.提出模型

COGLTX模型在三類NLP任務中的結構如下:

b5408b9c-4690-11eb-8b86-12bb97331649.jpg

b5acc258-4690-11eb-8b86-12bb97331649.jpg

首先假設:存在短文本 可以完全表達原長文本 的語義:

那么令 代替 輸入原來的模型即可,那么怎么找到這個 呢

1、使用動態(tài)規(guī)劃算法將長文本 劃分為文本塊集合 ;

2、使用MemRecall對原長句中的子句進行打分,MemRecall結構如圖,而表現(xiàn)如下式:

從而選擇出分數(shù)最高的子句組成 再進行訓練,這樣一來的話,COGLTX相當于使用了了兩個bert,MemRecall中bert就是負責打分,另一個bert執(zhí)行原本的NLP任務。

可以發(fā)現(xiàn)剛才找到 例子將問題Q放在了初始化 的開頭,但是并不是每個NLP任務都可以這么做,分類的時候就沒有類似Q的監(jiān)督,這時候COGLTX采用的策略是將每個子句從原句中移除判斷其是否是必不可少的(t是一個閾值):

作者通過設計不同任務下的MemRecall實現(xiàn)了在長文本中使用bert并通過實驗證明了方法的有效性。

3.實驗

b63a5dd4-4690-11eb-8b86-12bb97331649.jpg

通過多維度地對比,證明了本文提出算法的有效性。

參考文獻

[1]https://zhuanlan.zhihu.com/p/88944564

[2]https://www.datafountain.cn/competitions/471

[3]Z. Wang, P. Ng, X. Ma, R. Nallapati, and B. Xiang. Multi-passage bert: A globally normalized bert model for open-domain question answering. arXiv preprint arXiv:1908.08167, 2019.

責任編輯:xj

原文標題:【NIPS 2020】通過文本壓縮,讓BERT支持長文本

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 文本
    +關注

    關注

    0

    文章

    120

    瀏覽量

    17923
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23346

原文標題:【NIPS 2020】通過文本壓縮,讓BERT支持長文本

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    《多模態(tài)大模型 前沿算法與實戰(zhàn)應用 第一季》精品課程簡介

    、典型項目場景的技術實踐 1. 智能客服系統(tǒng):文本+語音的多模態(tài)交互 輸入處理 :語音通過ASR(自動語音識別)轉換為文本,同時提取聲紋特征(如語速、音調(diào))作為輔助輸入。 跨模態(tài)理解 :用BE
    發(fā)表于 05-01 17:46

    LCD 屏幕上的文本區(qū)域和 ddlist 在更新時閃爍是為什么?

    我正在嘗試在我的 LCD 處理程序中更新 LCD 屏幕下方的幾個文本區(qū)域。 val = cJSON_GetObjectItem(root, \"
    發(fā)表于 04-13 08:23

    啟動屏幕的文本被模糊化,怎么處理?

    誰能幫我解決這個問題嗎?啟動屏幕的文本被模糊化。但在登錄頁面上,這是正常的。 誰能幫我嗎?
    發(fā)表于 03-30 07:46

    Linux Shell文本處理神器合集:15個工具+實戰(zhàn)例子,效率直接翻倍

    在 Linux 系統(tǒng)中,文本是數(shù)據(jù)交互的 “通用語言”—— 日志文件、配置文件、數(shù)據(jù)報表、程序輸出幾乎都以文本形式存在。手動編輯文本不僅繁瑣,還容易出錯,而掌握 Shell 文本處理
    的頭像 發(fā)表于 02-03 15:42 ?2924次閱讀
    Linux Shell<b class='flag-5'>文本處理</b>神器合集:15個工具+實戰(zhàn)例子,效率直接翻倍

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的一個分支,它會教計算機如何理解口頭和書面形式的人類語言。自然語言處理將計算語言學與機器學習和深度學習相結合來處理語音和文本數(shù)據(jù),這些數(shù)
    的頭像 發(fā)表于 01-29 14:01 ?624次閱讀
    自然語言<b class='flag-5'>處理</b>NLP的概念和工作原理

    詳解DBC的Signal與JSON文本結合

    為了優(yōu)化CAN數(shù)據(jù)發(fā)送與接收的操作流程,更改以前手動輸入狀態(tài)對應數(shù)據(jù)的模式,采用下拉列表選擇內(nèi)容,但這需要用到超出DBC原有承載能力的信息。因此,將JSON與其結合,采用JSON格式文本寫入Signal的Comment屬性,將Comment屬性的字符串通過JSON文本拓展
    的頭像 發(fā)表于 01-06 10:57 ?445次閱讀
    詳解DBC的Signal與JSON<b class='flag-5'>文本</b>結合

    百度文心大模型5.0 Preview榮登LMArena文本榜國內(nèi)第一

    12月23日,LMArena大模型競技場發(fā)布最新排名,文心新模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜,排名國內(nèi)第一該模型在創(chuàng)意寫作、高難度指令等方面表現(xiàn)突出,超過多款國內(nèi)外主流模型。
    的頭像 發(fā)表于 12-23 15:02 ?691次閱讀

    奇異摩爾入選2025中國科創(chuàng)好公司半導體榜單

    Speciale版本則專注于極致推理,二者共同構成一套應對不同場景的“推理底座”。其中V3.2在綜合推理能力上已對齊GPT-5,而其稀疏注意力機制(DSA)等技術,更讓處理長文本的成本和效率實現(xiàn)了數(shù)倍的優(yōu)化。
    的頭像 發(fā)表于 12-16 14:22 ?923次閱讀

    百度文心大模型5.0-Preview文本能力國內(nèi)第一

    11月8日凌晨,LMArena大模型競技場最新排名顯示,文心全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中國第一該模型在創(chuàng)意寫作、復雜長問題理解、指令遵循等方面表現(xiàn)突出,超過多款國內(nèi)外主流模型。
    的頭像 發(fā)表于 11-11 17:15 ?1674次閱讀

    labview怎么讀取UTF-16 LE 文本數(shù)據(jù)

    各位大佬 請問labview怎么讀取UTF-16 LE 文本數(shù)據(jù) 直接讀數(shù)據(jù)出來會有空格 但是空格無法刪除,請問怎么獲取UTF-16 LE格式數(shù)據(jù)
    發(fā)表于 10-10 11:23

    格靈深瞳突破文本人物檢索技術難題

    格靈深瞳參與研究的GA-DMS框架,為攻破上述技術難題提供了全新解決方案。研究團隊通過數(shù)據(jù)構建和模型架構的協(xié)同改進,推動CLIP在人物表征學習中的應用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(自然語言處理領域的頂級國際會議之一)。
    的頭像 發(fā)表于 09-28 09:42 ?765次閱讀
    格靈深瞳突破<b class='flag-5'>文本</b>人物檢索技術難題

    飛書富文本組件庫RichTextVista開源

    近日,飛書正式將其自研的富文本組件庫 RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony 三方庫中心倉。該組件以領先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態(tài)提供了更高效的富文本解決方案。
    的頭像 發(fā)表于 07-16 16:47 ?1177次閱讀

    飛書開源“RTV”富文本組件 重塑鴻蒙應用富文本渲染體驗

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?803次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應用富<b class='flag-5'>文本</b>渲染體驗

    無法使用OpenVINO?在 GPU 設備上運行穩(wěn)定擴散文本到圖像的原因?

    在OpenVINO? GPU 設備上使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本到圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    HarmonyOS NEXT應用開發(fā)-Notification Kit(用戶通知服務)更多系統(tǒng)能力

    NotificationLongTextContent = _NotificationLongTextContent 描述長文本通知。 元服務API: 從API version 12開始,該接口支持在元服務中使
    發(fā)表于 06-04 15:43
    淳安县| 株洲县| 永吉县| 探索| 青河县| 容城县| 湘西| 福鼎市| 翁牛特旗| 乌拉特前旗| 平阳县| 肥西县| 怀安县| 崇州市| 广昌县| 织金县| 巴林左旗| 宜兰县| 巴彦县| 福安市| 安丘市| 吉水县| 鹿泉市| 招远市| 长海县| 武清区| 玉溪市| 伊川县| 沙田区| 郎溪县| 炉霍县| 鹰潭市| 科尔| 栾城县| 武强县| 阜阳市| 达尔| 措勤县| 盐城市| 罗江县| 英超|