日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在Token中加入你感興趣的詞的邊界標(biāo)記

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NewBeeNLP ? 作者:h1654155273.8628 ? 2022-07-13 14:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天一起來(lái)看一篇騰訊和復(fù)旦大學(xué)合作的工作:MarkBERT: Marking Word Boundaries Improves Chinese BERT[1]

一句話概述:在 Token 中加入你感興趣的詞的邊界標(biāo)記。

MarkBERT 不是基于詞的 BERT,依然是基于字,但巧妙地將「詞的邊界標(biāo)記」信息融入模型。這樣可以統(tǒng)一處理任意詞,無(wú)論是不是 OOV。另外,MarkBERT 還有兩個(gè)額外的好處:

首先,在邊界標(biāo)記上添加單詞級(jí)別的學(xué)習(xí)目標(biāo)很方便,這是對(duì)傳統(tǒng)字符和句子級(jí)預(yù)訓(xùn)練任務(wù)的補(bǔ)充;

其次,可以通過(guò)用 POS 標(biāo)簽特定的標(biāo)記替換通用標(biāo)記來(lái)輕松合并更豐富的語(yǔ)義。

在 NER 任務(wù)上取得了 2 個(gè)點(diǎn)的提升,在文本分類、關(guān)鍵詞識(shí)別、語(yǔ)義相似任務(wù)上也取得了更好的精度。

這個(gè)簡(jiǎn)單但有效的中文預(yù)訓(xùn)練模型 MarkBERT,考慮了詞信息但沒有 OOV 問題。具體有以下優(yōu)勢(shì):

統(tǒng)一的方式處理常用詞和低頻詞,沒有 OOV 問題。

Marker 的引入允許設(shè)計(jì)詞級(jí)別的預(yù)訓(xùn)練任務(wù),這是對(duì)字級(jí)別的 MLM 和句子級(jí)別的 NSP 的補(bǔ)充。

容易擴(kuò)展加入更多單詞語(yǔ)義(詞性、詞法等)。

預(yù)訓(xùn)練階段有兩個(gè)任務(wù):

MLM:對(duì) Marker 也進(jìn)行了 MASK,以便模型能學(xué)習(xí)到邊界知識(shí)。

替換詞檢測(cè):人工替換一個(gè)詞,然后讓模型分辨標(biāo)記前面的詞是不是正確的。

MarkBERT預(yù)訓(xùn)練

MarkBERT

如下圖所示:

f641312e-026d-11ed-ba43-dac502259ad0.jpg

首先分詞,在詞中間插入特殊標(biāo)記,這些標(biāo)記也會(huì)被當(dāng)做普通的字符處理。有位置,也會(huì)被 MASK,這樣編碼時(shí)就需要注意詞的邊界,而不是簡(jiǎn)單地填充,MASK 預(yù)測(cè)任務(wù)變得更有挑戰(zhàn)(預(yù)測(cè)需要更好地理解單詞邊界)。這樣,模型依然是字符級(jí)別的,但它知道了單詞的邊界(因?yàn)閱卧~的信息是顯式給出的)。

替換詞檢測(cè)

具體而言,當(dāng)一個(gè)詞被替換成混淆詞,標(biāo)記應(yīng)該做出「被替換」的預(yù)測(cè),標(biāo)簽為 False,否則為 True。

該損失函數(shù)會(huì)和 MLM 的損失函數(shù)加在一起作為多任務(wù)訓(xùn)練過(guò)程?;煜~來(lái)自同義詞或讀音相似的詞,通過(guò)這個(gè)任務(wù),標(biāo)記可以對(duì)上下文中的單詞跨度更敏感。使用 POS 做標(biāo)記的模型稱為 MarkBERT-POS。

預(yù)訓(xùn)練

MASK 的比例依然是 15%,30% 的時(shí)間不插入任何標(biāo)記(原始的 BERT);50% 的時(shí)間執(zhí)行 WWM 預(yù)測(cè)任務(wù);其余時(shí)間執(zhí)行 MLM 預(yù)測(cè)任務(wù)。

在插入標(biāo)記中,30% 的時(shí)間將詞替換為基于讀音的混淆詞或基于同義詞的混淆詞,標(biāo)記預(yù)測(cè)讀音混淆標(biāo)記或同義詞混淆標(biāo)記;其他時(shí)間標(biāo)記預(yù)測(cè)正常單詞標(biāo)記。為了避免不平衡標(biāo)簽,只計(jì)算正常標(biāo)記上 15% 的損失。

實(shí)驗(yàn)

在 NER 任務(wù)上的效果如下表所示:

f662f6d8-026d-11ed-ba43-dac502259ad0.jpg

可以看到,效果提升還是很明顯的。

在三個(gè)任務(wù)上做了消融實(shí)驗(yàn):

MarkBERT-MLM:只有 MLM 任務(wù)

MarkBERT-rwd:在替換詞檢測(cè)時(shí),分別移除近音詞或同義詞

MarkBERT-w/o:在下游任務(wù)微調(diào)時(shí)去掉 Marker(和原始 BERT 一樣用法)

結(jié)果如下表所示:

f68f8ba8-026d-11ed-ba43-dac502259ad0.jpg

結(jié)論如下:

MarkBERT-MLM 在 NER 任務(wù)中獲得顯著提升,說(shuō)明單詞邊界信息在細(xì)粒度任務(wù)中很重要。

不插入標(biāo)記,MarkBERT-w/o 也達(dá)到了和 baseline 相近的效果,說(shuō)明 MarkBERT 可以像 BERT 一樣使用。

對(duì) NER 任務(wù)來(lái)說(shuō),插入標(biāo)記依然重要,表明 MarkBERT 結(jié)構(gòu)在學(xué)習(xí)需要這種細(xì)粒度表示的任務(wù)的單詞邊界方面是有效的。

討論

已有的中文 BERT 融入詞信息有兩個(gè)方面的策略:

在預(yù)訓(xùn)練階段使用詞信息,但在下游任務(wù)上使用字符序列,如 Chinese-BERT-WWM,Lattice-BERT。

在下游任務(wù)中使用預(yù)訓(xùn)練模型時(shí)使用單詞信息,如 WoBERT,AmBERT,Lichee。

另外在與實(shí)體相關(guān)的 NLU 任務(wù),特別是關(guān)系分類中有探討插入標(biāo)記的想法。給定一個(gè)主語(yǔ)實(shí)體和賓語(yǔ)實(shí)體,現(xiàn)有工作注入非類型標(biāo)記或?qū)嶓w特定標(biāo)記,并對(duì)實(shí)體之間的關(guān)系做出更好的預(yù)測(cè)。

f6a46f64-026d-11ed-ba43-dac502259ad0.jpg

這篇論文當(dāng)時(shí)刷到時(shí)覺得真心不錯(cuò),方法很簡(jiǎn)單但很巧妙,一下子解決了中文預(yù)訓(xùn)練模型「詞」的處理,非常方便地就可以引入詞級(jí)別的任務(wù),以及豐富的詞語(yǔ)義。其實(shí),我們甚至可以只針對(duì)「部分感興趣的詞」添加標(biāo)記,剩下的依然按字處理。

本文參考資料

[1]

MarkBERT: Marking Word Boundaries Improves Chinese BERT: https://arxiv.org/abs/2203.06378

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1041

    瀏覽量

    57163
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3835

    瀏覽量

    52293

原文標(biāo)題:MarkBERT:巧妙地將詞的邊界標(biāo)記信息融入模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    纖納光電亮相2050大會(huì)AI Token

    近日,2050大會(huì)在杭州云棲小鎮(zhèn)開幕。浙江省新生代企業(yè)家聯(lián)誼會(huì)、浙江省之江發(fā)展基金會(huì)聯(lián)合召集的“AI Token 秀”活動(dòng)現(xiàn)場(chǎng),科學(xué)家與企業(yè)家以主旨演講、跨界圓桌等方式,共同探討AI Token經(jīng)濟(jì)從概念走向產(chǎn)業(yè)落地的可能。
    的頭像 發(fā)表于 05-06 16:54 ?411次閱讀

    能夠降低每Token成本的因素有哪些

    傳統(tǒng)數(shù)據(jù)中心過(guò)去主要用于數(shù)據(jù)的存儲(chǔ)、檢索與處理。但在生成式 AI 與代理式 AI 時(shí)代,這些設(shè)施已演變?yōu)?AI Token 工廠。隨著 AI 推理成為其核心工作負(fù)載,它們的主要產(chǎn)出已轉(zhuǎn)變?yōu)橐?Token 形式制造的智能。
    的頭像 發(fā)表于 04-27 15:45 ?651次閱讀
    能夠降低每<b class='flag-5'>Token</b>成本的因素有哪些

    抖音關(guān)鍵搜索視頻的接口文檔

    :client_token(應(yīng)用級(jí)授權(quán),無(wú)需用戶) 二、請(qǐng)求頭(Header) http ? access-token: {的 client_token}Content-Type:
    的頭像 發(fā)表于 04-14 13:40 ?290次閱讀

    抖音關(guān)鍵搜索,視頻詳情api

    Scope: aweme.dy.video_search_v2 需申請(qǐng)「 抖音視頻垂搜 」權(quán)限抖音開放平臺(tái) 請(qǐng)求頭 http ? access-token: {的client_token
    的頭像 發(fā)表于 04-13 17:16 ?847次閱讀

    Token工廠加速兌現(xiàn)!迅策攜手國(guó)家級(jí)數(shù)據(jù)交易所,深化垂類Token開發(fā)

    年4月13日 /美通社/ -- 4月12日,深圳迅策科技股份有限公司(3317.HK)與深圳數(shù)據(jù)交易所簽署戰(zhàn)略合作協(xié)議。Token經(jīng)濟(jì)從概念走向爆發(fā)的臨界點(diǎn)上,這份協(xié)議的落定,無(wú)疑釋放了一個(gè)清晰
    的頭像 發(fā)表于 04-13 16:26 ?227次閱讀
    <b class='flag-5'>Token</b>工廠加速兌現(xiàn)!迅策攜手國(guó)家級(jí)數(shù)據(jù)交易所,深化垂類<b class='flag-5'>Token</b>開發(fā)

    尋找對(duì)RISCV眾核并行計(jì)算感興趣的伙伴、朋友

    感興趣或有實(shí)際需要,此項(xiàng)目有開源版本,回帖不及時(shí),最好聯(lián)系18626199927(VX及Phone)/win32c@sina.com,歡迎交流。
    發(fā)表于 03-28 14:41

    尋找對(duì)RISCV眾核并行計(jì)算感興趣的伙伴

    感興趣或有實(shí)際需要,此項(xiàng)目有開源版本,回帖不及時(shí),最好聯(lián)系18626199927(VX及Phone)/win32c@sina.com,歡迎交流。
    發(fā)表于 03-28 14:37

    芯盾時(shí)代助企業(yè)破解智能體Token失控難題

    2026年,隨著OpenClaw等自主智能體(Agent)技術(shù)的爆發(fā),企業(yè)AI應(yīng)用正經(jīng)歷從“對(duì)話問答”到“自主執(zhí)行”的躍遷。為了占得智能體應(yīng)用先機(jī),企業(yè)紛紛給員工下發(fā)Token額度、鼓勵(lì)全員“養(yǎng)龍蝦”。一時(shí)之間,Token成為企業(yè)
    的頭像 發(fā)表于 03-28 13:40 ?1085次閱讀

    Token中文新譯名:「符元」——一文七個(gè)維度講清Token的本質(zhì)定義

    拒絕“智元”走私語(yǔ)義,七維拆解 Token 物理本質(zhì),定義 AI 時(shí)代唯一真名:「符元」。
    的頭像 發(fā)表于 03-27 15:23 ?796次閱讀
    <b class='flag-5'>Token</b>中文新譯名:「符元」——一文七個(gè)維度講清<b class='flag-5'>Token</b>的本質(zhì)定義

    軟通動(dòng)力打造“算力基建+睿動(dòng)Token經(jīng)濟(jì)+OpenClaw”的算力運(yùn)營(yíng)新體系

    認(rèn)知,以“本地優(yōu)先+強(qiáng)執(zhí)行+零門檻”三大核心優(yōu)勢(shì),重構(gòu)個(gè)人與企業(yè)的效率邊界,主打“真正能做事的AI”,堪稱2026年最值得入手的AI數(shù)字員工工具。在此背景下,軟通動(dòng)力率先打破產(chǎn)業(yè)壁壘,將算力基礎(chǔ)設(shè)施、Token經(jīng)濟(jì)與OpenClaw(小龍蝦)智能體框架深度融合,創(chuàng)新推出“
    的頭像 發(fā)表于 03-06 14:13 ?866次閱讀

    XMOS推出專為嵌入式語(yǔ)音交互功能開發(fā)提供全新線上選型指南

    該選型指南現(xiàn)已正式上線,感興趣的工程師即刻可用。
    的頭像 發(fā)表于 02-14 21:07 ?6924次閱讀
    XMOS推出專為嵌入式語(yǔ)音交互功能開發(fā)提供全新線上選型指南

    11 月的 KiCon Asia 前開發(fā)者希望了解下中國(guó)用戶最感興趣的功能、需求

    “ ? 11 月的 KiCon Asia 前開發(fā)者希望了解下中國(guó)用戶最感興趣的功能、需求。大家可以把自己的想法填在這個(gè)文檔中(或點(diǎn)擊閱讀原文): https://docs.qq.com/sheet
    的頭像 發(fā)表于 10-24 11:20 ?781次閱讀

    薄膜電容的關(guān)鍵是什么知道嗎?

    薄膜電容是一種以金屬箔作為電極,以聚乙酯、聚丙烯、聚苯乙烯等塑料薄膜作為電介質(zhì)的電容器,電子電路中具有重要作用。薄膜電容有哪些關(guān)鍵知道嗎?
    的頭像 發(fā)表于 10-13 15:30 ?684次閱讀
    薄膜電容的關(guān)鍵<b class='flag-5'>詞</b>是什么<b class='flag-5'>你</b>知道嗎?

    自行車無(wú)線電子變速系統(tǒng)

    感興趣的各位工程朋友可以電話或留言! 15671137831蘇先生
    發(fā)表于 06-10 19:28
    綦江县| 汪清县| 侯马市| 军事| 萝北县| 石棉县| 乌兰察布市| 广西| 遵化市| 根河市| 绿春县| 越西县| 乐平市| 元江| 尚志市| 保靖县| 克什克腾旗| 长寿区| 潜江市| 萍乡市| 永兴县| 仁寿县| 德惠市| 上蔡县| 闵行区| 杭锦旗| 太保市| 平武县| 本溪| 铅山县| 潜江市| 新乡县| 承德市| 内黄县| 莆田市| 绍兴市| 永胜县| 临武县| 高要市| 开远市| 阿克|