日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

清華聯(lián)合阿里達(dá)摩院開發(fā)行業(yè)首個(gè)人工標(biāo)注的少樣本NER數(shù)據(jù)集

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:量子位 ? 作者:量子位 ? 2021-05-28 14:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NER(命名實(shí)體識(shí)別)作為NLP的一項(xiàng)基本任務(wù),其日常是訓(xùn)練人工智能(zhang)對(duì)一段文本中的專有名詞(人名、地名、機(jī)構(gòu)名等)進(jìn)行識(shí)別和分類。

翻譯成計(jì)算機(jī)語(yǔ)言,就是從一段非結(jié)構(gòu)化的自然語(yǔ)言中找到各種實(shí)體,并將其分為合適的類別。且避免出現(xiàn)“江大橋同志到底就任了多少年南京市長(zhǎng)”這樣的問題

但在數(shù)據(jù)缺乏,樣本不足的前提下,如何基于先驗(yàn)知識(shí)進(jìn)行分類和學(xué)習(xí),這就是目前NLPer面臨的一道難題——少樣本(Few-Shot)。

雖然已有越來越多針對(duì)少樣本NER的研究出現(xiàn)(比如預(yù)訓(xùn)練語(yǔ)言模型BERT),但仍沒有一個(gè)專屬數(shù)據(jù)集以供使用。

而現(xiàn)在,共包含來自維基百科的18萬條句子,49萬個(gè)實(shí)體和460萬標(biāo)注,并具有8個(gè)粗粒度(coarse-grained types)實(shí)體類型和66個(gè)細(xì)粒度(fine-grained types)實(shí)體類型的數(shù)據(jù)集來了。

這就是清華大學(xué)聯(lián)合阿里達(dá)摩院共同開發(fā)的,行業(yè)內(nèi)第一個(gè)人工標(biāo)注(human-annotated)的少樣本NER數(shù)據(jù)集,F(xiàn)EW-NERD。

什么樣的數(shù)據(jù)集?

對(duì)比句子數(shù)量、標(biāo)記數(shù)、實(shí)體類型等統(tǒng)計(jì)數(shù)據(jù),F(xiàn)EW-NERD比相關(guān)領(lǐng)域內(nèi)已有的NER數(shù)據(jù)集都要更大。

dae04584-be8d-11eb-9e57-12bb97331649.png

此外,它也是規(guī)模最大的人工標(biāo)注的數(shù)據(jù)集。

為實(shí)體命名常常需要聯(lián)系上下文,尤其是在實(shí)體類型很多時(shí),注解難度將大大增加。

而FEW-NERD的注釋來自70位擁有語(yǔ)言學(xué)知識(shí)的注釋者,以及10位經(jīng)驗(yàn)豐富的專家。

具體而言,每個(gè)段落會(huì)交由兩人獨(dú)立完成注釋,然后由專家審查,再對(duì)分批抽取數(shù)據(jù)進(jìn)行雙重檢查。這很好地保證了注釋的準(zhǔn)確性。

比如上述“London is the fifth album by the British rock band…”這句話中的實(shí)體“London”,就被準(zhǔn)確標(biāo)注成了“Art-Music”。

而在以段落為單位進(jìn)行標(biāo)注時(shí),因?yàn)闃颖玖坎⒉欢?,所以FEW-NERD數(shù)據(jù)的類別分布預(yù)計(jì)是相對(duì)平衡的,這也是它與以往NER數(shù)據(jù)集的一個(gè)關(guān)鍵區(qū)別。

并且在實(shí)踐中,大多數(shù)未見的實(shí)體類型都是細(xì)粒度的。而傳統(tǒng)的NER數(shù)據(jù)集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18個(gè)粗粒度的類型。

這就難以構(gòu)建足夠多的N元任務(wù)(N-way metatasks),并訓(xùn)練學(xué)習(xí)相關(guān)特征。

相比之下,F(xiàn)EW-NERD共包含了112個(gè)實(shí)體標(biāo)簽, 并具有8個(gè)粗粒度實(shí)體類型,和66個(gè)細(xì)粒度實(shí)體類型。

基準(zhǔn)的選擇

為了探索FEW-NERD所有實(shí)體類型之間的知識(shí)相關(guān)性(knowledge correlations),研究者進(jìn)行了實(shí)體類型相似性的實(shí)證研究。

從實(shí)驗(yàn)結(jié)果得知,相同粗粒度類型的實(shí)體類型具有較大的相似性,從而使知識(shí)遷移更加容易。

這啟發(fā)了研究者從知識(shí)遷移的角度進(jìn)行基準(zhǔn)設(shè)定。最終設(shè)置了三個(gè)基準(zhǔn):

FEW-NERD (SUP)
采用標(biāo)準(zhǔn)的監(jiān)督式NER設(shè)置,將70%的數(shù)據(jù)隨機(jī)分割為訓(xùn)練數(shù)據(jù),10%為驗(yàn)證數(shù)據(jù),20%為測(cè)試數(shù)據(jù)。

FEW-NERD(INTRA)
少樣本學(xué)習(xí)任務(wù),只包含粗粒度實(shí)體類型。

FEW-NRTD (INTER)
少樣本學(xué)習(xí)任務(wù),包含60%的細(xì)粒度類型,20%的細(xì)粒度類型。

實(shí)際的應(yīng)用

針對(duì)少樣本命名實(shí)體識(shí)別,F(xiàn)EW-NERD提供了一個(gè)同時(shí)包含粗粒度和細(xì)粒度,且統(tǒng)一基準(zhǔn)的大型數(shù)據(jù)集。

而作者也指出,由于精確的上下文標(biāo)注,F(xiàn)EW-NERD數(shù)據(jù)集不僅可以用于少樣本場(chǎng)景,在監(jiān)督學(xué)習(xí)、終身學(xué)習(xí)、開放信息抽取、實(shí)體分類等任務(wù)上也可以發(fā)揮作用。

此外,建立在FEW-NERD基礎(chǔ)上的模型和系統(tǒng),還能幫助構(gòu)建各個(gè)領(lǐng)域的知識(shí)圖譜(KGs),包括生物醫(yī)學(xué)、金融和法律領(lǐng)域,并進(jìn)一步促進(jìn)NLP在特定領(lǐng)域的應(yīng)用發(fā)展。

開發(fā)者還表示,將在未來增加跨域注釋、遠(yuǎn)距離注釋和更精細(xì)的實(shí)體類型來擴(kuò)展FEW-NERD。

原文標(biāo)題:ACL-IJCNLP 2021|行業(yè)首個(gè)少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7350

    瀏覽量

    95062
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50379

    瀏覽量

    267105

原文標(biāo)題:ACL-IJCNLP 2021|行業(yè)首個(gè)少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中國(guó)電信與阿里云共建粵港澳大灣區(qū)首個(gè)真武萬卡智算集群上線

    近日,由中國(guó)電信聯(lián)合阿里云建設(shè)的粵港澳大灣區(qū)首個(gè)真武萬卡智算集群在韶關(guān)數(shù)據(jù)中心正式上線。
    的頭像 發(fā)表于 04-15 10:47 ?497次閱讀

    IAR榮獲阿里巴巴達(dá)摩2026年度玄鐵優(yōu)選伙伴稱號(hào)

    3月24日,由阿里巴巴達(dá)摩主辦的2026玄鐵RISC-V生態(tài)大會(huì)在上海盛大舉行。作為全球RISC-V生態(tài)領(lǐng)域最具影響力的行業(yè)盛會(huì)之一,本屆大會(huì)匯聚了全球數(shù)百家頂尖產(chǎn)學(xué)研機(jī)構(gòu)與技術(shù)領(lǐng)袖
    的頭像 發(fā)表于 03-28 11:26 ?410次閱讀

    阿里巴巴達(dá)摩發(fā)布新一代旗艦CPU產(chǎn)品玄鐵C950

    3月24日,阿里巴巴達(dá)摩主辦的2026玄鐵RISC-V生態(tài)大會(huì)在上海舉行。
    的頭像 發(fā)表于 03-25 14:03 ?529次閱讀

    阿里最新消息 阿里達(dá)摩發(fā)布新型CPU 阿里國(guó)際在海外落地首個(gè)企業(yè)級(jí)Agent

    給大家?guī)韮蓚€(gè)阿里的最新消息: 阿里達(dá)摩發(fā)布新型CPU 據(jù)阿里達(dá)摩
    的頭像 發(fā)表于 03-24 18:08 ?3173次閱讀

    RISC-V創(chuàng)新中心聯(lián)合達(dá)摩玄鐵發(fā)布無劍芯片設(shè)計(jì)平臺(tái)定制版

    RISC-V開源芯片產(chǎn)業(yè)再迎新利好。今天(3月17日),在RISC-V創(chuàng)新中心玄鐵技術(shù)應(yīng)用交流會(huì)暨2026玄鐵生態(tài)大會(huì)巡講(蘇州站)活動(dòng)現(xiàn)場(chǎng),RISC-V創(chuàng)新中心聯(lián)合達(dá)摩玄鐵正式發(fā)布“無劍芯片
    的頭像 發(fā)表于 03-18 16:30 ?533次閱讀

    沐曦股份聯(lián)合清華大學(xué)發(fā)布磁性材料AI原子基座模型

    2月27日,沐曦股份聯(lián)合清華大學(xué)等多家研究機(jī)構(gòu)聯(lián)合發(fā)布了磁性材料AI原子基座模型。該模型是首個(gè)覆蓋寬溫壓域的磁性材料AI原子模型,經(jīng)權(quán)威專家鑒定,整體技術(shù)水平達(dá)到國(guó)際領(lǐng)先。
    的頭像 發(fā)表于 03-03 15:25 ?607次閱讀
    沐曦股份<b class='flag-5'>聯(lián)合</b><b class='flag-5'>清華</b>大學(xué)發(fā)布磁性材料AI原子基座模型

    新思科技HAPS-200助力阿里巴巴達(dá)摩加速玄鐵C930開發(fā)驗(yàn)證

    在AI驅(qū)動(dòng)的時(shí)代,驗(yàn)證不僅僅是功能正確,更要確保性能、功耗和軟件兼容性。HAPS-200的引入,助力達(dá)摩玄鐵團(tuán)隊(duì)能夠在設(shè)計(jì)早期完成系統(tǒng)級(jí)驗(yàn)證,顯著縮短上市時(shí)間,降低風(fēng)險(xiǎn),并推動(dòng)RISC-V生態(tài)加速成熟,開啟RISC-V高性能新時(shí)代。
    的頭像 發(fā)表于 11-18 11:12 ?1101次閱讀

    RISC-V創(chuàng)新中心與達(dá)摩合作簽約

    10月30日,RISC-V創(chuàng)新中心與達(dá)摩合作簽約暨創(chuàng)新發(fā)展交流會(huì)在蘇州市集成電路創(chuàng)新中心隆重舉行,來自全國(guó)各地的重點(diǎn)企業(yè)、科研機(jī)構(gòu)、行業(yè)協(xié)會(huì)、投資機(jī)構(gòu)等代表出席活動(dòng),共話RISC-V產(chǎn)業(yè)創(chuàng)新發(fā)展新圖景。
    的頭像 發(fā)表于 11-03 15:43 ?1055次閱讀

    標(biāo)貝科技參編《人工智能高質(zhì)量數(shù)據(jù)建設(shè)指南》

    人工智能邁入“數(shù)據(jù)驅(qū)動(dòng)”的關(guān)鍵發(fā)展階段,高質(zhì)量數(shù)據(jù)已成為突破技術(shù)瓶頸、推動(dòng)產(chǎn)業(yè)落地的核心引擎。日前,中國(guó)信息通信研究
    的頭像 發(fā)表于 09-11 17:19 ?1052次閱讀

    中國(guó)中車通過中國(guó)信通可信AI人工智能數(shù)據(jù)質(zhì)量四級(jí)評(píng)估

    2025年8月,中國(guó)中車集團(tuán)有限公司順利通過中國(guó)信通可信AI人工智能數(shù)據(jù)質(zhì)量4級(jí)評(píng)估,成為制造行業(yè)
    的頭像 發(fā)表于 08-22 17:02 ?1560次閱讀

    請(qǐng)問AICube所需的目標(biāo)檢測(cè)數(shù)據(jù)標(biāo)注可以使用什么工具?

    請(qǐng)問AICube所需的目標(biāo)檢測(cè)數(shù)據(jù)標(biāo)注可以使用什么工具? 我使用labelimg進(jìn)行標(biāo)注,標(biāo)注后的數(shù)據(jù)
    發(fā)表于 08-11 08:07

    阿里巴巴達(dá)摩劉志偉:QEMU RISC-V 的進(jìn)展、特性與未來規(guī)劃

    2025 年 7 月 18 日,在第五屆(2025)RISC-V 中國(guó)峰會(huì)的軟件與生態(tài)系統(tǒng)分論壇上,阿里巴巴達(dá)摩 RISC-V 及生態(tài)部技術(shù)專家劉志偉帶來了關(guān)于 QEMU RISC-V 的報(bào)告
    發(fā)表于 07-18 11:20 ?5883次閱讀
    <b class='flag-5'>阿里</b>巴巴<b class='flag-5'>達(dá)摩</b><b class='flag-5'>院</b>劉志偉:QEMU RISC-V 的進(jìn)展、特性與未來規(guī)劃

    什么是自動(dòng)駕駛數(shù)據(jù)標(biāo)注?如何好做數(shù)據(jù)標(biāo)注?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛系統(tǒng)的開發(fā)過程中,數(shù)據(jù)標(biāo)注是一項(xiàng)至關(guān)重要的工作。它不僅決定了模型訓(xùn)練的質(zhì)量,也直接影響了車輛感知、決策與控制的性能表現(xiàn)。隨著傳感器種類和數(shù)據(jù)量的
    的頭像 發(fā)表于 07-09 09:19 ?1728次閱讀
    什么是自動(dòng)駕駛<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>?如何好做<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>?

    全球首個(gè)胃癌影像篩查AI模型發(fā)布

    浙江省腫瘤醫(yī)院聯(lián)合阿里巴巴達(dá)摩,發(fā)布了全球首個(gè)胃癌影像篩查AI模型DAMO GRAPE,首次利用平掃CT影像識(shí)別早期胃癌病灶,并
    的頭像 發(fā)表于 06-30 14:37 ?4004次閱讀

    東軟集團(tuán)入選國(guó)家數(shù)據(jù)數(shù)據(jù)標(biāo)注優(yōu)秀案例

    近日,東軟飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺(tái)在國(guó)家數(shù)據(jù)局發(fā)布數(shù)據(jù)標(biāo)注優(yōu)秀案例名單中排名第一(案例名稱“多模態(tài)醫(yī)學(xué)影像智能
    的頭像 發(fā)表于 05-09 14:37 ?1471次閱讀
    灵石县| 哈巴河县| 宁国市| 理塘县| 盐津县| 定陶县| 仙游县| 黄龙县| 万年县| 会东县| 台北县| 金门县| 庆城县| 辛集市| 安图县| 卓资县| 西华县| 隆回县| 鄯善县| 江油市| 兴国县| 桦甸市| 台湾省| 珠海市| 调兵山市| 麻阳| 白朗县| 沛县| 六盘水市| 广德县| 灌阳县| 武义县| 湖北省| 昭苏县| 金沙县| 石棉县| 宾川县| 大冶市| 冀州市| 陆良县| 永康市|