日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知識圖譜與訓練模型相結合和命名實體識別的研究工作

深度學習自然語言處理 ? 來源:復旦DISC ? 作者:朱 琦 ? 2021-03-29 17:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本次將分享ICLR2021中的三篇投遞文章,涉及知識圖譜與訓練模型相結合和命名實體識別(NER)的研究工作。

文章概覽

知識圖譜和語言理解的聯(lián)合預訓練(JAKET: Joint Pre-training of Knowledge Graph and Language Understanding)。該論文提出了知識圖譜和文本的聯(lián)合訓練框架,通過將RoBERTa作為語言模型將上下文編碼信息傳遞給知識圖譜,同時借助圖注意力模型將知識圖譜的結構化信息反饋給語言模型,從而實現(xiàn)知識圖譜模型和語言模型的循環(huán)交替訓練,使得在知識圖譜指導下的預訓練模型能夠快速適應新領域知識。

語言模型是開放知識圖譜(Language Models are Open Knowledge Graphs)。該論文提出了能夠自動化構建知識圖譜的Match and Map(MAMA)模型,借助預先訓練好的語言模型中的注意力權重來提取語料中的實體間關系,并基于已有的schema框架自動化構建開放性知識圖譜。

命名實體識別中未標記實體問題的研究(Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition)。論文探究了未標注實體問題對NER實驗指標的影響,并提出了一種負采樣策略,通過改進損失函數(shù),將為標注實體當作負樣本訓練,從而極大改善了未標注實體問題對NER實驗指標的影響。

論文細節(jié)

1

論文動機

現(xiàn)有的將知識圖譜與預訓練模型相結合的研究工作還存在挑戰(zhàn):當預先訓練好的模型與新領域中的知識圖譜結合微調時,語言模型難以高效學習到結構化的實體關系語義信息。同時知識圖譜的理解推理能力也需要上下文的輔助。基于此,論文提出了一個聯(lián)合預訓練框架:JAKET,通過同時對知識圖譜和語言建模,實現(xiàn)兩個模型之間的信息互補和交替訓練。方法1. 知識模塊(Knowledge Module,KM)知識模塊主要是對知識圖譜進行建模,生成含有結構化信息的實體表示。采用圖注意力模型和組合算子思想來聚合實體嵌入和關系嵌入信息。在第L層的實體V的嵌入信息傳播公式為:

3bf5710c-8e8f-11eb-8b86-12bb97331649.png

考慮到計算過程中可能會出現(xiàn)的實體數(shù)爆炸問題,實驗采用了設置minibatch領域采樣的方法獲取多跳鄰居集合。2. 語言模塊(Language Module,LM)語言模塊主要是對文本建模,學習文本的嵌入表示。采用RoBERT-base作為預訓練模型。3.解決循環(huán)依賴問題(Solve the syclic dependency)由于LM和KM是互相傳遞信息的,訓練過程存在循環(huán)依賴問題,不便于后續(xù)計算優(yōu)化。論文提出了分解語言模型解決此問題,即將LM分解為LM1和LM2子模塊,將RoBERT的前6層和后6層分別作為LM1和LM2,實現(xiàn)LM1,KM和LM2的聯(lián)合訓練。整體框架如下圖所示。

3c6790e8-8e8f-11eb-8b86-12bb97331649.png

實驗結果論文在實體類別預測、關系類別預測、詞塊掩碼預測、實體掩碼預測4個任務上進行預訓練,并在小樣本關系分類、KGQA和實體分類這3個下游任務上進行實驗。實驗結果分別如下圖所示:

3ccab038-8e8f-11eb-8b86-12bb97331649.png

3d660b5a-8e8f-11eb-8b86-12bb97331649.png

由實驗結果可知,在3個任務中論文提出的JAKET都可以進一步提高性能,并且聯(lián)合預訓練可以有效減少模型對下游訓練數(shù)據的依賴。

2

3dd9f9c0-8e8f-11eb-8b86-12bb97331649.png

論文動機

知識圖譜的構建方法通常需要人工輔助參與,但是人力成本太高;

同時BERT等預訓練模型通常在非常大規(guī)模的語料上訓練,訓練好的模型本身包含常識知識,這些知識可以促進上層的其他應用。

所以本論文提出了一種無監(jiān)督的Match and Map(MAMA)模型,來將預訓練語言模型中包含的知識轉換為知識圖譜。

方法

1. 匹配(Match)

3e6ba8c0-8e8f-11eb-8b86-12bb97331649.png

Match階段主要是自動抽取三元組。對于輸入的文本,使用開源工具抽取出實體,并將實體兩兩配對為頭實體和尾實體,利用預訓練模型的注意力權重來提取實體對的關系。通過beam search的方法搜索多條從頭實體到尾實體的路徑,從而獲取多個候選的三元組。再通過設置一些限制規(guī)則過濾掉不符常理的三元組,即得到用于構建知識圖譜的三元組。

2. 映射(Map)

Map階段主要是將Match階段抽取到的三元組映射到知識圖譜中去。利用成熟的實體鏈接和關系映射技術,將三元組映射到已有的固定schema圖譜中。對于部分映射或完全不匹配的三元組,就構建開放schema的知識圖譜,并最后將這兩類知識圖譜融合,得到一個靈活的開放性知識圖譜。

整體框架如下:

3fadc286-8e8f-11eb-8b86-12bb97331649.png

論文中使用BERT-large對Wikipedia語料進行自動化構建知識圖譜,圖譜效果如下:

4008e7b0-8e8f-11eb-8b86-12bb97331649.png

實驗結果

論文在TAC KBP和Wikidata數(shù)據集上進行槽填充任務實驗。

在TAC KBP數(shù)據集上的結果如下表:

40ab57c0-8e8f-11eb-8b86-12bb97331649.png

基于TAC KBP數(shù)據集的實驗結果主要有兩點:一是MAMA模型能夠提升知識圖譜的槽填充效果;二是更大/更深的語言模型能夠抽取出更高質量的知識圖譜。

在Wikidata數(shù)據集上的結果如下表:

413cd6fa-8e8f-11eb-8b86-12bb97331649.png

基于Wikidata數(shù)據集的實驗結論一方面說明MAMA可擴展到更大的語料庫,另一方面說明MAMA能從更大規(guī)模的語料庫中抽取出更完整的知識圖譜。

3

41a55734-8e8f-11eb-8b86-12bb97331649.png

論文動機

實體未標注問題是命名實體識別(NER)任務中的常見問題,且該問題在實際情況中無法完全避免。既然無法徹底解決實體未標注問題,那么該問題是否會對NER模型產生影響呢?若產生較大影響,如何將這種消極影響盡量降低?

基于上述問題,論文分析了未標注實體問題對NER實驗指標的影響及其原因,并提出了一種具有魯棒性的負采樣策略,使得模型能夠保持在未標注實體概率極低的狀態(tài)下訓練,從而提升實體標注效果。

方法

1.合成數(shù)據集(Synthetic Datasets)

通過在標注完善的CoNLL-2003和OntoNotes5.0數(shù)據集按照一定概率隨機掩蓋標注出的實體,獲取人工合成的欠完善標注數(shù)據集。

2.衡量指標(Metrics)

文章中設計了侵蝕率(erosion rate)和誤導率(misguidance rate)2種指標來測算NER中未標注實體問題的影響。

侵蝕率代表實體標注量減少對NER指標下降的影響程度。

誤導率代表未標注實體對當作負樣本時對NER指標下降的影響程度。

3.負采樣(Negative Sampling)

文章采用負采樣的方式進行降噪,對所有的非實體進行負采樣,采樣負樣本進行損失函數(shù)的計算。改進后的損失函數(shù)如下所示:

41f444ca-8e8f-11eb-8b86-12bb97331649.png

其中前半部分表示標注實體集合的損失,后半部分則是負采樣實體集合的損失。文章的整體模型框架如下圖所示,總體就是BERT/LSTM編碼+softmax的思路。

427335d2-8e8f-11eb-8b86-12bb97331649.png

實驗結果

文章在合成數(shù)據集上進行NER任務實驗,分析未標注問題的影響和負采樣的訓練效果。

首先是分別基于CoNLL-2003和OntoNotes5.0合成數(shù)據集進行的實驗結果:

42ec9c38-8e8f-11eb-8b86-12bb97331649.png

4371e92e-8e8f-11eb-8b86-12bb97331649.png

由圖可知:隨著實體掩蓋概率p增大,即未標注實體數(shù)量增多,NER指標下降明顯;在p很低的時候,誤導率就較高了,而侵蝕率受影響較小,說明把未標注實體當作負樣本訓練、對NER指標下降的影響程度很大,實體標注量減少對指標下降的影響較小

其次將文章提出的負采樣訓練模型與其他SOTA模型分別在完全標注數(shù)據集和真實數(shù)據集上做對比,實驗結果如下:

44481878-8e8f-11eb-8b86-12bb97331649.png

結果表明本模型在完全標注數(shù)據集上的效果和其他模型相差不大,并且真實世界數(shù)據集上的效果遠優(yōu)于其他的模型,所以本文模型的綜合效果最好。

總結

此次解讀的三篇論文圍繞知識建模和信息抽取的研究點展開。感覺知識圖譜結合語言模型的相關研究的趨勢是嘗試使用同一套編碼系統(tǒng),同時對語言模型中的上下文信息和知識圖譜中的結構化語義信息進行編碼和訓練,從而實現(xiàn)知識融合或知識挖掘。此外,第三篇文章主要想給廣大做知識圖譜方向的研究者分享一個命名實體識別的技巧思路,當面對標注質量不那么高的數(shù)據集時,或許可以嘗試一下負采樣的方法。

以上就是Fudan DISC本期的論文分享內容,歡迎大家的批評和交流。

原文標題:【論文解讀】ICLR2021 知識建模與信息抽取

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3831

    瀏覽量

    52289
  • 深度學習
    +關注

    關注

    73

    文章

    5610

    瀏覽量

    124656

原文標題:【論文解讀】ICLR2021 知識建模與信息抽取

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI大模型微調企業(yè)項目實戰(zhàn)課

    實戰(zhàn)通常遵循嚴密的“三步走”戰(zhàn)略: 第一步:數(shù)據煉金——高質量SFT數(shù)據的構建 在微調領域,“垃圾進,垃圾出”是鐵律。實戰(zhàn)課的核心首先是教企業(yè)如何“洗數(shù)據”。這包括從內部ERP、OA系統(tǒng)、知識圖譜中提
    發(fā)表于 04-16 18:48

    人工智能多模態(tài)與視覺大模型開發(fā)實戰(zhàn) - 2026必會

    量和存儲空間,提高推理速度。 此外,還會介紹如何將視覺大模型與現(xiàn)有的系統(tǒng)進行集成,實現(xiàn)與其他模塊的協(xié)同工作。例如,在醫(yī)療影像分析系統(tǒng)中,將視覺大模型與醫(yī)院的電子病歷系統(tǒng)相結合,為醫(yī)生提
    發(fā)表于 04-15 16:06

    【瑞薩AI挑戰(zhàn)賽】手寫數(shù)字識別模型在RA8P1 Titan Board上的部署

    輕量級深度學習模型端側部署的優(yōu)質硬件平臺。本文將基于RA8P1 Titan Board開發(fā)板,結合ruhmi、RT-Thread Studio等工具,從開發(fā)環(huán)境搭建、手寫數(shù)字識別模型
    發(fā)表于 03-15 20:42

    實力認證!行云創(chuàng)新入圍《AI 中國生態(tài)圖譜 2025》大模型開放平臺板塊

    近日,中國電子信息產業(yè)發(fā)展研究院旗下權威 IT 創(chuàng)新媒體與專業(yè)市場研究機構賽迪網,正式發(fā)布 《AI 中國生態(tài)圖譜 2025》 。作為國內 AI 產業(yè)極具權威性與公信力的全景研判成果,該圖譜
    的頭像 發(fā)表于 03-04 14:25 ?377次閱讀
    實力認證!行云創(chuàng)新入圍《AI 中國生態(tài)<b class='flag-5'>圖譜</b> 2025》大<b class='flag-5'>模型</b>開放平臺板塊

    【上海晶珩睿莓 1 開發(fā)板試用體驗】車牌識別

    、關鍵代碼以及板端推理等相關流程。 項目介紹 準備工作:OpenCV 安裝、Ultralytics 軟件包安裝、預訓練模型下載等; 車牌識別:采用 LPRNet 算法及 ONNX
    發(fā)表于 01-02 20:53

    潤和軟件入選大模型一體機產業(yè)圖譜

    近日,由中國人工智能產業(yè)發(fā)展聯(lián)盟與中國信息通信研究院聯(lián)合編制的《大模型一體機產業(yè)圖譜》正式發(fā)布。該圖譜系統(tǒng)梳理并收錄了國內大模型一體機產業(yè)鏈
    的頭像 發(fā)表于 12-10 17:56 ?1744次閱讀
    潤和軟件入選大<b class='flag-5'>模型</b>一體機產業(yè)<b class='flag-5'>圖譜</b>

    如何精準驅動菜品識別模型--基于米爾瑞芯微RK3576邊緣計算盒

    本地,形成一個結構化且高效查詢的特征數(shù)據庫。 該設計的優(yōu)勢在于:用戶無需重新訓練龐大的深度學習模型,僅需提供數(shù)十張示例圖片,即可快速、靈活地擴充或修改系統(tǒng)所能識別的菜品庫,極大地提升了應用的實用性
    發(fā)表于 10-31 21:19

    在Ubuntu20.04系統(tǒng)中訓練神經網絡模型的一些經驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓練神經網絡模型的一些經驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數(shù)字
    發(fā)表于 10-22 07:03

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    ,使其與新知識兼容。 2、遷移學習 遷移學習只尋求利用特定領域的知識來幫助目標領域學習,利用在一個任務上訓練好的模型,來完成另一個相關的任務。應用遷移學習可以加速新的學習過程,因為新任
    發(fā)表于 09-14 14:04

    模板驅動 無需訓練數(shù)據 SmartDP解決小樣本AI算法模型開發(fā)難題

    算法作為軟實力,其水平直接影響著目標檢測識別的能力。兩年前,慧視光電推出了零基礎的基于yolo系列算法架構的AI算法開發(fā)平臺SpeedDP,此平臺能夠通過數(shù)據驅動模型訓練,實現(xiàn)算法從0到1的開發(fā)
    的頭像 發(fā)表于 09-09 17:57 ?1576次閱讀
    模板驅動  無需<b class='flag-5'>訓練</b>數(shù)據  SmartDP解決小樣本AI算法<b class='flag-5'>模型</b>開發(fā)難題

    EASY EAl Orin Nano(RK3576) whisper語音識別訓練部署教程

    Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統(tǒng)。Whisper作為一個通用的語音識別模型,它使用了大量的
    的頭像 發(fā)表于 07-17 14:55 ?2040次閱讀
    EASY EAl Orin Nano(RK3576) whisper語音<b class='flag-5'>識別</b><b class='flag-5'>訓練</b>部署教程

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    整合(多源融合、概念關聯(lián)、知識圖譜構建 )與邏輯推理(因果、數(shù)學、邏輯分析 ),支撐知識處理與推導 輔助決策 :通過方案規(guī)劃(任務分解、流程優(yōu)化、風險評估 )、建議生成(專業(yè)、個性化建議 )、數(shù)據
    發(fā)表于 07-17 11:59

    基于LockAI視覺識別模塊:C++人臉識別

    本文基于RV1106做成的LockAI視覺識別模塊,采用LZ-Picodet模型訓練的人臉檢測模型LZ-Face,以及ArcFace人臉識別
    的頭像 發(fā)表于 07-01 10:09 ?1107次閱讀
    基于LockAI視覺<b class='flag-5'>識別</b>模塊:C++人臉<b class='flag-5'>識別</b>

    訓練模型后用cls_video.py在canmvIDE上運行,按著步驟操作但是攝像頭沒有識別到是什么情況?

    訓練模型后用cls_video.py在canmvIDE上運行,按著步驟操作但是攝像頭沒有識別到是什么情況啊,沒有框出現(xiàn)
    發(fā)表于 06-10 06:57

    OCR識別訓練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄了26張圖片,都標注好了,點擊開始訓練,顯示訓練成功了,也將壓縮包發(fā)到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您多添加點,參考我們的ocr識別
    發(fā)表于 05-28 06:46
    澜沧| 遵义县| 新兴县| 四子王旗| 越西县| 靖西县| 新干县| 公安县| 河西区| 达孜县| 绍兴县| 阳高县| 新邵县| 临安市| 云梦县| 清水河县| 岳池县| 赤壁市| 榆社县| 兰考县| 石屏县| 县级市| 恩平市| 迁安市| 新乐市| 汉阴县| 喀喇沁旗| 垣曲县| 长治市| 松潘县| 西平县| 汕尾市| 兴化市| 施甸县| 巍山| 永顺县| 阳谷县| 高尔夫| 普兰县| 平乡县| 霍州市|