日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

統(tǒng)一的文本到結(jié)構(gòu)生成框架——UIE

深度學(xué)習(xí)自然語言處理 ? 來源:高能AI ? 作者:JayJay ? 2022-04-13 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言:信息抽取終于走到了這一步:邁入大一統(tǒng)時代!

今天為大家介紹一篇好基友 @陸博士 的ACL22論文《Unified Structure Generation for Universal Information Extraction》,這也是中科院和百度聯(lián)合發(fā)布的1篇信息抽取統(tǒng)一建模工作UIE。

UIE官方鏈接:https://universal-ie.github.io

本文的組織架構(gòu)為:

9a3521ca-ba87-11ec-aa7f-dac502259ad0.png

1.統(tǒng)一建模是IE發(fā)展的必然趨勢

眾所周知,信息抽取(IE)是一個從文本到結(jié)構(gòu)的轉(zhuǎn)換過程。常見的實體、關(guān)系、事件分別采取Span、Triplet、Record形式的異構(gòu)結(jié)構(gòu)。

曾幾何時,當(dāng)我們面對各種復(fù)雜多樣的IE任務(wù),我們總會造各式各樣IE模型的輪子,來滿足不同復(fù)雜任務(wù)的多變需求。

9a445d5c-ba87-11ec-aa7f-dac502259ad0.png

如上圖所示:由于多樣的抽取目標(biāo)、相異的復(fù)雜結(jié)構(gòu)、多變的領(lǐng)域需求時,導(dǎo)致信息抽取模型一直難以實現(xiàn)統(tǒng)一建模,極大限制了IE系統(tǒng)高效架構(gòu)開發(fā)、有效知識共享、快速跨域適配。

比如,一個真實的情況是:針對不同任務(wù)設(shè)定,需要針對特定領(lǐng)域schema建模,不同IE模型被單個訓(xùn)練、不共享,一個公司可能需要管理眾多IE模型。

9a5733a0-ba87-11ec-aa7f-dac502259ad0.png

當(dāng)我們每次造不同IE輪子的時候,都要喝下不同的肥宅快樂水,撩以解憂(這不是個玩笑)

不過,在生成式統(tǒng)一建模各類NLP任務(wù)的今天,信息抽取統(tǒng)一建模也成為可能。

不久前,JayJay在《信息抽取的"第二范式"》一文中指出:生成式統(tǒng)一建模,或許是信息抽取領(lǐng)域正在發(fā)生的一場“深刻變革”。

因此:開發(fā)通用的IE結(jié)構(gòu)是大有裨益的,可以統(tǒng)一建模不同的IE任務(wù),從各種資源中自適應(yīng)預(yù)測異構(gòu)結(jié)構(gòu)??傊航y(tǒng)一、通用的IE勢不可擋!

這篇ACL2022論文,@陸博士提出了一個面向信息抽取的統(tǒng)一文本到結(jié)構(gòu)生成框架UIE,它可以:

統(tǒng)一地建模不同的IE任務(wù);

自適應(yīng)地生成目標(biāo)結(jié)構(gòu);

從不同的知識來源統(tǒng)一學(xué)習(xí)通用的信息抽取能力。

9a734e1e-ba87-11ec-aa7f-dac502259ad0.png

具體來說,UIE:

通過結(jié)構(gòu)化抽取語言對不同的信息抽取目標(biāo)結(jié)構(gòu)進行統(tǒng)一編碼;

通過結(jié)構(gòu)化模式提示器自適應(yīng)生成目標(biāo)結(jié)構(gòu);

通過大規(guī)模結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)進行模型預(yù)訓(xùn)練捕獲常見的IE能力;

實驗結(jié)果表明,本文提出的統(tǒng)一生成框架,基于T5模型進行了IE預(yù)訓(xùn)練,在實體、關(guān)系、事件和情感等4個信息抽取任務(wù)、13個數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下均取得了SOTA性能。

接下來,我們將具體介紹UIE是如何統(tǒng)一建模的,以及具體是如何預(yù)訓(xùn)練的?

2. UIE統(tǒng)一建模方式:文本到結(jié)構(gòu)生成

信息抽取任務(wù)可以表述為“文本到結(jié)構(gòu)”的問題,不同的IE任務(wù)對應(yīng)不同的結(jié)構(gòu)。

UIE旨在通過單一框架統(tǒng)一建模不同IE任務(wù)的文本到結(jié)構(gòu)的轉(zhuǎn)換,也就是:不同的結(jié)構(gòu)轉(zhuǎn)換共享模型中相同的底層操作和不同的轉(zhuǎn)換能力。

這里主要有兩個挑戰(zhàn):

IE任務(wù)的多樣性,需要提取許多不同的目標(biāo)結(jié)構(gòu),如實體、關(guān)系、事件等;

IE任務(wù)是通常是使用不同模式定義的特定需求(不同schema),需要自適應(yīng)地控制提取過程;

因此,針對上述挑戰(zhàn),需要:

設(shè)計結(jié)構(gòu)化抽取語言(SEL,Structured Extraction Language)來統(tǒng)一編碼異構(gòu)提取結(jié)構(gòu),即編碼實體、關(guān)系、事件統(tǒng)一表示。

構(gòu)建結(jié)構(gòu)化模式提示器(SSI,Structural Schema Instructor),一個基于schema的prompt機制,用于控制不同的生成需求。

9a824c7a-ba87-11ec-aa7f-dac502259ad0.png

上圖展示了UIE的整體框架,整體架構(gòu)就是:SSI + Text -> SEL

一句話簡單概括就是:SSI就是輸入特定抽取任務(wù)的schema,SEL就是把不同任務(wù)的抽取結(jié)果統(tǒng)一用1種語言表示。

1)SEL:結(jié)構(gòu)化抽取語言

不同的IE任務(wù)可以分解為2個原子操作:

Spotting:找出Spot Name對應(yīng)的Info Span,如某個實體或Trigger觸發(fā)詞;

Associating:找出Asso Name對應(yīng)的Info Span,鏈接Info Span片段間的關(guān)系:如兩個實體pair的關(guān)系、論元和觸發(fā)詞間的關(guān)系;

9a92ccb2-ba87-11ec-aa7f-dac502259ad0.png

如上圖(a)所示:SEL語言可以統(tǒng)一用(Spot Name:Info Span(Asso Name:Info Span)(Asso Name:Info Span)...)形式表示,具體地:

Spot Name:Spotting操作的Info Span的類別信息,如實體類型;

Asso Name: Associating操作的Info Span的類別信息,如關(guān)系類型、關(guān)系類型;

Info Span:Spotting或Associating操作相關(guān)的文本Span;

如上圖(b)所示:

藍色部分代表關(guān)系任務(wù):person為實體類型Spot Name,work for為關(guān)系類型Asso Name;

紅色部分代表事件任務(wù):start-position為事件類型Spot Name,employee為論元類型Asso Name;

黑色部分代表實體任務(wù):organization和time為實體類型Spot Name;

9aa69562-ba87-11ec-aa7f-dac502259ad0.png

上圖給出一個中文case:考察事件 為事件類型Spot Name,主角/時間/地點 為論元類型Asso Name。

2)SSI:結(jié)構(gòu)化模式提示器

SSI的本質(zhì)一個基于schema的prompt機制,用于控制不同的生成需求:在Text前拼接上相應(yīng)的Schema Prompt,輸出相應(yīng)的SEL結(jié)構(gòu)語言。

不同任務(wù)的的形式是:

實體抽取:[spot] 實體類別 [text]

關(guān)系抽?。篬spot] 實體類別 [asso] 關(guān)系類別 [text]

事件抽取:[spot] 事件類別 [asso] 論元類別 [text]

觀點抽?。篬spot] 評價維度 [asso] 觀點類別 [text]

下圖給出了不同任務(wù)數(shù)據(jù)集的SSI形式:

9ab8c76e-ba87-11ec-aa7f-dac502259ad0.png

3. UIE預(yù)訓(xùn)練和微調(diào)方式

本小節(jié),我們將介紹:

1)Pre-train:如何預(yù)訓(xùn)練一個大規(guī)模的UIE模型,來捕獲不同IE任務(wù)間的通用IE能力?

2)Finetune:如何通過快速的Finetune使UIE適應(yīng)不同設(shè)置下的不同 IE 任務(wù)。

1)Pre-train:大規(guī)模異構(gòu)監(jiān)督預(yù)訓(xùn)練

UIE預(yù)訓(xùn)練語料主要來自Wikipedia、Wikidata和ConceptNet,構(gòu)建了3種預(yù)訓(xùn)練數(shù)據(jù):

D_pair: 通過Wikipedia對齊Wikidata,構(gòu)建text-to-struct的平行語料:(SSI,Text,SEL)

D_record: 構(gòu)造只包含SEL語法結(jié)構(gòu)化record數(shù)據(jù):(None,None,SEL)

D_text: 構(gòu)造無結(jié)構(gòu)的原始文本數(shù)據(jù):(None,Text',Text'')

針對上述數(shù)據(jù),分別構(gòu)造3種預(yù)訓(xùn)練任務(wù),將大規(guī)模異構(gòu)數(shù)據(jù)整合到一起進行預(yù)訓(xùn)練:

Text-to-Structure Pre-training:為了構(gòu)建基礎(chǔ)的文本到結(jié)構(gòu)的映射能力,對平行語料D_pair訓(xùn)練,同時構(gòu)建負(fù)樣本作為噪聲訓(xùn)練(引入negative schema)。

Structure Generation Pre-training:為了具備SEL語言的結(jié)構(gòu)化能力,對D_pair數(shù)據(jù)只訓(xùn)練 UIE 的 decoder 部分。

Retrofitting Semantic Representation:為了具備基礎(chǔ)的語義編碼能力,對D_text數(shù)據(jù)進行 span corruption訓(xùn)練。

最終的預(yù)訓(xùn)練目標(biāo),包含以上3部分;

9ad236e0-ba87-11ec-aa7f-dac502259ad0.png

2)Finetune:拒識噪聲注入的模型微調(diào)機制

為了解決自回歸Teacher-forcing的暴露偏差,構(gòu)建了拒識噪聲注入的模型微調(diào)機制:隨機采樣SEL中不存在的SpotName類別和AssoName類別,即:(SPOTNAME, [NULL]) 和 (ASSONAME, [NULL]),學(xué)會拒絕生成錯誤結(jié)果的能力,如下圖所示:

9ae1a72e-ba87-11ec-aa7f-dac502259ad0.png

4. UIE主要實驗結(jié)論

1)全監(jiān)督實驗

9af08410-ba87-11ec-aa7f-dac502259ad0.png

如上圖所示,SEL代表未經(jīng)預(yù)訓(xùn)練的UIE模型??梢钥闯觯?/p>

1、在4類信息抽取任務(wù)、13個數(shù)據(jù)集、7大領(lǐng)域的IE任務(wù)上,UIE達到了SOTA性能;

2、對比SEL和UIE結(jié)果:異構(gòu)監(jiān)督預(yù)訓(xùn)練顯著地提升了 UIE 的通用信息抽取能力,具有更好的跨任務(wù)遷移能力;

2)少樣本實驗

9b07210c-ba87-11ec-aa7f-dac502259ad0.png

少樣本實驗可以發(fā)現(xiàn):

1、大規(guī)模異構(gòu)監(jiān)督預(yù)訓(xùn)練可以學(xué)習(xí)通用的信息抽取能力,使模型具有更好小樣本學(xué)習(xí)能力。

2、當(dāng)去掉SSI結(jié)構(gòu)化模式提示器后,發(fā)現(xiàn)指標(biāo)下降,因此:結(jié)構(gòu)化抽取指令具有更好的定向遷移的能力。

3)消融實驗

9b262d9a-ba87-11ec-aa7f-dac502259ad0.png

上述消融實驗表明:基于拒識噪聲注入的模型微調(diào)機制可以有效緩解自回歸生成過程中的暴露偏差問題。

總結(jié)與展望

本文介紹了一個統(tǒng)一的文本到結(jié)構(gòu)生成框架——UIE,可以通用建模不同的IE任務(wù),自適應(yīng)生成有針對性的結(jié)構(gòu),從不同的知識來源統(tǒng)一學(xué)習(xí)通用的信息抽取能力。

實驗結(jié)果表明UIE實現(xiàn)了在監(jiān)督和低資源下的SOTA性能,同時驗證了其普遍性、有效性和可轉(zhuǎn)移性。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    324

    瀏覽量

    63498
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    120

    瀏覽量

    17923

原文標(biāo)題:信息抽取大一統(tǒng):百度中科院發(fā)布通用抽取模型UIE,刷新13個IE數(shù)據(jù)集SOTA!

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    TomTom推出面向ADAS的統(tǒng)一限速數(shù)據(jù)服務(wù)

    作為地圖與定位技術(shù)領(lǐng)域的專家TomTom (TOM2),宣布推出統(tǒng)一限速服務(wù)(Unified Speed Restrictions)。該服務(wù)旨在提供更及時、更精準(zhǔn)的道路限速信息,專為支持全球監(jiān)管框架和下代高級駕駛輔助系統(tǒng)(AD
    的頭像 發(fā)表于 04-28 09:16 ?408次閱讀

    為什么國產(chǎn)MCU的工程生態(tài)很難統(tǒng)一?

    背景 國產(chǎn) MCU 種類多、廠商眾多,生態(tài)碎片化明顯。 主要原因 廠商 SDK 不統(tǒng)一 :API、驅(qū)動結(jié)構(gòu)差異大 開發(fā)工具閉源 :無法統(tǒng)一配置流程 工程模板缺失 :初始化步驟、外設(shè)配置不
    發(fā)表于 01-28 09:25

    京東零售廣告創(chuàng)意:統(tǒng)一的布局生成和評估模型

    至關(guān)重要的作用。當(dāng)前的布局生成方法在能力上具有任務(wù)特定性,并且評估標(biāo)準(zhǔn)與人類感知不致,導(dǎo)致其應(yīng)用范圍有限且評估效果不佳。為了解決這些問題,Uni-Layout實現(xiàn)了統(tǒng)一生成、模擬人類的評估以及二者之間的對齊。針對通用
    的頭像 發(fā)表于 01-13 16:18 ?1205次閱讀
    京東零售廣告創(chuàng)意:<b class='flag-5'>統(tǒng)一</b>的布局<b class='flag-5'>生成</b>和評估模型

    重構(gòu)電子系統(tǒng)抗擾設(shè)計的統(tǒng)一理論框架——從關(guān)聯(lián)認(rèn)知正向設(shè)計

    行業(yè)圖譜EMC保護方案大全國外品牌替代表EMC行業(yè)標(biāo)準(zhǔn)雷卯實驗室免費測試?yán)酌a(chǎn)品規(guī)格書講解請點擊以上內(nèi)容了解更多摘要:本文提出種基于多物理場關(guān)聯(lián)性的統(tǒng)一理論框架,旨在從根本上解決靜電放電(ESD
    的頭像 發(fā)表于 01-06 14:53 ?341次閱讀
    重構(gòu)電子系統(tǒng)抗擾設(shè)計的<b class='flag-5'>統(tǒng)一</b>理論<b class='flag-5'>框架</b>——從關(guān)聯(lián)認(rèn)知<b class='flag-5'>到</b>正向設(shè)計

    半導(dǎo)體封裝框架的外部結(jié)構(gòu)設(shè)計

    封裝框架的外部結(jié)構(gòu)設(shè)計,核心包含聯(lián)筋(Dambar)與假腳(False leads)兩大關(guān)鍵部分,以下將針對各設(shè)計要素及技術(shù)要求展開詳細(xì)說明。
    的頭像 發(fā)表于 12-26 15:03 ?968次閱讀
    半導(dǎo)體封裝<b class='flag-5'>框架</b>的外部<b class='flag-5'>結(jié)構(gòu)</b>設(shè)計

    萬里紅文本生成算法通過國家網(wǎng)信辦備案

    近日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布了第十四批深度合成服務(wù)算法備案信息,北京萬里紅科技有限公司(以下簡稱:萬里紅)自主研發(fā)的“萬里紅文本生成算法”正式通過備案。該算法致力于通過自動化的方式,提升知識問答、RAG分類、預(yù)測、文檔生成的準(zhǔn)確率,確保信息的安全性和合規(guī)性,為用戶提供及
    的頭像 發(fā)表于 11-14 09:06 ?842次閱讀

    請問STM32如何移植Audio框架?

    最近在學(xué)習(xí)音頻解碼,想用下Audio框架。 1、這個該如何移植自己創(chuàng)建的BSP并對接到device框架中?看了官方移植文檔沒有對沒有對該部分的描述。 2、我只想實現(xiàn)
    發(fā)表于 09-25 07:17

    Copilot操作指南():使用圖片生成原理圖符號、PCB封裝

    “ ?上周推出支持圖片生成模型的華秋發(fā)行版之后,得到了很多小伙伴的肯定。但看到更多的回復(fù)是:為什么我的 Copilot 無法生成符號?只有普通的文本回復(fù)?今天就為大家詳細(xì)講解下圖片生成
    的頭像 發(fā)表于 07-15 11:14 ?5369次閱讀
    Copilot操作指南(<b class='flag-5'>一</b>):使用圖片<b class='flag-5'>生成</b>原理圖符號、PCB封裝

    種基于擴散模型的視頻生成框架RoboTransfer

    在機器人操作領(lǐng)域,模仿學(xué)習(xí)是推動具身智能發(fā)展的關(guān)鍵路徑,但高度依賴大規(guī)模、高質(zhì)量的真實演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬現(xiàn)實”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。
    的頭像 發(fā)表于 07-09 14:02 ?964次閱讀
    <b class='flag-5'>一</b>種基于擴散模型的視頻<b class='flag-5'>生成</b><b class='flag-5'>框架</b>RoboTransfer

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明

    檢查結(jié)果為“通過”或?qū)徍藸顟B(tài)為“審核通過”。 那么對于這個問題,我也是嘗試去解決……這里分享下我了解的情況和方法 首先,這個政策雖然說是針對AI文本生成模塊,但實際上,針對的是所有調(diào)用了AI大模型
    發(fā)表于 06-30 18:37

    邊緣生成式AI面臨哪些工程挑戰(zhàn)?

    本文由TechSugar編譯自electronicdesign當(dāng)大多數(shù)人想到人工智能(AI)時,他們通常能想到的是能夠生成文本、圖像或語音內(nèi)容的應(yīng)用。像ChatGPT這樣流行的文本應(yīng)用(在幾天
    的頭像 發(fā)表于 06-25 10:44 ?1345次閱讀
    邊緣<b class='flag-5'>生成</b>式AI面臨哪些工程挑戰(zhàn)?

    無法使用OpenVINO?在 GPU 設(shè)備上運行穩(wěn)定擴散文本圖像的原因?

    在OpenVINO? GPU 設(shè)備上使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    ArkUI-X應(yīng)用工程結(jié)構(gòu)說明

    )并可以部署相應(yīng)的OS平臺,降低跨平臺應(yīng)用開發(fā)成本。 應(yīng)用工程目錄結(jié)構(gòu)介紹 跨平臺應(yīng)用工程目錄結(jié)構(gòu)說明 以IDE創(chuàng)建的模板工程【ArkUI-X】Empty Ability舉例,包含
    發(fā)表于 06-19 23:11

    生成式人工智能認(rèn)證:重構(gòu)AI時代的人才培養(yǎng)與職業(yè)躍遷路徑

    ,恰似座連接技術(shù)前沿與個體成長的橋梁,既承載著時代對人才的迫切需求,也指向著未來職場的核心競爭力。 、技術(shù)革命的雙重性:賦能與失衡并存 生成式人工智能的突破性,在于其首次讓機器具備了“無中生有”的創(chuàng)造力。從
    的頭像 發(fā)表于 05-23 09:29 ?1018次閱讀

    PanDao:實際約束條件下成像系統(tǒng)的初始結(jié)構(gòu)生成

    的是,尋找合適的初始設(shè)計方案以進行后續(xù)適配與優(yōu)化,已經(jīng)被證明是項艱巨的工作。為避免這耗時流程,本次研究的目標(biāo)是從既定規(guī)格與約束條件中直接生成多種優(yōu)質(zhì)的初始結(jié)構(gòu)。此研究將會為光學(xué)設(shè)計
    發(fā)表于 05-07 08:57
    井研县| 赣榆县| 陆丰市| 盐边县| 拉萨市| 兴国县| 灵武市| 三台县| 舒城县| 江都市| 肥西县| 阿瓦提县| 阳高县| 隆德县| 齐河县| 新巴尔虎左旗| 正安县| 交城县| 衡阳县| 遂昌县| 乃东县| 大厂| 无为县| 泰州市| 肇东市| 湖北省| 怀集县| 西峡县| 泗水县| 寻乌县| 固镇县| 白沙| 堆龙德庆县| 华安县| 乐业县| 莆田市| 巴中市| 襄汾县| 深圳市| 宁津县| 自贡市|