日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

KDD2020知識圖譜相關(guān)論文分享

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2020-09-25 17:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文專欄:KDD2020知識圖譜相關(guān)論文分享

論文解讀者:北郵 GAMMA Lab 博士生 閆博

題目:魯棒的跨語言知識圖譜實體對齊

會議:KDD 2020

論文地址:https://dl.acm.org/doi/pdf/10.1145/3394486.3403268

代碼地址:https://github.com/scpei/REA

推薦理由:這篇論文首次提出了跨語言實體對齊中的噪音問題,并提出了一種基于迭代訓(xùn)練的除噪算法,從而進(jìn)行魯棒的跨語言知識圖譜實體對齊。本工作對后續(xù)跨語言實體對齊的去噪研究具有重要的開創(chuàng)性意義。

跨語言實體對齊旨在將不同知識圖譜中語義相似的實體進(jìn)行關(guān)聯(lián),它是知識融合和知識圖譜連接必不可少的研究問題,現(xiàn)有方法只在有干凈標(biāo)簽數(shù)據(jù)的前提下,采用有監(jiān)督或半監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行了研究。但是,來自人類注釋的標(biāo)簽通常包含錯誤,這可能在很大程度上影響對齊的效果。因此,本文旨在探索魯棒的實體對齊問題,提出的REA模型由兩個部分組成:噪聲檢測和基于噪聲感知的實體對齊。噪聲檢測是根據(jù)對抗訓(xùn)練原理設(shè)計的,基于噪聲感知的實體對齊利用圖神經(jīng)網(wǎng)絡(luò)對知識圖譜進(jìn)行建模。兩個部分迭代進(jìn)行訓(xùn)練,從而讓模型去利用干凈的實體對來進(jìn)行節(jié)點的表示學(xué)習(xí)。在現(xiàn)實世界的幾個數(shù)據(jù)集上的實驗結(jié)果證明了提出的方法的有效性,并且在涉及噪聲的情況下,此模型始終優(yōu)于最新方法,并且在準(zhǔn)確度方面有顯著提高。

1 引言

現(xiàn)有方法在進(jìn)行跨語言實體對齊時沒有考慮噪音問題,而這些噪音可能會損害模型的效果。如圖1所示,(a)中的兩個不同語言的知識圖譜存在實體對噪音(虛線表示的實體對1-4),(b)是理想狀況下節(jié)點在特征空間中的表示,可以看出不同語言知識圖譜中具有相似語義的實體在特征空間中也相近。(c)是利用含有噪音的訓(xùn)練數(shù)據(jù)得到的節(jié)點特征表示,由于噪音的存在,節(jié)點的表示存在了一定的偏差。我們希望跨語言實體對齊是魯棒性的,即使訓(xùn)練數(shù)據(jù)中存在噪音,模型也能盡量減少噪音的消極影響,得到如圖(b)中的表示。為了克服現(xiàn)有的跨語言實體對齊方法在處理帶噪標(biāo)簽實體對時存在的局限性,本文探討了如何將噪聲檢測與實體對齊模型結(jié)合起來,以及如何共同訓(xùn)練它們以對齊不同語言知識圖譜中的實體。

圖1噪音對跨語言實體對齊模型效果的影響示意圖

問題定義

噪音檢測和魯棒性圖表示學(xué)習(xí):在一個存在噪音的場景下,代表所有的用于訓(xùn)練的實體對(可能包含噪音),代表中確定的干凈的實體對,代表不確定是否含有噪音的實體對。魯棒性的跨語言實體對齊模型利用給定的和,去對齊知識圖譜中的剩余實體,并且能自動發(fā)現(xiàn)中的噪音實體對。

這個問題是不平凡的,主要存在兩方面的挑戰(zhàn):(1)沒有明顯的噪音知識加以利用,即我們不知道訓(xùn)練數(shù)據(jù)中哪些是噪音數(shù)據(jù),所以傳統(tǒng)的監(jiān)督學(xué)習(xí)方法無法使用,提出的模型需要以一種無監(jiān)督的方式自動檢測出訓(xùn)練數(shù)據(jù)中的噪音實體對。(2)提出一個統(tǒng)一的模型。此模型要既能檢測出訓(xùn)練數(shù)據(jù)中的噪音,還能進(jìn)行有效的跨語言實體對齊。

2 方法

魯棒性的跨語言實體對齊模型(REA)包括兩個部分。一是基于噪音感知的實體對齊模型,這一部分主要是利用圖神經(jīng)網(wǎng)絡(luò)來對不同語言的兩個知識圖譜進(jìn)行統(tǒng)一建模,學(xué)習(xí)節(jié)點的表示,訓(xùn)練時只使用。二是噪音檢測模塊,作者采用了基于對抗訓(xùn)練的方式,利用生成對抗網(wǎng)絡(luò)(GAN)來檢測噪音。噪音實體對生成器接受干凈實體對輸入,然后進(jìn)行采樣生成噪音實體對;噪音判別器以干凈實體對和噪音實體對為輸入,訓(xùn)練一個能判別噪音的模型,同時對輸入的實體對產(chǎn)生一個信任分?jǐn)?shù),將信任分?jǐn)?shù)大于閾值的實體對加入,用于實體對齊模塊節(jié)點的表示學(xué)習(xí)。上述兩個模塊迭代進(jìn)行訓(xùn)練,直到收斂。下面詳細(xì)介紹這兩個模塊。

圖2REA模型示意圖

2.1 基于噪音感知的實體對齊模型

這一部分主要是對知識圖譜節(jié)點的表示學(xué)習(xí)。對于知識圖譜中任意的三元組,定義從傳到的信息為:

具體為:

其中和是節(jié)點一階鄰居的個數(shù)。最終經(jīng)過圖的信息傳播后節(jié)點的表示為:

損失函數(shù)采用基于間隔的排序損失(margin-based ranking objective):

這里代表信任分?jǐn)?shù),又噪音檢測模塊輸出,即當(dāng)實體對的信任分?jǐn)?shù)超過閾值時,此實體對才被認(rèn)為是正確的,才會被加入訓(xùn)練集。代表margin loss,是一個超參數(shù)。是一個衡量實體對相似性的函數(shù),由能量函數(shù)定義:

負(fù)樣本對由隨機(jī)替換頭或尾實體得到。

2.2 噪音檢測模塊

噪音檢測模塊分為噪音對生成器和噪音對判別器,由生成對抗網(wǎng)絡(luò)實現(xiàn)。與傳統(tǒng)的生成對抗網(wǎng)絡(luò)不同的一點是,噪音對生成器不是由模型訓(xùn)練產(chǎn)生噪音對,而是由采樣生成。噪音對生成器利用實體對齊模塊生成的真實實體對表示作為輸入,然后通過替換掉頭或尾實體采樣得到噪音實體對。噪音實體對的采樣概率如下式所示:

其中是一個簡單的兩層神經(jīng)網(wǎng)絡(luò),衡量了兩個實體的語義相似性,兩個實體越相似,越不容易被采樣到,這是自然的,因為生成器本來就是用來生成噪音的。為了減少采樣空間過大帶來的計算量代價,采樣只在負(fù)樣本空間的一個子空間進(jìn)行:

此外,由于采樣過程是無法利用傳統(tǒng)的基于梯度下降方法求參數(shù),所以本文采用了基于強(qiáng)化學(xué)習(xí)的參數(shù)求解算法,具體來說:

對所有負(fù)樣本的梯度求解近似為對k個采樣的負(fù)樣本的梯度求解,可以看作當(dāng)前的狀態(tài),可以看作策略,看作是動作,代表獎勵。

噪音判別器以實體對作為輸入,輸出實體對為真實實體對的概率:

越大,實體對越有可能為真實實體對,定義實體對的信任得分為:

信任得分為1的實體對將返回給實體對齊模型,繼續(xù)訓(xùn)練。

2.3 算法流程

REA模型采用的是一個迭代的算法,在每次迭代中,算法依次進(jìn)行三部分的參數(shù)訓(xùn)練。首先是利用干凈的實體對進(jìn)行節(jié)點的表示學(xué)習(xí)(4-7);然后對噪音實體對判別器進(jìn)行訓(xùn)練(8-12);最后對噪音實體對生成器進(jìn)行訓(xùn)練(13-17)。一次迭代完成后,更新中實體對的信任得分,將信任得分等于1的實體對加入。具體算法如下所示。

3 實驗

作者在兩個數(shù)據(jù)集DBP15K和DWY100K包含的5個跨語言知識圖譜上進(jìn)行了實驗。采用Hits@1,Hits@5,MRR做為評價指標(biāo)。實驗結(jié)果如下圖所示,其中REA-KE是去掉噪音檢測模塊得到的結(jié)果。

本模型中,噪音實體對判別器的檢測能力至關(guān)重要,所以作者也測試了噪音判別器對噪音數(shù)據(jù)的檢測能力。如下所示,噪音數(shù)據(jù)的比例為20%和40%時,判別器都有一個較好的檢測噪音的效果。但是由于知識圖譜的不完整性,仍有大量真實實體對被檢測為噪音。

當(dāng)干凈的實體對數(shù)據(jù)()增加的時候,模型效果也會變好;而當(dāng)噪音數(shù)據(jù)增加的時候,模型效果就會降低。而REA在有噪音的情況下表現(xiàn)是最好的。這也說明了噪音對跨語言實體對齊有很大的影響,REA能有效地處理噪音問題。如圖3和圖4所示。

圖3干凈實體對的數(shù)量對實驗結(jié)果的影響

圖4噪音實體對的數(shù)量對實驗結(jié)果的影響

最后,作者還測試了不同類型的噪音對實驗結(jié)果的影響。噪音的不同類型由它們采樣時離真實實體的距離所定。圖5分別測試了噪音實體離真實實體距離為10,50,100和全局的情形下模型的效果。

圖5噪音類型對實驗結(jié)果的影響

從圖5可以看出,噪音離真實實體越遠(yuǎn),即與真實實體的語義差別越大時,模型效果降低越多。當(dāng)距離大于50后,模型效果幾乎不再變化,這也說明了離真實實體大于一定距離時,噪音對模型的負(fù)面效果趨于穩(wěn)定。而當(dāng)噪音實體離真實數(shù)據(jù)越近,模型效果越好,這是顯而易見的,因為這樣越接近干凈的標(biāo)注數(shù)據(jù)。在所有的4種情況下,REA均取得了最好的效果。

4 總結(jié)

在標(biāo)注跨語言實體對齊語料過程中不可避免地會引入噪音?,F(xiàn)有方法沒有考慮噪音問題,損害了實體對齊的效果。針對這一問題,本文提出了魯棒性的跨語言實體對齊模型REA。REA通過一種迭代訓(xùn)練的方式,在每一輪訓(xùn)練過程中,通過圖神經(jīng)網(wǎng)絡(luò)建模知識圖譜中的實體對,得到噪聲感知的實體對齊模塊,然乎利用生成對抗網(wǎng)絡(luò)來生成噪音實體對并訓(xùn)練一個噪音判別器,噪音判別器識別出干凈的實體對加入訓(xùn)練集繼續(xù)訓(xùn)練。大量的實驗證明了REA在魯棒性跨語言實體對齊任務(wù)上的有效性。

責(zé)任編輯:xj

原文標(biāo)題:【KDD20】魯棒的跨語言知識圖譜實體對齊

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    14027
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    8359

原文標(biāo)題:【KDD20】魯棒的跨語言知識圖譜實體對齊

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    鴻蒙智能體開發(fā)知識庫---創(chuàng)建知識

    。 從列表點擊知識庫名稱進(jìn)入知識列表頁面 選擇對應(yīng)的知識類型填寫相關(guān)信息: 導(dǎo)入方式-文檔:使用文檔形式導(dǎo)入知識數(shù)據(jù),可以配置引用源信息
    發(fā)表于 03-06 10:18

    實力認(rèn)證!行云創(chuàng)新入圍《AI 中國生態(tài)圖譜 2025》大模型開放平臺板塊

    近日,中國電子信息產(chǎn)業(yè)發(fā)展研究院旗下權(quán)威 IT 創(chuàng)新媒體與專業(yè)市場研究機(jī)構(gòu)賽迪網(wǎng),正式發(fā)布 《AI 中國生態(tài)圖譜 2025》 。作為國內(nèi) AI 產(chǎn)業(yè)極具權(quán)威性與公信力的全景研判成果,該圖譜全面梳理
    的頭像 發(fā)表于 03-04 14:25 ?376次閱讀
    實力認(rèn)證!行云創(chuàng)新入圍《AI 中國生態(tài)<b class='flag-5'>圖譜</b> 2025》大模型開放平臺板塊

    梁文鋒署名DeepSeek新論文:突破GPU內(nèi)存限制的技術(shù)革命

    of Sparsity for Large Language Models》(直譯為《基于可擴(kuò)展查找的條件記憶:大語言模型稀疏性的新維度》)。這篇論文不僅揭示了當(dāng)前大語言模型在知識檢索方面的低效問題,還通過創(chuàng)新
    的頭像 發(fā)表于 01-14 11:29 ?5465次閱讀

    潤和軟件入選大模型一體機(jī)產(chǎn)業(yè)圖譜

    近日,由中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟與中國信息通信研究院聯(lián)合編制的《大模型一體機(jī)產(chǎn)業(yè)圖譜》正式發(fā)布。該圖譜系統(tǒng)梳理并收錄了國內(nèi)大模型一體機(jī)產(chǎn)業(yè)鏈上下游70余家代表性企業(yè),全面呈現(xiàn)我國大模型一體機(jī)的生態(tài)
    的頭像 發(fā)表于 12-10 17:56 ?1744次閱讀
    潤和軟件入選大模型一體機(jī)產(chǎn)業(yè)<b class='flag-5'>圖譜</b>

    華為聯(lián)合發(fā)布宜興“天機(jī)鏡”大模型知識圖譜

    近日,由宜興市大數(shù)據(jù)發(fā)展有限公司與華為聯(lián)合主辦的“共聚AI泛生態(tài) 智啟產(chǎn)業(yè)新未來——城市大安全AI產(chǎn)業(yè)發(fā)展峰會暨華為中國行2025江蘇站”,在江蘇宜興舉行。
    的頭像 發(fā)表于 11-14 16:40 ?1731次閱讀

    Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會 AAAI 2026 公布論文錄用結(jié)果,Nullmax 研發(fā)團(tuán)隊的端到端軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出一種由粗到精的軌跡預(yù)測框架——DiffRefiner,能夠?qū)崿F(xiàn)更為靈活、精準(zhǔn)的軌跡預(yù)測。
    的頭像 發(fā)表于 11-12 10:53 ?1127次閱讀

    云知聲榮獲2025人工智能治理示范案例

    服務(wù)業(yè)協(xié)會聯(lián)合組織征集的《北京人工智能治理案例集》在會議期間正式發(fā)布。云知聲"基于醫(yī)療大模型和醫(yī)學(xué)知識圖譜技術(shù)打造可信可靠的醫(yī)學(xué)AI應(yīng)用"憑借其創(chuàng)新的技術(shù)架構(gòu)和卓越的治理實踐,榮獲"人工智能治理示范案例"。
    的頭像 發(fā)表于 11-10 17:28 ?1092次閱讀

    光伏組件IV曲線測試儀:解鎖光伏組件性能的“能量圖譜儀”

    光伏組件IV曲線測試儀:解鎖光伏組件性能的“能量圖譜儀”柏峰【BF-CV1500】光伏組件的輸出特性是決定電站發(fā)電效率的核心,而IV(電流-電壓)曲線作為組件性能的“指紋圖譜”,包含了短路電流、開路電壓、最大功率點等關(guān)鍵參數(shù)
    的頭像 發(fā)表于 10-15 10:49 ?1284次閱讀
    光伏組件IV曲線測試儀:解鎖光伏組件性能的“能量<b class='flag-5'>圖譜</b>儀”

    中軟國際入選中國信通院AI Agent智能體產(chǎn)業(yè)圖譜1.0

    近日,中國信息通信研究院(以下簡稱“中國信通院”)《AI Agent智能體產(chǎn)業(yè)圖譜1.0》正式發(fā)布。該圖譜是國內(nèi)系統(tǒng)性梳理智能體產(chǎn)業(yè)生態(tài)的重要成果,聚焦“基礎(chǔ)底座、智能體平臺、場景智能體與行業(yè)智能體
    的頭像 發(fā)表于 07-14 14:55 ?1847次閱讀

    家電電路識圖自學(xué)手冊

    家電電路識圖自學(xué)手冊
    發(fā)表于 07-11 15:49 ?16次下載

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機(jī)視覺國際大會)公布論文錄用結(jié)果,格靈深瞳團(tuán)隊共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1750次閱讀

    芯片相關(guān)知識交流分享

    生存被動局面的有效途徑。光通信系統(tǒng)設(shè)備商,對國外的依賴程度還是比較高,其所需的核心光電子器件,仍是需要依賴進(jìn)口。 注:資料來源于網(wǎng)絡(luò),只限分享交流相關(guān)行業(yè)知識,不代表做出任何承諾,如有不妥,麻煩聯(lián)系刪帖
    發(fā)表于 07-03 09:54

    造物數(shù)科亮相華為開發(fā)者大會2025 | 技術(shù)創(chuàng)新與數(shù)字服務(wù),加速電子電路產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型

    6月20-22日,作為電子電路產(chǎn)業(yè)互聯(lián)網(wǎng)創(chuàng)新引領(lǐng)者,造物數(shù)科受邀出席東莞松山湖舉辦的華為開發(fā)者大會2025(HDC.2025),全面解析電子電路產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型解決方案,并聯(lián)合啟動工業(yè)知識圖譜聯(lián)盟。3
    的頭像 發(fā)表于 06-23 18:00 ?1342次閱讀
    造物數(shù)科亮相華為開發(fā)者大會2025 | 技術(shù)創(chuàng)新與數(shù)字服務(wù),加速電子電路產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    結(jié)果正式公布。云知聲在此次國際學(xué)術(shù)盛會中表現(xiàn)卓越,共有4篇論文被接收,其中包括2篇主會論文(Main Paper)和2篇Findings。入選的4篇論文聚焦大語言模型知識溯源、圖文音多
    的頭像 發(fā)表于 05-26 14:15 ?1483次閱讀
    云知聲四篇<b class='flag-5'>論文</b>入選自然語言處理頂會ACL 2025

    曙光AI解決方案助力光大銀行數(shù)字化基礎(chǔ)設(shè)施升級

    “人工智能+”的國家戰(zhàn)略,希望率先在業(yè)內(nèi)打破“技術(shù)懸浮”,計劃將人臉識別、OCR識別、智能客服、大模型、機(jī)器學(xué)習(xí)、RPA、知識圖譜、智能營銷等全業(yè)態(tài)從國外算力切換到國產(chǎn)異構(gòu)算力。 面對場景繁雜、國產(chǎn)生態(tài)成熟度低、切換風(fēng)險高等
    的頭像 發(fā)表于 05-12 10:46 ?1028次閱讀
    合川市| 且末县| 容城县| 安乡县| 德阳市| 泗洪县| 太谷县| 汝南县| 孝义市| 海阳市| 营山县| 锡林郭勒盟| 综艺| 赤城县| 长沙市| 邹城市| 绥中县| 通许县| 镇平县| 济宁市| 武穴市| 庆阳市| 阳曲县| 榕江县| 德江县| 胶州市| 淅川县| 女性| 弥勒县| 郎溪县| 玛沁县| 集贤县| 从化市| 古浪县| 吴江市| 乐清市| 汤原县| 商都县| 金门县| 玉环县| 四子王旗|