日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一些中文NLP領(lǐng)域,構(gòu)建語料的經(jīng)驗(yàn)和技巧

lviY_AI_shequ ? 來源:數(shù)據(jù)科學(xué)雜談 ? 2020-05-12 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

記得寫畢業(yè)論文那會(huì)兒,經(jīng)常為語料發(fā)愁。由于大多數(shù) NLP 問題都是有監(jiān)督問題,很多時(shí)候我們往往缺的不是算法,而是標(biāo)注好的語料。這在中文語料上更是明顯。今天就和大家分享一些中文 NLP 領(lǐng)域,構(gòu)建語料的經(jīng)驗(yàn)和技巧,雖然未必看了此文就能徹底解決語料的問題,但是或多或少會(huì)有些啟發(fā)。

首先分享幾個(gè)常見的語料獲取渠道

國內(nèi)外NLP領(lǐng)域的會(huì)議評(píng)測(cè)數(shù)據(jù)

相關(guān)研究機(jī)構(gòu)、實(shí)驗(yàn)室、論文公開的數(shù)據(jù)集

國內(nèi)外數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái),kaggle,天池,科賽,CCF等

互聯(lián)網(wǎng)企業(yè)自己舉辦的比賽,如百度,搜狐,知乎,騰訊這些企業(yè)都是土豪,通常會(huì)花費(fèi)巨額的資金標(biāo)注語料

Github 很多模型里面會(huì)自帶部分語料

雖然通過這些途徑,能夠搜集到不少的NLP語料,但這些“現(xiàn)成”的語料往往與我們需要解決的 NLP 問題不太一致,因此我們還得想辦法去變一些語料出來。

通過API或開源模型標(biāo)注語料

比如我們需要訓(xùn)練一個(gè)命名實(shí)體識(shí)別模型,就可以借助 bosonnlp 或者 hanlp、foolnltk 上去標(biāo)注一些語料。這些API和模型有的時(shí)候只提供了模型的預(yù)測(cè)結(jié)果,沒有提供訓(xùn)練的語料,但是我們可以拿這些別人訓(xùn)練好的模型去構(gòu)造語料。

知識(shí)蒸餾

我們可以將別人訓(xùn)練的模型看做是Teacher, 然后用API標(biāo)注的語料自己訓(xùn)練的模型看做是Student, 雖然結(jié)果不能達(dá)到和原來模型一致的效果,但是也不至于差太多,這種方式在初期能夠幫助我們快速的推進(jìn)項(xiàng)目,看到項(xiàng)目的效果后,后期再想辦法優(yōu)化迭代

通過搜索引擎收集標(biāo)注數(shù)據(jù)

假設(shè)我們需要做一個(gè)NER模型,其中一類實(shí)體是人名,可能我們想到的是從網(wǎng)上下載一批新聞,然后標(biāo)出其中的人名,但是,這樣做有一個(gè)問題,一篇幾千字的新聞往往只有幾個(gè)人名,而我們只需要出現(xiàn)了人名的那部分句子,并不需要其他部分。如果直接在整篇文本上標(biāo)注效率十分低。其實(shí),我們可以轉(zhuǎn)換一下思路,找一份中文人名詞庫,然后放到百度中搜索,百度摘要返回的大部分結(jié)果基本是我們想要的語料,通過爬蟲把摘要爬下來,自己再過濾下就好啦。這樣的做法相當(dāng)于,借助于一些過濾和排序算法,幫助我們快速找到待標(biāo)注的語料。

二次加工已有語料

有的時(shí)候,一些語料和我們的需要解決的任務(wù)相似,但又完全不一樣,這時(shí)候我們可以嘗試?yán)闷渌蝿?wù)的語料來構(gòu)建出想要的語料。就拿百度2019信息抽取比賽來說吧,該比賽的任務(wù)是從

"text": "《逐風(fēng)行》是百度文學(xué)旗下縱橫中文網(wǎng)簽約作家清水秋風(fēng)創(chuàng)作的一部東方玄幻小說,小說已于2014-04-28正式發(fā)布"

這樣的句子中抽出實(shí)體和關(guān)系三元組

"spo_list": [{"predicate": "連載網(wǎng)站", "object_type": "網(wǎng)站", "subject_type": "網(wǎng)絡(luò)小說", "object": "縱橫中文網(wǎng)", "subject": "逐風(fēng)行"}, {"predicate": "作者", "object_type": "人物", "subject_type": "圖書作品", "object": "清水秋風(fēng)", "subject": "逐風(fēng)行"}]screenshot-lic2019-ccf-org-cn-kg-1574584084691

百度總共提供了大概17萬的標(biāo)注數(shù)據(jù),而且數(shù)據(jù)標(biāo)注質(zhì)量頗高。訓(xùn)練數(shù)據(jù)被標(biāo)注為以下格式:

{"text": "《逐風(fēng)行》是百度文學(xué)旗下縱橫中文網(wǎng)簽約作家清水秋風(fēng)創(chuàng)作的一部東方玄幻小說,小說已于2014-04-28正式發(fā)布", "spo_list": [{"predicate": "連載網(wǎng)站", "object_type": "網(wǎng)站", "subject_type": "網(wǎng)絡(luò)小說", "object": "縱橫中文網(wǎng)", "subject": "逐風(fēng)行"}, {"predicate": "作者", "object_type": "人物", "subject_type": "圖書作品", "object": "清水秋風(fēng)", "subject": "逐風(fēng)行"}]

由該數(shù)據(jù)我們可以構(gòu)造什么數(shù)據(jù)呢?

命名實(shí)體識(shí)別語料

由于語料中的每個(gè)實(shí)體都標(biāo)注了實(shí)體類別,所以可以通過實(shí)體類別,構(gòu)造出命名實(shí)體識(shí)別任務(wù)的語料,這17萬數(shù)據(jù)集,提供了國家、城市、影視作品、人物、地點(diǎn)、企業(yè)、圖書等10幾個(gè)類別的實(shí)體,這些語料加上人名日?qǐng)?bào)、msra、bosonnlp 公開的NER語料,我們就可以擴(kuò)充一個(gè)更大的NER語料集;

開放關(guān)系抽取語料

雖然該數(shù)據(jù)集是面向封閉域關(guān)系抽取的數(shù)據(jù)集,其實(shí)改造一下,也能用于句子級(jí)別的開放域關(guān)系抽取任務(wù)中,比如我們可以構(gòu)建一個(gè)基于序列標(biāo)注的關(guān)系和實(shí)體聯(lián)合抽取模型,簡(jiǎn)單的說就是給定(S,P,O)三元組和text,從中抽取一個(gè)代表關(guān)系的動(dòng)賓短語或名詞性短語來。比如從《逐風(fēng)行》是百度文學(xué)旗下縱橫中文網(wǎng)簽約作家清水秋風(fēng)創(chuàng)作的一部東方玄幻小說,小說已于2014-04-28正式發(fā)這句話抽?。ㄇ逅镲L(fēng),創(chuàng)作,《逐風(fēng)行》)這樣的關(guān)系三元組。當(dāng)然,要改造成適合開放關(guān)系抽取的語料,還有一些工作需要做。比如原來語料中的S和O是我們要抽取的內(nèi)容,而P卻不是,因此,我們可能需要進(jìn)行二次標(biāo)注或者再構(gòu)建一個(gè)模型去預(yù)測(cè)出P。

很多公開的語料都可以采用類似的做法,這里就拋磚引玉一下,不一一介紹了。

標(biāo)注工具

工欲善其事,必先利其器 ,標(biāo)注工具能夠大大提高標(biāo)注效率,標(biāo)注工具通過提供方便的快捷鍵和交互方式,讓我們?cè)谙嗤瑫r(shí)間,標(biāo)注更多的數(shù)據(jù)。同時(shí),還可以在標(biāo)注工具中嵌入一些AI輔助標(biāo)注的能力,實(shí)現(xiàn)機(jī)器自動(dòng)標(biāo)注,而我們只需要修改和刪除小部分的錯(cuò)誤標(biāo)注樣本,進(jìn)一步提高效率。

主動(dòng)學(xué)習(xí)標(biāo)注

機(jī)器學(xué)習(xí)任務(wù)中,由于數(shù)據(jù)標(biāo)注代價(jià)高昂,如果能夠從任務(wù)出發(fā),通過對(duì)任務(wù)的理解來制定標(biāo)準(zhǔn),挑選最重要的樣本,使其最有助于模型的學(xué)習(xí)過程,將大大減少標(biāo)注的成本, 主動(dòng)學(xué)習(xí)就是解決這個(gè)問題的。關(guān)于主動(dòng)學(xué)習(xí)背后的理論細(xì)節(jié),感興趣可以自行谷歌,這里舉一個(gè)通俗易懂的例子簡(jiǎn)要解釋一下。

可以

還記得支持向量機(jī)中的“支持向量”嗎?當(dāng)我們?cè)诜诸惖臅r(shí)候,并不是所有的點(diǎn)對(duì)于分割線的位置都是起決定性作用的。在離超平面特別遠(yuǎn)的區(qū)域,哪怕你增加10000個(gè)樣本點(diǎn),對(duì)于分割線的位置,也是沒有作用的,因?yàn)榉指罹€是由幾個(gè)關(guān)鍵點(diǎn)決定的(圖上三個(gè)),這幾個(gè)關(guān)鍵點(diǎn)支撐起了一個(gè)分割超平面,所以這些關(guān)鍵點(diǎn),就是支持向量。借鑒大數(shù)據(jù)標(biāo)注任務(wù)上,如果能夠準(zhǔn)確的標(biāo)出那些“重要”的樣本,就有可能實(shí)現(xiàn)“事半功倍”的效果。

隨機(jī)標(biāo)注的結(jié)果可能是上圖中的b, 準(zhǔn)確率大約為70%。而右圖就是主動(dòng)學(xué)習(xí)方法找到的標(biāo)注點(diǎn),因?yàn)檫@些點(diǎn)幾乎構(gòu)成了完美分界線的邊界,所以使用與中圖同樣的樣本數(shù),但它能夠取得90%左右的準(zhǔn)確率!

弱監(jiān)督的數(shù)據(jù)標(biāo)注

監(jiān)督學(xué)習(xí)就是我們有一批高置信的標(biāo)注數(shù)據(jù),通過model來擬合效果。弱監(jiān)督學(xué)習(xí),就是我們很難獲取足夠量的高置信的標(biāo)注數(shù)據(jù),所以弱監(jiān)督學(xué)習(xí)就是來解決這個(gè)問題。

這里為大家介紹一個(gè)斯坦福的研究者開源的弱監(jiān)督學(xué)習(xí)通用框架 Snorkel ,由這種方法生成的標(biāo)簽可用于訓(xùn)練任意模型。已經(jīng)有人將Snorkel用于處理圖像數(shù)據(jù)、自然語言監(jiān)督、處理半結(jié)構(gòu)化數(shù)據(jù)、自動(dòng)生成訓(xùn)練集等具體用途。

Snorkel 集成了多種知識(shí)來源作為弱監(jiān)督,我們只需要在基于MapReduce模板的pipeline中編寫標(biāo)記函數(shù),每個(gè)標(biāo)記函數(shù)都接受一個(gè)數(shù)據(jù)點(diǎn)生成的概率標(biāo)簽,并選擇返回None(無標(biāo)簽)或輸出標(biāo)簽。在編寫標(biāo)記函數(shù)的時(shí)候,我們可以利用一切可以利用知識(shí)來標(biāo)記我們的數(shù)據(jù),這些知識(shí)可能包括,人工規(guī)則、知識(shí)圖譜、已有的模型、統(tǒng)計(jì)信息、網(wǎng)頁等。

如上圖所示,假設(shè)我們?cè)谧鯪ER任務(wù),需要標(biāo)注人名,可以用來構(gòu)建標(biāo)記函數(shù)的知識(shí)有:

文本是否在人名詞庫中

jieba、hanlp等NLP工具包給出的pos tag

文本是否是知識(shí)圖譜中的人物實(shí)體

基于以上知識(shí),我們就可以寫出多個(gè)標(biāo)記函數(shù)了。當(dāng)然,通過 Snorkel 標(biāo)注的數(shù)據(jù)是有噪聲的,甚至很多標(biāo)記函數(shù)給出的結(jié)果互相沖突。這些我們完全不用擔(dān)心,因?yàn)镾norkel已經(jīng)提供了解決這些問題的方法。

拿出項(xiàng)目的效果,向公司申請(qǐng)資源

最后的最后,我們可以想好算法的落地場(chǎng)景和價(jià)值,講好故事,向公司和老板的爭(zhēng)取資源!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137260
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    489

    瀏覽量

    18770
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23346

原文標(biāo)題:一文詳解NLP語料構(gòu)建技巧

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始實(shí)現(xiàn)中的一些功能?

    )。 如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始實(shí)現(xiàn)中的一些功能。 Example: I do not want to call arm_mat_trans_q15 powerquad
    發(fā)表于 04-03 06:37

    時(shí)鐘緩沖器的一些主要應(yīng)用領(lǐng)域介紹

    電子設(shè)備和通信系統(tǒng)中都有廣泛的應(yīng)用,以下是一些主要的應(yīng)用領(lǐng)域介紹:1.計(jì)算機(jī)與外設(shè)接口計(jì)算機(jī)內(nèi)部的各種硬件設(shè)備需要通過總線相互通信,而這些設(shè)備的時(shí)鐘信號(hào)通常是非常不穩(wěn)
    的頭像 發(fā)表于 04-02 16:30 ?8609次閱讀
    時(shí)鐘緩沖器的<b class='flag-5'>一些</b>主要應(yīng)用<b class='flag-5'>領(lǐng)域</b>介紹

    變頻器應(yīng)用的一些技巧

    變頻器作為現(xiàn)代工業(yè)控制中的核心設(shè)備,其應(yīng)用范圍已從傳統(tǒng)的電機(jī)調(diào)速擴(kuò)展到節(jié)能改造、自動(dòng)化生產(chǎn)線、新能源等領(lǐng)域。隨著技術(shù)的迭代,如何充分發(fā)揮變頻器性能并規(guī)避常見問題,成為工程師關(guān)注的焦點(diǎn)。以下從選型配置、參數(shù)調(diào)試、故障排查等維度,結(jié)合行業(yè)實(shí)踐案例,系統(tǒng)梳理變頻器的應(yīng)用技巧。
    的頭像 發(fā)表于 03-25 16:31 ?220次閱讀

    無法構(gòu)建下載 SDK 的說明怎么處理?

    希望獲得一些關(guān)于為什么我無法成功構(gòu)建指令、工具鏈的提示。 For this error, I have already checked the directory and path
    發(fā)表于 03-19 06:27

    GPS北斗衛(wèi)星校時(shí)器:真實(shí)使用經(jīng)驗(yàn)與避坑指南

    衛(wèi)星校時(shí)器。今天不聊晦澀的理論,單純從真實(shí)的使用經(jīng)驗(yàn)出發(fā),分享一些關(guān)于設(shè)備選型、安裝調(diào)試以及日常維護(hù)的心得,希望能為正在關(guān)注這設(shè)備的朋友提供一些參考。
    的頭像 發(fā)表于 03-06 11:00 ?247次閱讀
    GPS北斗衛(wèi)星校時(shí)器:真實(shí)使用<b class='flag-5'>經(jīng)驗(yàn)</b>與避坑指南

    電子工程師設(shè)計(jì)要點(diǎn)與經(jīng)驗(yàn)分享

    電子工程師設(shè)計(jì)要點(diǎn)與經(jīng)驗(yàn)分享 作為名資深電子工程師,在硬件設(shè)計(jì)開發(fā)領(lǐng)域摸爬滾打多年,積累了不少寶貴的經(jīng)驗(yàn)和見解。今天就和大家分享一些電子工
    的頭像 發(fā)表于 02-03 11:10 ?344次閱讀

    爬壁機(jī)器人磁鐵的一些常見問題

    爬壁機(jī)器人近幾年比較火,它是類能夠在垂直墻面、天花板、傾斜表面上移動(dòng)和作業(yè)的特種機(jī)器人,今天我們不聊其它,只聊下關(guān)于磁吸附應(yīng)用中的磁鐵,以下是小編整理的關(guān)于爬壁機(jī)器人中磁鐵的一些常見問題。
    的頭像 發(fā)表于 01-09 10:06 ?460次閱讀
    爬壁機(jī)器人磁鐵的<b class='flag-5'>一些</b>常見問題

    電子工程師設(shè)計(jì)要點(diǎn)與經(jīng)驗(yàn)分享

    電子工程師設(shè)計(jì)要點(diǎn)與經(jīng)驗(yàn)分享 作為名資深電子工程師,在多年的硬件設(shè)計(jì)開發(fā)工作中,積累了不少寶貴的經(jīng)驗(yàn)和見解。下面就和大家分享一些電子設(shè)計(jì)方面的關(guān)鍵要點(diǎn)和實(shí)際案例。 文件下載
    的頭像 發(fā)表于 01-07 13:55 ?559次閱讀

    關(guān)于六類網(wǎng)線一些問題的解答

    今天我們就圍繞網(wǎng)友一些常見的關(guān)于六類網(wǎng)線的問題進(jìn)行下匯總式解答: 問 六類網(wǎng)線可以當(dāng)電源用嗎? 答 六類網(wǎng)線并不是設(shè)計(jì)用于傳輸電力的電纜,因此般不建議將其用于電源傳輸。 盡管六類網(wǎng)線的線芯可以
    的頭像 發(fā)表于 12-09 11:13 ?788次閱讀

    貼片電容精度J±5%的一些詳細(xì)知識(shí)

    貼片電容精度J±5%表示電容的實(shí)際值與標(biāo)稱值之間的偏差范圍在±5%以內(nèi) ,以下是關(guān)于貼片電容精度J±5%的一些詳細(xì)知識(shí): 、精度等級(jí)含義 J±5% :字母“J”在貼片電容的標(biāo)識(shí)中通常表示標(biāo)稱精度
    的頭像 發(fā)表于 11-20 14:38 ?1014次閱讀
    貼片電容精度J±5%的<b class='flag-5'>一些</b>詳細(xì)知識(shí)

    蜂鳥E203的浮點(diǎn)指令集F的一些實(shí)現(xiàn)細(xì)節(jié)

    蜂鳥E203的浮點(diǎn)指令集F的一些實(shí)現(xiàn)細(xì)節(jié) 既然E203不是多發(fā)射,且為了節(jié)省面積,一些指令使用FPU內(nèi)的同個(gè)子模塊來執(zhí)行,即FPU同時(shí)只能進(jìn)行種計(jì)算,我們只在FPU內(nèi)部署了11個(gè)
    發(fā)表于 10-24 08:57

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練個(gè)手寫數(shù)字識(shí)別的神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 10-22 07:03

    基于rtt的scons構(gòu)建的keil工程如何增加project_targets?

    對(duì)新的project_targets的一些設(shè)置不變更 目前來看 有人說在template.uvprojx中增加個(gè) New-Target 中間省略 但是治標(biāo)不治本 scons構(gòu)建完以后只是增加了新的target許多配置并
    發(fā)表于 10-10 06:10

    分享一些工業(yè)用水監(jiān)測(cè)物聯(lián)網(wǎng)系統(tǒng)方案的實(shí)施經(jīng)驗(yàn)

    在工業(yè)用水監(jiān)測(cè)物聯(lián)網(wǎng)系統(tǒng)方案的實(shí)施中,可借鑒以下關(guān)鍵經(jīng)驗(yàn),涵蓋技術(shù)選型、系統(tǒng)架構(gòu)、功能實(shí)現(xiàn)及實(shí)際案例應(yīng)用: 、技術(shù)選型與系統(tǒng)架構(gòu) 網(wǎng)關(guān)與通信協(xié)議選擇 多協(xié)議適配 :優(yōu)先選擇支持Modbus、OPC
    的頭像 發(fā)表于 06-30 15:40 ?570次閱讀

    Debian和Ubuntu哪個(gè)好一些?

    兼容性對(duì)比Debian和Ubuntu哪個(gè)好一些,并為您揭示如何通過RAKsmart服務(wù)器釋放Linux系統(tǒng)的最大潛能。
    的頭像 發(fā)表于 05-07 10:58 ?1447次閱讀
    浪卡子县| 富宁县| 南岸区| 龙里县| 观塘区| 宜川县| 怀集县| 民县| 潼关县| 井研县| 岱山县| 玉树县| 大庆市| 漯河市| 罗平县| 吉木萨尔县| 什邡市| 万源市| 湾仔区| 安康市| 扎囊县| 固镇县| 兰西县| 九台市| 龙井市| 邵东县| 崇明县| 文化| 始兴县| 蛟河市| 昌江| 广丰县| 元谋县| 太原市| 漯河市| 衡南县| 扬中市| 原平市| 瑞丽市| 福州市| 申扎县|