日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

命名實(shí)體識(shí)別實(shí)踐 - CRF

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:ChallengeHub ? 作者:致Great ? 2022-03-24 13:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1

條件隨機(jī)場(chǎng)-CRF

CRF,英文全稱為Conditional Random Field, 中文名為條件隨機(jī)場(chǎng),是給定一組輸入隨機(jī)變量條件下另一組輸出隨機(jī)變量的條件概率分布模型,其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾可夫(Markov)隨機(jī)場(chǎng)。

較為簡(jiǎn)單的條件隨機(jī)場(chǎng)是定義在線性鏈上的條件隨機(jī)場(chǎng),稱為線性鏈條件隨機(jī)場(chǎng)(linear chain conditional random field)。

線性鏈條件隨機(jī)場(chǎng)可以用于序列標(biāo)注等問(wèn)題,需要解決的命名實(shí)體識(shí)別(NER)任務(wù)正好可通過(guò)序列標(biāo)注方法解決。

a98099ce-a359-11ec-952b-dac502259ad0.png

在條件概率模型P(Y|X)中,Y是輸出變量,表示標(biāo)記序列(或狀態(tài)序列),X是輸入變量,表示需要標(biāo)注的觀測(cè)序列。

訓(xùn)練時(shí),利用訓(xùn)練數(shù)據(jù)集通過(guò)極大似然估計(jì)或正則化的極大似然估計(jì)得到條件概率模型p(Y|X);
預(yù)測(cè)時(shí),對(duì)于給定的輸入序列x,求出條件概率p(y|x)最大的輸出序列y

利用線性鏈CRF來(lái)做實(shí)體識(shí)別的時(shí)候,需要假設(shè)每個(gè)標(biāo)簽 的預(yù)測(cè)同時(shí)依賴于先前預(yù)測(cè)的標(biāo)簽 和 的詞語(yǔ)輸入序列,如下圖所示a999a4dc-a359-11ec-952b-dac502259ad0.png每個(gè) NER標(biāo)簽僅依賴于其直接前前繼和后繼標(biāo)簽以及 x

CRF是一種選擇因子的特定方式,換句話說(shuō),就是特征函數(shù)。定義因子的 CRF 方法是采用實(shí)值特征函數(shù) 與參數(shù) 和 的線性組合的指數(shù),下面是特征函數(shù)與權(quán)重參數(shù)在時(shí)間步上是對(duì)應(yīng)的:

關(guān)于Linear-chain CRF的訓(xùn)練推導(dǎo),可以查看文章:條件隨機(jī)場(chǎng)CRF(一)從隨機(jī)場(chǎng)到線性鏈條件隨機(jī)場(chǎng)

2

實(shí)踐1:基于CRF++實(shí)現(xiàn)NER

CRF++簡(jiǎn)介

CRF++是著名的條件隨機(jī)場(chǎng)的開源工具,也是目前綜合性能最佳的CRF工具,采用C++語(yǔ)言編寫而成。其最重要的功能我認(rèn)為是采用了特征模板。這樣就可以自動(dòng)生成一系列的特征函數(shù),而不用我們自己生成特征函數(shù),我們要做的就是尋找特征,比如詞性等。a9b5538a-a359-11ec-952b-dac502259ad0.png官網(wǎng)地址:http://taku910.github.io/crfpp/

安裝

CRF++的安裝可分為Windows環(huán)境和Linux環(huán)境下的安裝。關(guān)于Linux環(huán)境下的安裝,可以參考文章:CRFPP/CRF++編譯安裝與部署 。在Windows中CRF++不需要安裝,下載解壓CRF++0.58文件即可以使用

a9d1495a-a359-11ec-952b-dac502259ad0.png

訓(xùn)練語(yǔ)料創(chuàng)建

在訓(xùn)練之前需要將標(biāo)注數(shù)據(jù)轉(zhuǎn)化為CRF++訓(xùn)練格式文件:

分兩列,第一列是字符,第二例是對(duì)應(yīng)的標(biāo)簽,中間用 分割。

比如標(biāo)注方案采用BISO,效果如下:

a9efe72a-a359-11ec-952b-dac502259ad0.png

模板

模板是使用CRF++的關(guān)鍵,它能幫助我們自動(dòng)生成一系列的特征函數(shù),而不用我們自己生成特征函數(shù),而特征函數(shù)正是CRF算法的核心概念之一。一個(gè)簡(jiǎn)單的模板文件如下:aa0ca608-a359-11ec-952b-dac502259ad0.png在這里,我們需要好好理解下模板文件的規(guī)則。T**:%x[#,#]中的T表示模板類型,兩個(gè)"#"分別表示相對(duì)的行偏移與列偏移。一共有兩種模板:aa273c0c-a359-11ec-952b-dac502259ad0.png

訓(xùn)練

crf_learn-f3-c4.0-m100templatetrain.datacrf_model>train.rst

其中,template為模板文件,train.data為訓(xùn)練語(yǔ)料,-t表示可以得到一個(gè)model文件和一個(gè)model.txt文件,其他可選參數(shù)說(shuō)明如下:

-f,–freq=INT使用屬性的出現(xiàn)次數(shù)不少于INT(默認(rèn)為1)

-m,–maxiter=INT設(shè)置INT為L(zhǎng)BFGS的最大迭代次數(shù)(默認(rèn)10k)

-c,–cost=FLOAT設(shè)置FLOAT為代價(jià)參數(shù),過(guò)大會(huì)過(guò)度擬合(默認(rèn)1.0)

-e,–eta=FLOAT設(shè)置終止標(biāo)準(zhǔn)FLOAT(默認(rèn)0.0001)

-C,–convert將文本模式轉(zhuǎn)為二進(jìn)制模式

-t,–textmodel為調(diào)試建立文本模型文件

-a,–algorithm=(CRF|MIRA)選擇訓(xùn)練算法,默認(rèn)為CRF-L2

-p,–thread=INT線程數(shù)(默認(rèn)1),利用多個(gè)CPU減少訓(xùn)練時(shí)間

-H,–shrinking-size=INT設(shè)置INT為最適宜的跌代變量次數(shù)(默認(rèn)20)

-v,–version顯示版本號(hào)并退出

-h,–help顯示幫助并退出

輸出信息

iter:迭代次數(shù)。當(dāng)?shù)螖?shù)達(dá)到maxiter時(shí),迭代終止

terr:標(biāo)記錯(cuò)誤率

serr:句子錯(cuò)誤率

obj:當(dāng)前對(duì)象的值。當(dāng)這個(gè)值收斂到一個(gè)確定值的時(shí)候,訓(xùn)練完成

diff:與上一個(gè)對(duì)象值之間的相對(duì)差。當(dāng)此值低于eta時(shí),訓(xùn)練完成

預(yù)測(cè)

在訓(xùn)練完模型后,我們可以使用訓(xùn)練好的模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)命令格式如下:

crf_test-mcrf_modeltest.data>test.rstt

-m model表示使用我們剛剛訓(xùn)練好的model模型,預(yù)測(cè)的數(shù)據(jù)文件為test.data> test.rstt 表示將預(yù)測(cè)后的數(shù)據(jù)寫入到test.rstt 中。aa465aa6-a359-11ec-952b-dac502259ad0.png

3

實(shí)踐2:基于sklearn_crfsuite實(shí)現(xiàn)NER

sklearn_crfsuite簡(jiǎn)介

sklearn-crfsuite是基于CRFsuite庫(kù)的一款輕量級(jí)的CRF庫(kù)。該庫(kù)兼容sklearn的算法,因此可以結(jié)合sklearn庫(kù)的算法設(shè)計(jì)實(shí)體識(shí)別系統(tǒng)。sklearn-crfsuite不僅提供了條件隨機(jī)場(chǎng)的訓(xùn)練和預(yù)測(cè)方法還提供了評(píng)測(cè)方法。

https://sklearn-crfsuite.readthedocs.io/en/latest/#

aa5dd37a-a359-11ec-952b-dac502259ad0.png

安裝:pip install sklearn-crfsuite

特征與模型創(chuàng)建

特征構(gòu)造:aa777b72-a359-11ec-952b-dac502259ad0.png模型初始化

crf_model=sklearn_crfsuite.CRF(algorithm='lbfgs',c1=0.25,c2=0.018,max_iterations=100,
all_possible_transitions=True,verbose=True)
crf_model.fit(X_train,y_train)

完整代碼如下:

importre
importsklearn_crfsuite
fromsklearn_crfsuiteimportmetrics
importjoblib
importyaml
importwarnings

warnings.filterwarnings('ignore')



defload_data(data_path):
data=list()
data_sent_with_label=list()
withopen(data_path,mode='r',encoding="utf-8")asf:
forlineinf:
ifline.strip()=="":
data.append(data_sent_with_label.copy())
data_sent_with_label.clear()
else:
data_sent_with_label.append(tuple(line.strip().split("")))
returndata

defword2features(sent,i):
word=sent[i][0]

features={
'bias':1.0,
'word':word,
'word.isdigit()':word.isdigit(),
}
ifi>0:
word1=sent[i-1][0]
words=word1+word
features.update({
'-1:word':word1,
'-1:words':words,
'-1:word.isdigit()':word1.isdigit(),
})
else:
features['BOS']=True

ifi>1:
word2=sent[i-2][0]
word1=sent[i-1][0]
words=word1+word2+word
features.update({
'-2:word':word2,
'-2:words':words,
'-3:word.isdigit()':word1.isdigit(),
})

ifi>2:
word3=sent[i-3][0]
word2=sent[i-2][0]
word1=sent[i-1][0]
words=word1+word2+word3+word
features.update({
'-3:word':word3,
'-3:words':words,
'-3:word.isdigit()':word1.isdigit(),
})

ifi

訓(xùn)練效果如下:

labels=list(crf_model.classes_)
labels.remove("O")
y_pred=crf_model.predict(X_dev)
metrics.flat_f1_score(y_dev,y_pred,
average='weighted',labels=labels)
sorted_labels=sorted(labels,key=lambdaname:(name[1:],name[0]))
print(metrics.flat_classification_report(
y_dev,y_pred,labels=sorted_labels,digits=3
))
aa8c45de-a359-11ec-952b-dac502259ad0.png

完整代碼 https://www.heywhale.com/home/competition/6216f74572960d0017d5e691/content/

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SOT23-5不是版本號(hào):解讀封裝命名中的數(shù)字含義

    。本文將為你拆解SOT封裝家族的命名規(guī)則,重點(diǎn)解讀SOT23-5的數(shù)字含義,并以此為線索,帶你深入了解HT4054V的選型智慧。 一、解碼“SOT”與“23”:封裝命名的邏輯 首先,我們要明確SOT命名
    的頭像 發(fā)表于 04-29 10:23 ?148次閱讀
    SOT23-5不是版本號(hào):解讀封裝<b class='flag-5'>命名</b>中的數(shù)字含義

    Maxim產(chǎn)品命名規(guī)則詳解

    產(chǎn)品的命名規(guī)則,幫助大家更好地理解和應(yīng)用這些產(chǎn)品。 文件下載: MAX31783ETM+T.pdf 一、專有零件的產(chǎn)品編號(hào) Maxim大多數(shù)零件使用自己的編號(hào)系統(tǒng),由基礎(chǔ)零件編號(hào)、后綴以及可選的額外標(biāo)識(shí)符組成。 1. 基礎(chǔ)零件編號(hào) 基礎(chǔ)零件編號(hào)用于識(shí)別產(chǎn)品類型,與封
    的頭像 發(fā)表于 04-03 16:50 ?648次閱讀

    從虛擬到實(shí)體:物理 AI 產(chǎn)業(yè)發(fā)展與核心感知硬件支撐

    人工智能正經(jīng)歷從信息域到物理域的范式躍遷,如果說(shuō)傳統(tǒng)生成式AI是“會(huì)思考、會(huì)表達(dá)”的虛擬大腦,那么物理AI就是“會(huì)行動(dòng)、會(huì)實(shí)踐”的實(shí)體智能,它打破了人工智能與物理世界的壁壘,成為推動(dòng)具身智能落地、賦
    的頭像 發(fā)表于 04-03 13:14 ?1050次閱讀
    從虛擬到<b class='flag-5'>實(shí)體</b>:物理 AI 產(chǎn)業(yè)發(fā)展與核心感知硬件支撐

    深入了解Maxim產(chǎn)品命名規(guī)則

    深入了解Maxim產(chǎn)品命名規(guī)則 電子工程師在進(jìn)行產(chǎn)品設(shè)計(jì)時(shí),常常需要與各種不同的電子元件打交道。而熟悉這些元件的命名規(guī)則,對(duì)于我們準(zhǔn)確選擇和使用產(chǎn)品至關(guān)重要。今天,就讓我們一起來(lái)詳細(xì)了解Maxim
    的頭像 發(fā)表于 04-02 14:55 ?202次閱讀

    村田貼片電容規(guī)格型號(hào)識(shí)別指南

    ,成為工程師和采購(gòu)人員的重要技能。本文將詳細(xì)解析村田貼片電容的型號(hào)命名規(guī)則,幫助讀者輕松掌握識(shí)別技巧。 一、型號(hào)命名規(guī)則概述 村田貼片電容的型號(hào)通常由多個(gè)代碼段組成,每個(gè)代碼段代表不同的參數(shù)信息,如系列名稱、尺寸、厚
    的頭像 發(fā)表于 02-25 17:15 ?595次閱讀
    村田貼片電容規(guī)格型號(hào)<b class='flag-5'>識(shí)別</b>指南

    主線科技入選“人工智能+”創(chuàng)新應(yīng)用實(shí)踐案例

    日前,由新華網(wǎng)主辦的“人工智能+”創(chuàng)新應(yīng)用案例征集評(píng)選結(jié)果揭曉,主線科技“基于 AI 技術(shù)力的自動(dòng)駕駛卡車在智慧物流的創(chuàng)新應(yīng)用”案例憑借技術(shù)創(chuàng)新性與行業(yè)示范價(jià)值,成功入選創(chuàng)新應(yīng)用實(shí)踐案例并被
    的頭像 發(fā)表于 01-12 09:23 ?536次閱讀

    安寶特產(chǎn)品丨3DE-實(shí)體模型簡(jiǎn)化-快捷簡(jiǎn)化和表面收縮

    CAD 實(shí)體模型如何輕量化?快捷簡(jiǎn)化與表面收縮助力版權(quán)保護(hù)和營(yíng)銷素材制作成本優(yōu)化。
    的頭像 發(fā)表于 12-01 13:28 ?396次閱讀
    安寶特產(chǎn)品丨3DE-<b class='flag-5'>實(shí)體</b>模型簡(jiǎn)化-快捷簡(jiǎn)化和表面收縮

    風(fēng)華電阻器命名規(guī)范解析

    在電子制造與維修領(lǐng)域,電阻器作為最基本的電子元器件之一,其命名規(guī)范對(duì)于元器件的選型、采購(gòu)、庫(kù)存管理以及應(yīng)用都具有重要意義。風(fēng)華電阻器作為國(guó)內(nèi)知名的電阻器品牌,其命名規(guī)范遵循一定的行業(yè)標(biāo)準(zhǔn)和內(nèi)部規(guī)則
    的頭像 發(fā)表于 09-22 15:22 ?1060次閱讀
    風(fēng)華電阻器<b class='flag-5'>命名</b>規(guī)范解析

    無(wú)人機(jī)智能巡檢系統(tǒng)在違章建筑識(shí)別中的應(yīng)用與實(shí)踐

    ? ? ? ?無(wú)人機(jī)智能巡檢系統(tǒng)在違章建筑識(shí)別中的應(yīng)用與實(shí)踐 ? ? ? ?無(wú)人機(jī)智能巡檢系統(tǒng)集成了多項(xiàng)先進(jìn)技術(shù),構(gòu)建了一套完整的違章建筑識(shí)別解決方案。該系統(tǒng)采用分層架構(gòu)設(shè)計(jì),包含數(shù)據(jù)采集層、傳輸層
    的頭像 發(fā)表于 09-15 20:17 ?639次閱讀

    貼片電解電容的命名規(guī)則涵蓋哪些重要參數(shù)?

    貼片電解電容的命名規(guī)則通過(guò)標(biāo)準(zhǔn)化編碼整合容量、耐壓、尺寸等關(guān)鍵參數(shù),是電子工程師選型的重要依據(jù)。其命名結(jié)構(gòu)通常為 尺寸代碼+材質(zhì)標(biāo)識(shí)+容量代碼+耐壓代碼+端頭/包裝標(biāo)識(shí) ,以風(fēng)華
    的頭像 發(fā)表于 07-09 15:55 ?1810次閱讀

    Arm產(chǎn)品命名體系的演變

    繼 Arm 首席執(zhí)行官 Rene Haas 宣布 Arm 推出新的產(chǎn)品命名體系后,本文將為你詳解新的計(jì)算平臺(tái)名稱,以及新命名體系內(nèi)的新 IP 名稱標(biāo)識(shí)。
    的頭像 發(fā)表于 06-19 10:38 ?1117次閱讀
    Arm產(chǎn)品<b class='flag-5'>命名</b>體系的演變

    PCB設(shè)計(jì)中的焊盤命名規(guī)范

    1.焊盤命名規(guī)范 獲取完整文檔資料可下載附件哦?。。?!如果內(nèi)容有幫助可以關(guān)注、點(diǎn)贊、評(píng)論支持一下哦~
    發(fā)表于 05-29 16:01

    旺詮合金電阻的命名規(guī)則

    旺詮合金電阻的命名規(guī)則相對(duì)嚴(yán)謹(jǐn)且包含豐富的信息,通常包括電阻值、精度、溫度系數(shù)和功率等級(jí)等關(guān)鍵參數(shù)。以下是對(duì)旺詮合金電阻命名規(guī)則的詳細(xì)解讀: 一、電阻值 電阻值是電阻本身的物理特性,通常以歐姆
    的頭像 發(fā)表于 05-20 11:22 ?770次閱讀
    旺詮合金電阻的<b class='flag-5'>命名</b>規(guī)則

    智能門禁新標(biāo)配:嵌入式二維掃描頭的幾大核心優(yōu)勢(shì)

    隨著智慧城市與物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,嵌入式二維掃描頭正成為智能門禁系統(tǒng)的核心組件。其通過(guò)高效的數(shù)據(jù)采集與識(shí)別能力,推動(dòng)傳統(tǒng)門禁向無(wú)卡化、智能化升級(jí)。本文將從技術(shù)原理與應(yīng)用實(shí)踐出發(fā),解析嵌入式二維掃描
    的頭像 發(fā)表于 05-19 13:51 ?660次閱讀
    智能門禁新標(biāo)配:嵌入式二維掃描頭的幾大核心優(yōu)勢(shì)

    無(wú)人機(jī)箱號(hào)識(shí)別系統(tǒng)結(jié)合5G技術(shù)的應(yīng)用實(shí)踐

    在港口、鐵路貨場(chǎng)等大型物流場(chǎng)景中,集裝箱箱號(hào)識(shí)別是貨物調(diào)度的核心環(huán)節(jié)。傳統(tǒng)依賴人工或固定攝像頭的識(shí)別方式效率低、覆蓋有限,且易受環(huán)境干擾。近年來(lái),無(wú)人機(jī)箱號(hào)識(shí)別系統(tǒng)結(jié)合5G邊緣計(jì)算技術(shù),實(shí)現(xiàn)了非接觸
    的頭像 發(fā)表于 05-14 10:05 ?790次閱讀
    化隆| 定兴县| 临西县| 四子王旗| 兴文县| 绥江县| 卢龙县| 阿瓦提县| 台江县| 乐至县| 双柏县| 聊城市| 萍乡市| 新安县| 轮台县| 南漳县| 那坡县| 大渡口区| 荔波县| 巧家县| 平顺县| 开封市| 三河市| 南汇区| 苏尼特右旗| 桓仁| 湘潭市| 长宁区| 宁乡县| 九龙城区| 五莲县| 年辖:市辖区| 乌苏市| 桓仁| 宁明县| 湛江市| 建平县| 峨边| 土默特左旗| 崇文区| 双鸭山市|