日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大開源了一個(gè)中文分詞工具包,名為——PKUSeg

電子工程師 ? 來源:lq ? 2019-01-16 10:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

分詞技術(shù)是一種比較基礎(chǔ)的模塊,就英文而言,詞與詞之間通常由空格分開,因此英文分詞則要簡(jiǎn)單的多,但中文和英文的詞是有區(qū)別的,再加上中國(guó)文化的博大精深,分詞的時(shí)候要考慮的情況比英文分詞要復(fù)雜的多,如果處理不好就會(huì)直接影響到后續(xù)詞性標(biāo)注、句法分析等的準(zhǔn)確性,

目前,我們最常用的分詞工具大概有四種哈工大LTP、中科院計(jì)算所NLPIR、清華大學(xué)THULAC和jieba。

不過最近,北大開源了一個(gè)中文分詞工具包,名為 ——PKUSeg,基于Python。據(jù)介紹其準(zhǔn)確率秒殺THULAC和結(jié)巴分詞等工具。

一經(jīng)開源,pkuseg已經(jīng)在GitHub上獲得1738個(gè)Star,244個(gè)Fork(GitHub地址:https://github.com/lancopku/PKUSeg-python)

pkuseg具有如下幾個(gè)特點(diǎn):

多領(lǐng)域分詞:不同于以往的通用中文分詞工具,此工具包同時(shí)致力于為不同領(lǐng)域的數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型。根據(jù)待分詞文本的領(lǐng)域特點(diǎn),用戶可以自由地選擇不同的模型。 我們目前支持了新聞?lì)I(lǐng)域,網(wǎng)絡(luò)文本領(lǐng)域和混合領(lǐng)域的分詞預(yù)訓(xùn)練模型,同時(shí)也擬在近期推出更多的細(xì)領(lǐng)域預(yù)訓(xùn)練模型,比如醫(yī)藥、旅游、專利、小說等等。

更高的分詞準(zhǔn)確率:相比于其他的分詞工具包,當(dāng)使用相同的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),pkuseg可以取得更高的分詞準(zhǔn)確率。

支持用戶自訓(xùn)練模型:支持用戶使用全新的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。

各類分詞工具包的性能對(duì)比

前面有提到說pkuseg的準(zhǔn)確率遠(yuǎn)超其他分詞工具包,現(xiàn)在就是用數(shù)據(jù)說話的時(shí)候了,下面就是在 Linux 環(huán)境下,各工具在新聞數(shù)據(jù) (MSRA) 和混合型文本 (CTB8) 數(shù)據(jù)上的準(zhǔn)確率測(cè)試情況

測(cè)試使用的是第二屆國(guó)際漢語分詞評(píng)測(cè)比賽提供的分詞評(píng)價(jià)腳本,從上圖看出結(jié)巴分詞準(zhǔn)確率最低,

跨領(lǐng)域測(cè)試結(jié)果

以下是在其它領(lǐng)域進(jìn)行測(cè)試,以模擬模型在“黑盒數(shù)據(jù)”上的分詞效果。

默認(rèn)模型在不同領(lǐng)域的測(cè)試效果

以下是各個(gè)工具包的默認(rèn)模型在不同領(lǐng)域的測(cè)試效果

使用方式

代碼示例1:使用默認(rèn)模型及默認(rèn)詞典分詞

importpkusegseg=pkuseg.pkuseg()#以默認(rèn)配置加載模型text=seg.cut('我愛北京***')#進(jìn)行分詞print(text)

代碼示例2:設(shè)置用戶自定義詞典

importpkuseglexicon=['北京大學(xué)','北京***']#希望分詞時(shí)用戶詞典中的詞固定不分開seg=pkuseg.pkuseg(user_dict=lexicon)#加載模型,給定用戶詞典text=seg.cut('我愛北京***')#進(jìn)行分詞print(text)

代碼示例3:使用其它模型

importpkusegseg=pkuseg.pkuseg(model_name='./ctb8')#假設(shè)用戶已經(jīng)下載好了ctb8的模型#并放在了'./ctb8'目錄下,通過設(shè)置model_name加載該模型text=seg.cut('我愛北京***')#進(jìn)行分詞print(text)

代碼示例4:對(duì)文件分詞

importpkusegpkuseg.test('input.txt','output.txt',nthread=20)#對(duì)input.txt的文件分詞輸出到output.txt中,#使用默認(rèn)模型和詞典,開20個(gè)進(jìn)程

代碼示例5:訓(xùn)練新模型

importpkuseg#訓(xùn)練文件為'msr_training.utf8'#測(cè)試文件為'msr_test_gold.utf8'#模型存到'./models'目錄下,開20個(gè)進(jìn)程訓(xùn)練模型pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)

此外,pkuseg提供了三種在不同類型數(shù)據(jù)上訓(xùn)練得到的模型,根據(jù)具體需要,用戶可以選擇不同的預(yù)訓(xùn)練模型:

MSRA:在MSRA(新聞?wù)Z料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8:在CTB8(新聞文本及網(wǎng)絡(luò)文本的混合型語料)上訓(xùn)練的模型。隨pip包附帶的是此模型。

下載地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO:在微博(網(wǎng)絡(luò)文本語料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

最后附上前面提到的另外四大分詞工具的GitHub地址:

1、LTP:https://github.com/HIT-SCIR/ltp

2、NLPIR:https://github.com/NLPIR-team/NLPIR

3、THULAC:https://github.com/thunlp/THULAC

4、jieba:https://github.com/yanyiwu/cppjieba

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Linux
    +關(guān)注

    關(guān)注

    88

    文章

    11821

    瀏覽量

    219598
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4368

    瀏覽量

    46463
  • python
    +關(guān)注

    關(guān)注

    58

    文章

    4889

    瀏覽量

    90327

原文標(biāo)題:準(zhǔn)確率秒殺結(jié)巴分詞,北大開源全新中文分詞工具包PKUSeg

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    KITSGTL5000EVBE 開發(fā)工具包無響應(yīng),i2c 失敗的原因?

    KITSGTL5000EVBE 開發(fā)工具包無響應(yīng),i2c 失敗
    發(fā)表于 04-22 07:11

    RT-Thread任務(wù)+消息訂閱管理框架軟件:thread_manager+event_loop

    .有個(gè)簡(jiǎn)單的問題(什么是愛情)為什么開源RTOS都只將我們送到Main?卻沒有個(gè)開源的任務(wù)管
    的頭像 發(fā)表于 04-19 15:39 ?4939次閱讀
    RT-Thread任務(wù)+消息訂閱管理框架軟件<b class='flag-5'>包</b>:thread_manager+event_loop

    MinGW-w64工具集壓縮的下載

    MinGW-w64工具集壓縮的下載 這是MinGW-w64工具集壓縮的下載進(jìn)度界面,文件名為x86_64-13.2.0-release-
    發(fā)表于 02-07 04:59

    Microchip推出SDI IP內(nèi)核與四通道CoaXPress?橋接工具包,進(jìn)步擴(kuò)展PolarFire? FPGA智能嵌入式視頻生態(tài)系統(tǒng)

    )今日宣布擴(kuò)展其 PolarFire ? FPGA 智能嵌入式視頻生態(tài)系統(tǒng),助力開發(fā)者實(shí)現(xiàn)可靠、低功耗且高帶寬的視頻連接。該嵌入式視覺解決方案協(xié)議棧整合硬件評(píng)估工具包、開發(fā)工具、IP 內(nèi)核及參考設(shè)計(jì),可簡(jiǎn)化開發(fā)流程、增強(qiáng)安全性
    的頭像 發(fā)表于 01-27 12:14 ?649次閱讀
    Microchip推出SDI IP內(nèi)核與四通道CoaXPress?橋接<b class='flag-5'>工具包</b>,進(jìn)<b class='flag-5'>一</b>步擴(kuò)展PolarFire? FPGA智能嵌入式視頻生態(tài)系統(tǒng)

    北大學(xué)以開源技術(shù)鋪就人才與產(chǎn)業(yè)共贏之路

    當(dāng)開源浪潮席卷全球科技領(lǐng)域,成為技術(shù)創(chuàng)新與產(chǎn)業(yè)升級(jí)的核心引擎,所地方高校如何憑借前瞻布局與務(wù)實(shí)行動(dòng),在開源生態(tài)中占據(jù)重要席位,既培育出頂尖創(chuàng)新人才,又產(chǎn)出服務(wù)產(chǎn)業(yè)的硬核成果?中北大學(xué)
    的頭像 發(fā)表于 01-07 10:30 ?564次閱讀

    一個(gè)基于sdcc的MCS-51實(shí)時(shí)操作系統(tǒng)移植

    ; 生成的hex文件可以使用stc-isp燒錄,但都已經(jīng)使用VSCode/eIDE環(huán)境,強(qiáng)烈建議燒錄用能配套的stcgal。 跨常見平臺(tái)。本次開發(fā)所使用的開源工具在Windows、MacOS以及
    發(fā)表于 12-10 10:15

    北大學(xué)開源鴻蒙技術(shù)俱樂部正式揭牌成立

    ”在東北大學(xué)渾南校區(qū)成功舉辦。 嘉賓合影 東北大學(xué)黨委常委、副校長(zhǎng)王輝出席活動(dòng)并致辭。王輝表示,立足國(guó)家戰(zhàn)略布局,發(fā)展開源生態(tài)、鍛造自主可控核心技術(shù)人才隊(duì)伍,是推動(dòng)科技自立自強(qiáng)的關(guān)鍵
    的頭像 發(fā)表于 10-31 10:43 ?1022次閱讀
    東<b class='flag-5'>北大</b>學(xué)<b class='flag-5'>開源</b>鴻蒙技術(shù)俱樂部正式揭牌成立

    FPNew開源浮點(diǎn)運(yùn)算單元工程建立

    和fpu_div_sqrt_mvp。這兩個(gè)文件夾目前處于空的狀態(tài),只要將剛剛下載好的依賴添加進(jìn)去即可。 下載下來的fpu_div_sqrt_mvp-master依賴中文件全部放
    發(fā)表于 10-24 11:08

    eForce無線通信軟件開發(fā)工具包兼容WLAN模塊WKR612AA1

    近期,eForce株式會(huì)社宣布,其面向嵌入式設(shè)備的無線通信軟件開發(fā)工具包(μC3-WLAN SDK)現(xiàn)已兼容 KAGA FEI 生產(chǎn)的無線局域網(wǎng)(WLAN)模塊"WKR612AA1"。
    的頭像 發(fā)表于 09-24 15:16 ?1778次閱讀

    量化評(píng)估企業(yè)軟件測(cè)試能力的評(píng)估工具包

    “每次版本迭代,測(cè)試團(tuán)隊(duì)總是最晚下班的群人...”在汽車軟件快速迭代的今天,這樣的場(chǎng)景已成為行業(yè)常態(tài):開發(fā)效率不斷提升,但測(cè)試環(huán)節(jié)卻逐漸成為拖慢交付的“最后公里”。復(fù)雜的工具鏈、割裂的流程、模糊
    的頭像 發(fā)表于 08-27 10:04 ?933次閱讀
    量化評(píng)估企業(yè)軟件測(cè)試能力的評(píng)估<b class='flag-5'>工具包</b>

    我做了個(gè)智能高速隔離的USBHub...開源!

    代碼 ? 軟件說明 僅開源ESP32固件,且需使用激活工具激活。 固件燒錄及激活方式請(qǐng)見5.2和5.3節(jié)。 安卓手機(jī)應(yīng)用請(qǐng)?jiān)诟郊邢螺d安裝usb_hub_app.apk 5.2 燒錄方式
    發(fā)表于 08-09 16:01

    開放原子開源基金會(huì)與新開源項(xiàng)目完成捐贈(zèng)簽約

    近日,在2025開放原子開源生態(tài)大會(huì)開幕式上,開放原子開源基金會(huì)與新開源項(xiàng)目完成捐贈(zèng)簽約,涵蓋人工智能、具身智能、基礎(chǔ)軟件、區(qū)塊鏈等多個(gè)技術(shù)領(lǐng)域,為基金會(huì)拓展在關(guān)鍵技術(shù)領(lǐng)域上的布局
    的頭像 發(fā)表于 07-28 17:04 ?1175次閱讀

    IQM 宣布 Resonance 量子云平臺(tái)重大升級(jí),推出全新軟件開發(fā)工具包

    進(jìn)程,并為終端用戶帶來性能強(qiáng)大的新代量子系統(tǒng)。 此次升級(jí)將 Qrisp——個(gè)源自德國(guó)弗勞恩霍夫 FOKUS 研究所的項(xiàng)目——設(shè)為平臺(tái)新的默認(rèn)軟件開發(fā)工具包 (SDK)。Qrisp
    的頭像 發(fā)表于 07-11 11:03 ?814次閱讀

    開源工具 Made with KiCad(131):BomberCat 安全測(cè)試工具

    “? BomberCat 是個(gè)結(jié)合硬件開發(fā)與安全測(cè)試的開源工具,主要面向電子工程和網(wǎng)絡(luò)安全領(lǐng)域。用于檢測(cè)銀行終端、門禁系統(tǒng)等設(shè)備的漏洞。 ” Made with KiCad 系列將支
    的頭像 發(fā)表于 06-19 11:18 ?8271次閱讀
    <b class='flag-5'>開源</b><b class='flag-5'>工具</b> Made with KiCad(131):BomberCat 安全測(cè)試<b class='flag-5'>工具</b>

    開源鴻蒙工程工具分論壇圓滿舉辦

    近日,開源鴻蒙開發(fā)者大會(huì)2025(OHDC.2025)工程工具分論壇在深圳圓滿舉辦。本次分論壇由開源鴻蒙IDE SIG組長(zhǎng)、華為終端BG工程工具技術(shù)專家唐春擔(dān)任出品人,主題為“
    的頭像 發(fā)表于 06-05 15:35 ?1211次閱讀
    安溪县| 宁晋县| 亳州市| 溧水县| 四会市| 宁河县| 阿合奇县| 石景山区| 长垣县| 合作市| 兖州市| 桂平市| 偃师市| 揭阳市| 定西市| 大方县| 革吉县| 景泰县| 黎平县| 原平市| 革吉县| 东宁县| 东源县| 河池市| 大兴区| 巴彦淖尔市| 济源市| 东辽县| 蓝山县| 阿图什市| 海晏县| 琼中| 四平市| 文水县| 余庆县| 新郑市| 海丰县| 开封县| 双柏县| 嵊州市| 那坡县|