前言
以前,我對(duì)大部分的處理中文分詞都是使用python的結(jié)巴分詞工具,該分詞工具是在線調(diào)用API, 關(guān)于這個(gè)的分詞工具的原理介紹,我推薦一個(gè)好的博客:?
http://blog.csdn.net/daniel_ustc/article/details/48195287.?
隨著項(xiàng)目的需求,我需要使用斯坦福大學(xué)的自然語(yǔ)言處理包standford作依存關(guān)系樹的構(gòu)建,然而standford很調(diào)皮地不讓我做中文分詞處理(老報(bào)錯(cuò)).無(wú)奈之下,我只能使用第三方的分詞工具.由于standford的源碼是java,我尋找了一個(gè)與之對(duì)應(yīng)的分詞工具,即hanlp.
HanLP的安裝使用
HanLP的一個(gè)很大的好處是離線開源工具包,換而言之,它不僅提供免費(fèi)的代碼免費(fèi)下載,而且將辛苦收集的詞典也對(duì)外公開啦,此誠(chéng)乃一大無(wú)私之舉.我在安裝的時(shí)候,主要參照這份博客:?
http://m.blog.csdn.net/article/details?id=50938796?
不過(guò)該博客主要介紹的是windows如何使用hanlp,而ubuntu是linux的,所以會(huì)有所區(qū)別.下面我主要介紹的是在unbuntu的安裝使用.
安裝eclipse?
在終端輸入 sudo get-apt install eclipse-platform實(shí)現(xiàn)一鍵安裝,然后在應(yīng)用程序找到eclipse
下載hanlp?
訪問(wèn)hanlp的官方網(wǎng)址:http://hanlp.linrunsoft.com/services.html?
分別下載hanlp.jar(程序包), data.zip(詞典庫(kù)),hanlp.properties(配置文件),而后面是說(shuō)明文檔,可以不下載
在下載的data.zip的時(shí)候,下載鏈接有點(diǎn)隱晦,點(diǎn)擊藍(lán)色的data-for-1.2.11.zip,就會(huì)出現(xiàn)百度云鏈接啦
導(dǎo)入jar包?
導(dǎo)入hanlp到eclipse之中,具體的流程可以參照網(wǎng)址:?
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html
導(dǎo)入配置文件?
將hanlp.propertie復(fù)制至項(xiàng)目的bin目錄中,修改詞典的路徑?
將root的路徑修改至data保存的路徑(記得data要解壓)
編程代碼示范
import java.util.List;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.Segment;
import com.hankcs.hanlp.seg.common.Term;
public class DemoHanLP {
? ? public static void main(String[] agrs){
? ? ? ? String sentence = "大家好, 我的名字叫作Quincy.";
? ? ? ? Segment segment = HanLP.newSegment();
? ? ? ? List
? ? ? ? for(Term term : termList){
? ? ? ? ? ? System.out.print(term+ " ");
? ? ? ? }
? ? }
}
運(yùn)行結(jié)果:
文章來(lái)源于Quincy1994的博客
電子發(fā)燒友App




























評(píng)論