jieba是目前最好的中文分词组件,主要有三个特性:
1.支持三种分词模式:精确模式,全模式,搜索引擎模式
2.支持频繁分词
3.支持自定义词典
1 | jieba.cut() #返回生成器 |
HMM模型
1 | HMM模型,即隐马尔可夫模型,是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐形状态的表现概率.在jieba中,对于未登录到词库的词,使用了基于汉字成词能力的HMM模型和Viterbi算法. |
添加自定义词典
1 | 词语 词频(可省略) 词性(可省略) |
关键词提取(IF-IDF和TextRank)
1 | IF-IDF是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度. |
自定义语料库
1 | 关键词提取所使用的逆向文件频率(IDF)文本语料库和停用词(stop words)文本语料库可以切换成自定义语料库的路径 |
词性标注
1 | jieba.posseg.cut(text) |
返回词语在原文中的起止位置
1 | jieba.tokenize() |