本帖最后由 山顶小雪球 于 2025-3-3 19:29 编辑

简单介绍
结巴(Jieba)是一个轻量化的中文分词组件。采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。
相关项目
特点
支持四种分词模式
- 精确模式,试图将句子最精确地切开,适合文本分析
- 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
- 自定义长度模式,自定义分词最大长度,适合灵活场景。
主要功能
自定义用户词典
自定义词典示例请看dict/user.dict.utf8
没有使用自定义用户词典时的结果:
令狐冲/是/云/计算/行业/的/专家
使用自定义用户词典时的结果:
令狐冲/是/云计算/行业/的/专家
我的碎碎念
这两天在做本地的全文搜索引擎(搜搜文章,文件之类的),在写倒排索引的时候需要用到分词功能就顺便发出来了。以我能跑就行的特点(懒)如果不出意外的话后续不会有什么更新了。
更新日志
- 3月3日更新置1.0.2版本
·修复Create报错问题
·补充缺失字典文件
项目下载
EC_Jieba.7z
(3.16 MB, 下载次数: 27, 售价: 5 枚 精币)
|