开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 2107|回复: 116
收起左侧

[易源码分享] NLP自然语言处理结巴(Jieba)分词组件封装开源

[复制链接]
结帖率:100% (6/6)
发表于 2025-2-22 03:14:50 | 显示全部楼层 |阅读模式   天津市天津市
分享源码
界面截图: -
是否带模块: -
备注说明: -
本帖最后由 山顶小雪球 于 2025-3-3 19:29 编辑

EJieba


简单介绍

结巴(Jieba)是一个轻量化的中文分词组件。采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

相关项目

传送门 简介
Jieba Jieba中文分词Python原版本
CppJieba CppJieba中文分词C++版本

特点

支持四种分词模式

  • 精确模式,试图将句子最精确地切开,适合文本分析
  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
  • 自定义长度模式,自定义分词最大长度,适合灵活场景。

主要功能

  • Jieba.Cut()方法接受两个参数

    [文本型] sentence 待分词的字符串
    [逻辑型] hmm 是否使用 HMM 模型处理未登录词

    调试输出 (Jieba.Cut (“我来到北京清华大学,台中”, 假))
    输出结果:我/来到/北京/清华大学/,/台/中
  • Jieba.CutAll()方法接受一个参数

    [文本型] sentence 待分词的字符串

    调试输出 (Jieba.CutAll (“我来到北京清华大学,台中”))
    输出结果:我/来到/北京/清华/清华大学/华大/大学/,/台中
  • Jieba.CutHMM()方法接受一个参数

    [文本型] sentence 待分词的字符串

    调试输出 (Jieba.CutHMM (“我来到北京清华大学,台中”))
    输出结果:我来/到/北京/清华大学/,/台中
  • Jieba.CutForSearch()方法接受两个参数

    [文本型] sentence 待分词的字符串
    [逻辑型] hmm 是否使用 HMM 模型处理未登录词

    调试输出 (Jieba.CutForSearch (“我来到北京清华大学,台中”))
    输出结果:我/来到/北京/清华/华大/大学/清华大学/,/台中
  • Jieba.CutSmall()方法接受两个参数

    [文本型] sentence 待分词的字符串
    [整数型] max_word_len 最大词长限制

    调试输出 (Jieba.CutSmall (“我来到北京清华大学,台中”, 1))
    输出结果:我/来/到/北/京/清/华/大/学/,/台/中

自定义用户词典

自定义词典示例请看dict/user.dict.utf8

没有使用自定义用户词典时的结果:

令狐冲/是/云/计算/行业/的/专家

使用自定义用户词典时的结果:

令狐冲/是/云计算/行业/的/专家

我的碎碎念

这两天在做本地的全文搜索引擎(搜搜文章,文件之类的),在写倒排索引的时候需要用到分词功能就顺便发出来了。以我能跑就行的特点(懒)如果不出意外的话后续不会有什么更新了。

更新日志

  • 3月3日更新置1.0.2版本
    ·修复Create报错问题
    ·补充缺失字典文件

项目下载



EC_Jieba.7z (3.16 MB, 下载次数: 27, 售价: 5 枚 精币)

点评

来个大神告诉我这个到底有什么用,因为我之前也写过   广东省揭阳市  发表于 2025-3-4 03:14

评分

参与人数 26好评 +2 精币 +30 收起 理由
pcghr355 + 1 感谢分享,很给力!~
z134 + 1 感谢分享,很给力!~
风雨3137 + 1 感谢分享,很给力!~
初阳123 + 1 感谢分享,很给力!~
jc520hll + 1 感谢分享,很给力!~
ma4747 + 1 感谢分享,很给力!~
t176 + 1 感谢分享,很给力!~
cbl521ysys + 1 感谢分享,很给力!~
无尘666 + 1 感谢分享,很给力!~
3266167 + 1 感谢分享,很给力!~
huangdi9569 + 1 感谢分享,很给力!~
pj小黑屋 + 1 感谢分享,很给力!~
liy456 + 1 感谢分享,很给力!~
zjbin1989 + 1 感谢分享,很给力!~
文西哥 + 1 感谢分享,很给力!~
望尘莫及 + 1 感谢分享,很给力!~
黯丄辶 + 1 感谢分享,很给力!~
暮光之城 + 1 感谢分享,很给力!~
hackjoe + 1 感谢分享,很给力!~
sundanming + 1 感谢分享,很给力!~
huangdi956 + 1 感谢分享,很给力!~
Zźh926 + 1 感谢分享,很给力!~
山川 + 2 开源精神必须支持~
abpyu + 1 + 2 开源精神必须支持~
多多帅吧 + 1 感谢分享,很给力!~
maozaiba + 1 + 3 奉上小小红包希望笑纳

查看全部评分


本帖被以下淘专辑推荐:

结帖率:33% (1/3)

签到天数: 4 天

发表于 3 天前 | 显示全部楼层   广西壮族自治区南宁市
终于有大神移植到易了,感谢啊,正想着要不要去学Python
回复 支持 反对

使用道具 举报

结帖率:100% (47/47)

签到天数: 27 天

发表于 2025-3-21 12:20:05 | 显示全部楼层   江西省南昌市
果您要查看本帖隐藏内容请回复
回复 支持 反对

使用道具 举报

签到天数: 3 天

发表于 2025-3-21 10:54:51 | 显示全部楼层   贵州省贵阳市
正需要,下来看看
回复 支持 反对

使用道具 举报

签到天数: 31 天

发表于 2025-3-19 13:32:17 | 显示全部楼层   山东省青岛市
结巴分词挺实用的,做文本分析必备啊。山顶小雪球分享得很及时,看来又可以省下不少功夫呢。
回复 支持 反对

使用道具 举报

结帖率:39% (7/18)

签到天数: 4 天

发表于 2025-3-19 12:00:12 | 显示全部楼层   浙江省杭州市
谢谢分享谢谢分享谢谢分享谢谢分享
回复 支持 反对

使用道具 举报

结帖率:78% (64/82)

签到天数: 4 天

发表于 2025-3-19 02:59:30 | 显示全部楼层   河南省新乡市
as asasasasasas
回复 支持 反对

使用道具 举报

结帖率:100% (7/7)

签到天数: 28 天

发表于 2025-3-18 11:06:49 | 显示全部楼层   山东省聊城市
#在这里支持,YYDS~快速回复#
回复 支持 反对

使用道具 举报

结帖率:100% (1/1)

签到天数: 23 天

发表于 2025-3-16 15:58:07 | 显示全部楼层   湖南省邵阳市
新技能已get√
回复 支持 反对

使用道具 举报

结帖率:100% (2/2)

签到天数: 12 天

发表于 2025-3-9 14:40:07 | 显示全部楼层   湖南省郴州市
look look ,谢谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表