开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 1237|回复: 73
收起左侧

[易源码分享] NLP自然语言处理结巴(Jieba)分词组件封装开源

[复制链接]
结帖率:100% (6/6)
发表于 4 天前 | 显示全部楼层 |阅读模式   天津市天津市
分享源码
界面截图: -
是否带模块: -
备注说明: -

EJieba


简单介绍

结巴(Jieba)是一个轻量化的中文分词组件。采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

相关项目

传送门 简介
Jieba Jieba中文分词Python原版本
CppJieba CppJieba中文分词C++版本

特点

支持四种分词模式

  • 精确模式,试图将句子最精确地切开,适合文本分析
  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
  • 自定义长度模式,自定义分词最大长度,适合灵活场景。

主要功能

  • Jieba.Cut()方法接受两个参数

    [文本型] sentence 待分词的字符串
    [逻辑型] hmm 是否使用 HMM 模型处理未登录词

    调试输出 (Jieba.Cut (“我来到北京清华大学,台中”, 假))
    输出结果:我/来到/北京/清华大学/,/台/中
  • Jieba.CutAll()方法接受一个参数

    [文本型] sentence 待分词的字符串

    调试输出 (Jieba.CutAll (“我来到北京清华大学,台中”))
    输出结果:我/来到/北京/清华/清华大学/华大/大学/,/台中
  • Jieba.CutHMM()方法接受一个参数

    [文本型] sentence 待分词的字符串

    调试输出 (Jieba.CutHMM (“我来到北京清华大学,台中”))
    输出结果:我来/到/北京/清华大学/,/台中
  • Jieba.CutForSearch()方法接受两个参数

    [文本型] sentence 待分词的字符串
    [逻辑型] hmm 是否使用 HMM 模型处理未登录词

    调试输出 (Jieba.CutForSearch (“我来到北京清华大学,台中”))
    输出结果:我/来到/北京/清华/华大/大学/清华大学/,/台中
  • Jieba.CutSmall()方法接受两个参数

    [文本型] sentence 待分词的字符串
    [整数型] max_word_len 最大词长限制

    调试输出 (Jieba.CutSmall (“我来到北京清华大学,台中”, 1))
    输出结果:我/来/到/北/京/清/华/大/学/,/台/中

自定义用户词典

自定义词典示例请看dict/user.dict.utf8

没有使用自定义用户词典时的结果:

令狐冲/是/云/计算/行业/的/专家

使用自定义用户词典时的结果:

令狐冲/是/云计算/行业/的/专家

我的碎碎念

这两天在做本地的全文搜索引擎(搜搜文章,文件之类的),在写倒排索引的时候需要用到分词功能就顺便发出来了。以我能跑就行的特点(懒)如果不出意外的话后续不会有什么更新了。

项目下载



游客,如果您要查看本帖隐藏内容请回复

评分

参与人数 23好评 +2 精币 +27 收起 理由
初阳123 + 1 感谢分享,很给力!~
jc520hll + 1 感谢分享,很给力!~
ma4747 + 1 感谢分享,很给力!~
t176 + 1 感谢分享,很给力!~
cbl521ysys + 1 感谢分享,很给力!~
无尘666 + 1 感谢分享,很给力!~
3266167 + 1 感谢分享,很给力!~
huangdi9569 + 1 感谢分享,很给力!~
pj小黑屋 + 1 感谢分享,很给力!~
liy456 + 1 感谢分享,很给力!~
zjbin1989 + 1 感谢分享,很给力!~
文西哥 + 1 感谢分享,很给力!~
望尘莫及 + 1 感谢分享,很给力!~
黯丄辶 + 1 感谢分享,很给力!~
暮光之城 + 1 感谢分享,很给力!~
hackjoe + 1 感谢分享,很给力!~
sundanming + 1 感谢分享,很给力!~
huangdi956 + 1 感谢分享,很给力!~
Zźh926 + 1 感谢分享,很给力!~
山川 + 2 开源精神必须支持~
abpyu + 1 + 2 开源精神必须支持~
多多帅吧 + 1 感谢分享,很给力!~
maozaiba + 1 + 3 奉上小小红包希望笑纳

查看全部评分


本帖被以下淘专辑推荐:

签到天数: 3 天

发表于 昨天 21:28 | 显示全部楼层   湖南省郴州市
不错,看看
回复 支持 反对

使用道具 举报

结帖率:0% (0/1)

签到天数: 10 天

发表于 昨天 18:59 | 显示全部楼层   山东省潍坊市
感谢分享
回复 支持 反对

使用道具 举报

结帖率:79% (11/14)

签到天数: 4 天

发表于 昨天 14:20 | 显示全部楼层   湖南省株洲市

感谢分享
回复 支持 反对

使用道具 举报

结帖率:93% (186/199)

签到天数: 9 天

发表于 昨天 12:52 | 显示全部楼层   广东省惠州市
看看怎么样
回复 支持 反对

使用道具 举报

结帖率:100% (12/12)

签到天数: 17 天

发表于 昨天 12:51 | 显示全部楼层   山东省济南市
结巴分词很厉害
回复 支持 反对

使用道具 举报

签到天数: 2 天

发表于 昨天 09:48 | 显示全部楼层   安徽省黄山市
很有用
回复 支持 反对

使用道具 举报

签到天数: 24 天

发表于 昨天 08:24 | 显示全部楼层   福建省厦门市
        感谢分享,很给力!~
回复 支持 反对

使用道具 举报

结帖率:83% (5/6)

签到天数: 24 天

发表于 昨天 02:46 | 显示全部楼层   贵州省毕节市
哦豁  发现不可识别的[编译条件信息段],其数据已披跳过!
回复 支持 反对

使用道具 举报

结帖率:83% (5/6)

签到天数: 24 天

发表于 昨天 02:45 | 显示全部楼层   贵州省毕节市
匹配速度如何
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表