开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 2048|回复: 25
收起左侧

[求助] 正则怎么批量匹配关键词?

[复制链接]
结帖率:75% (6/8)
发表于 2023-2-6 20:24:47 高大上手机用户 | 显示全部楼层 |阅读模式   福建省泉州市

假设要检测的敏感词是:  猪猪侠|八嘎猫

待检测的文本是: 我不是猪美女猪妹侠,而八是嘎牛逼猫库

代码如下:
正则表达式.创建("猪猪侠|八嘎猫",待检测文本)  匹配不到

正则表达式.创建("[猪猪侠|八嘎猫]",待检测文本)  匹配到了,但是这个匹配是有问题的,它的匹配是每个字,这就会导致一个误判 比如人家发送的消息是: 我不是猪 也匹配到了!这并不是我想要的,希望能实现: 只有待检测文本有 猪猪侠或八嘎猫才会分别匹配到并给匹配到的每个字替换成*后返回过滤的文本,而不是只匹配一个字或者一部分就误判返回有触发敏感词毕竟大部分字词单独或者分开并不是敏感词!

结帖率:50% (2/4)

签到天数: 19 天

发表于 2023-7-1 09:46:45 | 显示全部楼层   广东省东莞市
看看是不是你要的效果,我这里测试可以找到的

匹配猪猪侠.e

842.57 KB, 下载次数: 4, 下载积分: 精币 -2 枚

回复 支持 反对

使用道具 举报

结帖率:50% (2/4)

签到天数: 19 天

发表于 2023-7-1 09:44:29 | 显示全部楼层   广东省东莞市
  
变量名类 型静态数组备 注
a正则表达式类 
匹配数整数型 
a.创建 (“猪”, “我不是猪美女猪妹侠,而八是嘎牛逼猫库”, )
匹配数 = a.取匹配数量 ()
如果真 (匹配数 = 2)
a.创建 (“侠”, “我不是猪美女猪妹侠,而八是嘎牛逼猫库”, )
匹配数 = a.取匹配数量 ()
如果真 (匹配数 = 1)
调试输出 (“找到相关信息猪猪侠”) ' 使用精易模块



i支持库列表   支持库注释   
spec特殊功能支持库

回复 支持 反对

使用道具 举报

结帖率:50% (1/2)

签到天数: 7 天

发表于 2023-7-1 00:11:15 | 显示全部楼层   广西壮族自治区南宁市
如果关键词为:毫无意义
那么按照你的想法:
毫无意义   -->能匹配
我今天毫无办法帮助你,因为这样做没有意义     -->>也能匹配到

所以, 你在想什么??????
回复 支持 反对

使用道具 举报

结帖率:75% (6/8)

签到天数: 1 天

 楼主| 发表于 2023-2-23 17:35:43 | 显示全部楼层   广东省广州市
孙哥哥 发表于 2023-2-7 01:05
那就用 文本_寻找文本

这不跟 寻找文本一样完全匹配 我想要的是正则那样模糊匹配
回复 支持 反对

使用道具 举报

结帖率:75% (6/8)

签到天数: 1 天

 楼主| 发表于 2023-2-23 17:34:45 | 显示全部楼层   广东省广州市
鹏书 发表于 2023-2-7 21:42
e2ee里面有封装了过滤关键词的方法

不也跟寻找文本()原理一样 都是完整匹配 无法分别分字匹配每个关键词
回复 支持 反对

使用道具 举报

结帖率:75% (6/8)

签到天数: 1 天

 楼主| 发表于 2023-2-9 05:43:38 高大上手机用户 | 显示全部楼层   福建省泉州市
afu45 发表于 2023-2-7 08:27
意思是说
原文本是猪美女猪妹侠
猪美女猪妹侠

我要实现的目的是:

假设猪猪侠是违禁词类似


1.对方发送: 我是猪猪侠 能匹配到
2.对方发送: 我是&猪@猪╭(╯ε╰)╮侠  也能匹配到
3.对方发送: 我是猪    不能匹配到

那么如果我用中括号 [猪猪侠|八嘎猫]
虽然实现了1和2 但3就会出问题,匹配到猪 返回该用户发言触发违禁词删除,那么当我的中括号包裹的违禁词有几万,每个字都分割匹配到的结果就是用户发送任何消息都会触发判定违规,可实际上用户发送: 我是猪并不违规 匹配到猪又不是匹配到猪猪侠 可如果我用 猪猪侠|八嘎猫  虽然可以解决1和3的问题,但是2解决不了,那跟我现在用的完全匹配:寻找文本() 有啥区别?别人只要在要发的违禁广告词中间插入一些其它字符不就能躲避检测了 所以我想要实现的效果就是 如果用户发送的文本 里 同时有 八嘎猫 这三个字 不管中间插入多少字符都能匹配到但如果只满足一个或者两个字 比如: 我是八嘎你是谁/你家猫咪好可爱  这种我就不希望被匹配到触发违禁
回复 支持 反对

使用道具 举报

结帖率:75% (6/8)

签到天数: 1 天

 楼主| 发表于 2023-2-9 05:30:49 高大上手机用户 | 显示全部楼层   福建省泉州市
afu45 发表于 2023-2-7 08:27
意思是说
原文本是猪美女猪妹侠
猪美女猪妹侠

意思是:  如果文本里有猪猪侠能匹配到   但如果文本里只有猪就不应该匹配到 可中括号[  ]会匹配每个字
回复 支持 反对

使用道具 举报

结帖率:75% (6/8)

签到天数: 1 天

 楼主| 发表于 2023-2-8 09:31:18 | 显示全部楼层   广东省广州市
afu45 发表于 2023-2-6 20:33
(猪妹侠)|(八嘎猫)

试过了 这个匹配不到
回复 支持 反对

使用道具 举报

结帖率:95% (56/59)

签到天数: 24 天

发表于 2023-2-7 21:42:46 | 显示全部楼层   福建省宁德市
千狐 发表于 2023-2-7 10:50
话说就没有那种一条正则表达式包裹 一堆敏感词 就能批量模糊查询吗?总不能我去给几万条敏感词一个一个加 ...

e2ee里面有封装了过滤关键词的方法
回复 支持 反对

使用道具 举报

  高级模式
B Color Image Link Quote Code Smilies |上传

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表