开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 572|回复: 29
收起左侧

[已解决] 有A,B2个千万行的数据里,去重复后, 查找A有 B没有的数据

 关闭 [复制链接]
结帖率:68% (13/19)
发表于 2024-10-28 13:34:27 | 显示全部楼层 |阅读模式   广东省广州市
5精币
有A,B2个千万行的数据里,分割去重复后, 查找A有  B没有的数据
正常的查找文本, 几个小时后 还没弄好,就给关闭了

有没有好的办法?



最佳答案

查看完整内容

[e=3].版本 2 .支持库 commobj .子程序 大文本去重复比对, , 公开, 取重复后比对 .参数 文本A, 文本型 .参数 文本B, 文本型 .参数 分隔符, 文本型, 可空, 默认为换行符 .参数 返回去重后文本A, 文本型, 可空 .参数 返回去重后文本B, 文本型, 可空 .参数 返回两文本重复部分, 文本型, 可空 数组 .局部变量 文本组, 文本型, , "0" .局部变量 i, 整数型 .局部变量 输入, 快速文本对象 .局部变量 A去重, 快速文本对象 .局部变量 B去重 ...

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳
结帖率:100% (2/2)

签到天数: 21 天

发表于 2024-10-28 13:34:28 | 显示全部楼层   辽宁省丹东市
  
子程序名返回值类型公开备 注
大文本去重复比对 取重复后比对
参数名类 型参考可空数组备 注
文本A文本型
文本B文本型
分隔符文本型默认为换行符
返回去重后文本A文本型
返回去重后文本B文本型
返回两文本重复部分文本型
变量名类 型静态数组备 注
文本组文本型0
i整数型 
输入快速文本对象 
A去重快速文本对象 
B去重快速文本对象 
哈希A哈希表_ASM 
哈希B哈希表_ASM 
如果真 (文本A = “” 文本B = “”)
返回 ()
如果真 (分隔符 = “”)
分隔符 = #换行符
清除数组 (返回两文本重复部分)
哈希A.创建 ( #文本型, #整数型, 25)  ' 2的25次方除以1024 ' 32MB容量
哈希B.创建 ( #文本型, #整数型, 25)
输入.置文本 (文本A)
文本组 = 输入.分割文本 (分隔符, )
计次循环首 (取数组成员数 (文本组), i)
如果真 (哈希A.cha询 (文本组 [i]))
哈希A.添加 (文本组 [i], 0)
A去重.添加 (文本组 [i], 分隔符)

计次循环尾 ()
清除数组 (文本组)
输入.置文本 (文本B)
文本组 = 输入.分割文本 (分隔符, )
输入.清除文本 ()
计次循环首 (取数组成员数 (文本组), i)
如果真 (哈希B.cha询 (文本组 [i]))
哈希B.添加 (文本组 [i], 0)
B去重.添加 (文本组 [i], 分隔符)

计次循环尾 ()
清除数组 (文本组)
文本组 = B去重.分割文本 (分隔符, )
计次循环首 (取数组成员数 (文本组), i)
如果真 (哈希A.cha询 (文本组 [i]))
加入成员 (返回两文本重复部分, 文本组 [i])

计次循环尾 ()
哈希A.清空 ()
哈希B.清空 ()
返回去重后文本A = A去重.取文本 (, )
返回去重后文本B = B去重.取文本 (, )


i支持库列表   支持库注释   
commobj通用对象支持库

回复

使用道具 举报

签到天数: 23 天

发表于 2024-10-28 13:35:35 | 显示全部楼层   四川省宜宾市
回复

使用道具 举报

结帖率:90% (9/10)

签到天数: 23 天

发表于 2024-10-28 13:36:11 | 显示全部楼层   重庆市重庆市
可以找我做个软件
回复

使用道具 举报

结帖率:68% (13/19)

签到天数: 4 天

 楼主| 发表于 2024-10-28 13:39:33 | 显示全部楼层   广东省广州市
LEOONL 发表于 2024-10-28 13:35
参考这个https://bbs.125.la/thread-14838511-1-1.html

节点试过了, 也是非常慢
回复

使用道具 举报

签到天数: 23 天

发表于 2024-10-28 13:42:49 | 显示全部楼层   四川省宜宾市
cc121112 发表于 2024-10-28 13:39
节点试过了, 也是非常慢

你的AB文本是判断每行文本的某个参数,像我发你例子那样的,还是每行一模一样的去重
回复

使用道具 举报

结帖率:68% (13/19)

签到天数: 4 天

 楼主| 发表于 2024-10-28 13:48:40 | 显示全部楼层   广东省广州市
LEOONL 发表于 2024-10-28 13:42
你的AB文本是判断每行文本的某个参数,像我发你例子那样的,还是每行一模一样的去重 ...

e12d67e5505857c0eb9d2679c47b404.png

一模一样的
回复

使用道具 举报

结帖率:95% (63/66)

签到天数: 13 天

发表于 2024-10-28 13:49:27 | 显示全部楼层   安徽省淮南市
直接使用AI写NODEJS的代码,处理数据和创建数据库都AI写就可以了 ,我现在输入入库都懒得用E语言写代码了,直接NODEJS处理挺方便
回复

使用道具 举报

签到天数: 15 天

发表于 2024-10-28 13:50:26 | 显示全部楼层   辽宁省辽阳市
如果是我,会把A和B分别做成两个数据表,然后使用连表语句cha询。
回复

使用道具 举报

签到天数: 23 天

发表于 2024-10-28 13:51:39 | 显示全部楼层   四川省宜宾市

那直接 B+辨别分割文本+A 然后直接去重,取出剩下的 辨别分割文本 后面的文本 就是没有B文本的A文本
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表