开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 11441|回复: 81
收起左侧

[易源码分享] 手机号码去重一千万2秒内,bitmap支持百亿号码,仅耗内存1.2G

[复制链接]
发表于 2021-8-2 16:16:36 | 显示全部楼层 |阅读模式   广东省广州市
分享源码
界面截图:
是否带模块: 调用了模块
备注说明: -
因为朋友再移动外包公司上班,有手机号码去重删选的需要,朋友用的python,也是用的哈希去重方式,大概1000W手机数据去重处理速度在5到6秒左右,于是乎我也想用易语言实现以下,想试下易语言能否实现大数据的处理以及实现速度,论坛各种哈希表试了个便,最终得出结论,速度最快的是ASM哈希表,1000W处理时间在4到5秒之间,可以说是非常的快的了,但是用哈希表在易语言运行存在一个问题,我实测1000W号码占用内存大约是400多M,也就是说易语言最大能处理不过三四千万的数据,由于易语言是32位的,最大支持内存仅1.7G这样,内存占用到达1.7G就会自动程序崩溃,无法处理上亿的手机号码,不论你内存条有10G还是100G,但是易语言程序最大仅支持1.7G,实在是非常的限制。但是单从处理速度而言,论坛大神ASM哈希表确实是效率极高的了。后面网上看到bitmap处理上亿级别的手机号码处理,于是到易语言论坛查了下,发现还没人实现过,那我就来做下把。在特定的数据处理情况下,使用bitmap方式去重效率就会显得比哈希表去重更加高效,不仅速度有极大的提升,内存占用方面,即使999亿的手机号码,也仅仅占用1.2G的内存即可处理,极大的节省内存,能够在低配置的电脑上也能运行起来,具体的就不吹嘘,有兴趣的可以自行百度搜索bitmap了解下

最后上代码,cpu为i7 8700实测1000W手机号码数据用bitmap方式去重耗时1.9秒左右,论坛ASM哈希表方式去重4.5秒左右,一亿手机号码数据用bitmap方式去重耗时31秒左右,论坛ASM哈希表无法处理过大数据因而未知,如有更高效率的欢迎留言交流
处理耗时 包含读入文档,载入数据,去重,最后写出。论坛许多噱头都是只谈去重过程,无视读入和写出过程的评测都是耍流氓行为。

压缩包包含源码,请编译后测试,哈希表去重方式调用的论坛ASM哈希表模块,还有生成手机号码的源码一一附上,有兴趣的可以自己测试下



部分代码展示
  
子程序名返回值类型公开备 注
bitmap执行  
参数名类 型参考可空数组备 注
分块整数型
变量名类 型静态数组备 注
数据快速字节集对象 
数据_汇编类_快速文本 
文件名2文本型 
文件长度整数型 
i整数型 
要替换的字节集字节集 
替换为字节集 
处理进度整数型 
原表项字节集数组字节集0
单条号码字节集 
单条号码_数组文本型0
单条号码_数组_计次整数型 
第一个号码字节集 
文件号整数型 
Heap整数型 
内存大小整数型 
tempInt整数型 
本线程处理块整数型 
Heap_数组整数型0
tempInt_数组整数型0
分类文件_数组_计次整数型 
a字节集 
zjj字节集 
单条号码_字节集数组字节集0
号码字节集字节集 
aa整数型 
返回状态整数型 
余数整数型 
读入大小长整数型 
总执行长整数型 
线程执行分块开始长整数型 
线程执行分块结束长整数型 
jici_局哈希整数型 
jici_局重复整数型 
分类号整数型 
字节集 
整数型 
长整数号码长整数型 
整数型 
长整数号码1双精度小数型 
新结果字节型 
文件号 = 打开文件 (编辑框1.内容, 1, 1)
余数 = 文件尺寸 % 总分块
本线程处理块 = 文件尺寸 ÷ 总分块
总执行 = 0
如果 (分块 = 总分块)
本线程处理块 = 本线程处理块 - 本线程处理块 % 13
线程执行分块开始 = 到长整数 ( (分块 - 1) × 本线程处理块)
线程执行分块结束 = 到长整数 (文件尺寸)

本线程处理块 = 本线程处理块 - 本线程处理块 % 13
线程执行分块开始 = 到长整数 ( (分块 - 1) × 本线程处理块)
线程执行分块结束 = 到长整数 (分块 × 本线程处理块)
重定义数组 (Heap_数组, 假, 哈希表_分类.取数量 ())
重定义数组 (tempInt_数组, 假, 哈希表_分类.取数量 ())
读入大小 = 13000
内存大小 = 读入大小
循环判断首 ()
如果 (分块 ≠ 1 i ≠ 1)
移动读写位置 (文件号, 1, 线程执行分块开始 - 1)
处理进度 = 取读写位置 (文件号)
i = i + 1



如果 (处理进度 + 内存大小 > 线程执行分块结束)
读入大小 = 线程执行分块结束 - 处理进度
内存大小 = 读入大小



数据.置字节集 (读入字节集 (文件号, 内存大小))
处理进度 = 取读写位置 (文件号)
如果 (处理进度 < 线程执行分块开始 处理进度 > 线程执行分块结束)
到循环尾 ()



计次循环首 (哈希表_分类.取数量 (), 分类文件_数组_计次)
Heap_数组 [分类文件_数组_计次]HeapAlloc (g_ProcessHeap, 0, 内存大小)
tempInt_数组 [分类文件_数组_计次] = Heap_数组 [分类文件_数组_计次]
计次循环尾 ()
' ===================
单条号码_字节集数组 = 数据.分割字节集 ({ 13, 10, 49 }, )
单条号码_字节集数组 [1]取字节集右边 (单条号码_字节集数组 [1], 10)
如果 (取字节集长度 (取字节集左边 (单条号码_字节集数组 [取数组成员数 (单条号码_字节集数组)], 10)) < 10)
删除成员 (单条号码_字节集数组, 取数组成员数 (单条号码_字节集数组), )

单条号码_字节集数组 [取数组成员数 (单条号码_字节集数组)]取字节集左边 (单条号码_字节集数组 [取数组成员数 (单条号码_字节集数组)], 10)

计次循环首 (取数组成员数 (单条号码_字节集数组), 单条号码_数组_计次)
号码字节集 = 单条号码_字节集数组 [单条号码_数组_计次]
第一个号码 = 取字节集左边 (号码字节集, 1)
分类号 = 哈希表_分类.取值 (第一个号码)
长整数号码 = 到长整数 (到文本 (号码字节集))
模 = 长整数号码 % 8 + 1
长整数号码 = 长整数号码 ÷ 8
jici_局哈希 = jici_局哈希 + 1
进入许可区 (许可证)
新结果 = BOr (bitmap [长整数号码], 位与数组 [])
如果 (新结果 = bitmap [长整数号码])
返回状态 = 2
bitmap [长整数号码] = 新结果
返回状态 = 1

退出许可区 (许可证)
如果 (返回状态 = 2)
jici_局重复 = jici_局重复 + 1



RtlMoveMemory_字节集1 (tempInt_数组 [分类号], { 49 } + 号码字节集 + { 13, 10 }, 13)
tempInt_数组 [分类号] = tempInt_数组 [分类号] + 13

计次循环尾 ()
' ===================
计次循环首 (哈希表_分类.取数量 (), 分类文件_数组_计次)
' WriteFile (文件号_数组 [分类文件_数组_计次], Heap_数组 [分类文件_数组_计次], tempInt_数组 [分类文件_数组_计次] - Heap_数组 [分类文件_数组_计次], 0, 0)
WriteFile (文件号_数组 [1], Heap_数组 [分类文件_数组_计次], tempInt_数组 [分类文件_数组_计次] - Heap_数组 [分类文件_数组_计次], 0, 0)
HeapFree (g_ProcessHeap, 0, Heap_数组 [分类文件_数组_计次])  ' 释放内存
计次循环尾 ()
循环判断尾 (线程执行分块结束 ≠ 处理进度)
关闭文件 (文件号)
进入许可区 (许可证)
jici_哈希 = jici_哈希 + jici_局哈希
jici_重复 = jici_重复 + jici_局重复
线程执行完毕 = 线程执行完毕 + 1
退出许可区 (许可证)


i支持库列表   支持库注释   
commobj通用对象支持库
EThread多线程支持库

bitmap去重.zip

1.54 MB, 下载次数: 415, 下载积分: 精币 -2 枚

点评

https://bbs.125.la/thread-14762149-1-1.html,把这个翻译成C++,用长整数,我觉得能快一点   广东省东莞市  发表于 2023-1-31 14:29

评分

参与人数 4好评 +3 精币 +9 收起 理由
ghost12 + 1 支持开源~!感谢分享
易语言资源网 + 1 + 3 支持开源~!感谢分享
huaidan2015 + 1 + 3 支持开源~!感谢分享
国王软件 + 1 + 2 支持开源~!感谢分享

查看全部评分


本帖被以下淘专辑推荐:

结帖率:50% (1/2)

签到天数: 2 天

发表于 2024-9-19 22:53:03 | 显示全部楼层   河南省鹤壁市
牛呀 大佬 支持
回复 支持 反对

使用道具 举报

发表于 2024-7-7 18:00:28 | 显示全部楼层   重庆市重庆市
666666666666
回复 支持 反对

使用道具 举报

发表于 2024-7-7 02:19:24 | 显示全部楼层   重庆市重庆市
66666666666666666666666666
回复 支持 反对

使用道具 举报

结帖率:20% (1/5)

签到天数: 2 天

发表于 2023-6-29 21:27:15 | 显示全部楼层   福建省泉州市
6666666666666666666666666666666666666666
回复 支持 反对

使用道具 举报

结帖率:0% (0/1)

签到天数: 20 天

发表于 2023-6-22 21:37:47 | 显示全部楼层   海南省海口市
手机号码去重一千万2秒内,bitmap支持百亿号码,仅耗内存1.2G
厉害了我的楼主
回复 支持 反对

使用道具 举报

签到天数: 24 天

发表于 2023-6-18 11:29:57 | 显示全部楼层   浙江省金华市
感谢分享
回复 支持 反对

使用道具 举报

结帖率:92% (11/12)
发表于 2023-6-7 22:27:34 | 显示全部楼层   河南省漯河市
分配内存失败,I5-9400F,16G内存,W10企业版
16861479401.jpg
回复 支持 反对

使用道具 举报

结帖率:50% (1/2)
发表于 2023-2-23 08:03:19 | 显示全部楼层   山东省淄博市
6666666666666666666666666
回复 支持 反对

使用道具 举报

结帖率:81% (48/59)

签到天数: 3 天

发表于 2023-2-21 18:04:49 | 显示全部楼层   江苏省淮安市
大哥,啥玩意,咋回事!我99G 的文本去重复,开了2小时,还没处理完。我事I9 cpu 。内存48G .
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表