开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 549|回复: 20
收起左侧

[易语言] 大文本处理问题3

[复制链接]
结帖率:78% (25/32)
发表于 2024-11-9 16:45:53 | 显示全部楼层 |阅读模式   江西省南昌市
66精币
文本.txt里有超过百万行数据
重复文本.txt里有若干行数据

要在文本.txt里查找重复文本.txt里的内容并删除

用快速文本对象方式,测试一千二百条数据要五分钟才能处理完。

于是想到将文本.txt分割成多份,然后用多线程同时处理。

那么问题来了,如果用读入文件再分割文本把文本.txt做成数组,太慢。
如果用快速文本对象.从文件读,又不知道怎么做成数组

请问各位大佬如何处理的。或者有其他方式?


补充内容 (2024-11-9 17:38):
搞了两个文档,一个原文本,一个待删除文本,望指点!
外链:https://wwqc.lanzouj.com/b02untxbe 密码:6h3p

补充内容 (2024-11-9 19:30):
真速度大比拼,快速字节集对象最快,测试比快速文本对象快三分之一左右


回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳

签到天数: 22 天

发表于 2024-11-9 16:50:24 | 显示全部楼层   四川省宜宾市
你直接把文本2+间隔标识+文本1 ,然后去重,取出间隔标识之后的文本 ,就是去重文本2之后的文本1
回复

使用道具 举报

结帖率:100% (3/3)

签到天数: 22 天

发表于 2024-11-9 16:59:40 | 显示全部楼层   福建省莆田市
上一部分测试数据,来一场速度大比拼
回复

使用道具 举报

结帖率:78% (25/32)

签到天数: 16 天

 楼主| 发表于 2024-11-9 17:01:27 | 显示全部楼层   江西省南昌市
LEOONL 发表于 2024-11-9 16:50
你直接把文本2+间隔标识+文本1 ,然后去重,取出间隔标识之后的文本 ,就是去重文本2之后的文本1 ...

这对吗哥,这样不是要把两个文本都存为数组,再合并到一起去重。这样会更慢吧
回复

使用道具 举报

结帖率:78% (25/32)

签到天数: 16 天

 楼主| 发表于 2024-11-9 17:06:30 | 显示全部楼层   江西省南昌市
chenboss 发表于 2024-11-9 16:59
上一部分测试数据,来一场速度大比拼

哈啊哈哈哈哥哈哈哈哈,好的
回复

使用道具 举报

结帖率:78% (25/32)

签到天数: 16 天

 楼主| 发表于 2024-11-9 17:39:07 | 显示全部楼层   江西省南昌市
chenboss 发表于 2024-11-9 16:59
上一部分测试数据,来一场速度大比拼

补充到贴子了!大哥!帮我看看多线程怎么跑合适
回复

使用道具 举报

结帖率:100% (8/8)

签到天数: 21 天

发表于 2024-11-9 18:17:00 | 显示全部楼层   安徽省六安市
我试了4秒多啊  并没有你说的那么长吧
  
子程序名返回值类型公开备 注
_按钮1_被单击  
变量名类 型静态数组备 注
文件号整数型 
全文本文本型 
删除文本文本型 
全文本组文本型0
删除文本组文本型0
i整数型 
n整数型 
全文本行整数型 
结果文本文本型 
时间_取间隔_开始 (标记)
文件号 = 打开文件 (“C:\Users\Administrator\Desktop\随机.txt”, 1, )
全文本 = 读入文本 (文件号, )
关闭文件 (文件号)
文件号 = 打开文件 (“C:\Users\Administrator\Desktop\随机待删除.txt”, 1, )
删除文本 = 读入文本 (文件号, )
关闭文件 (文件号)
文本_分割文本 (全文本, #换行符, , 全文本组)
文本_分割文本 (删除文本, #换行符, , 删除文本组)
计次循环首 (取数组成员数 (删除文本组), n)
全文本行 = 取数组成员数 (全文本组)
计次循环首 (全文本行, i)
如果真 (全文本组 [到整数 (全文本行 + 1 - i)] = 删除文本组 [n])
删除成员 (全文本组, 全文本行 + 1 - i, 1)

计次循环尾 ()
计次循环尾 ()
计次循环首 (取数组成员数 (全文本组), i)
结果文本 = 结果文本 + 全文本组 [i]#换行符
计次循环尾 ()
文件号 = 打开文件 (“C:\Users\Administrator\Desktop\随机.txt”, 4, )
写出文本 (文件号, 结果文本)
关闭文件 (文件号)
调试输出 (时间_取间隔_结束 (标记))


i支持库列表   支持库注释   
spec特殊功能支持库



6e5cbb38-3669-4ad2-97ab-1f24bf1fad41.png f8445be3-e912-42f6-9c12-a246dbc8b5b1.png

评分

参与人数 1精币 +3 收起 理由
风清云游 + 3 此处应该有鼓励~

查看全部评分

回复

使用道具 举报

结帖率:78% (25/32)

签到天数: 16 天

 楼主| 发表于 2024-11-9 18:36:06 | 显示全部楼层   江西省南昌市
花间一壶酒 发表于 2024-11-9 18:17
我试了4秒多啊  并没有你说的那么长吧[e=0].版本 2
.支持库 spec

是因为测试删除文本只有三百多行,文本也只有两万。实际运行的时候文本是几十万,删除的文本几千行。
不过你的代码写的真规范!
用打开文件()+读入文件快 还是用快速文本对象.从文件读快?

点评

咳咳 丢西瓜 捡芝麻   重庆市重庆市  发表于 2024-11-9 18:44
回复

使用道具 举报

签到天数: 22 天

发表于 2024-11-9 18:55:40 | 显示全部楼层   四川省宜宾市
去重.e (6.57 KB, 下载次数: 8)
回复

使用道具 举报

结帖率:94% (15/16)

签到天数: 17 天

发表于 2024-11-9 18:59:11 | 显示全部楼层   黑龙江省哈尔滨市
PixPin_2024-11-09_18-58-13.png


新建文件夹.zip (879.57 KB, 下载次数: 12)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表