开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 310|回复: 15
收起左侧

[易语言] 文本按行截取

[复制链接]
结帖率:98% (119/121)
发表于 2025-7-6 00:26:44 | 显示全部楼层 |阅读模式   重庆市重庆市
188精币
1.txt中有大量行数的文本
多线程中需要每次按设定数量,按顺序截取1.txt里面的文本,例如每次取出1000行。

有两个问题:
1.大文本取出较慢,比如这个文本有50M,每次现用现取就会有点慢。
2.按顺序取用,不能重复不能打乱顺序,比如我2线程跑的时候,第2个线程应该取出1001-2001的文本行。


我的想法是运行前读取成数组,发布时从数组里面取。或者用快速字节集取用。主要是发帖问一下各位前辈,推荐写法。
我会写,只是不知道哪种方式好,所以不用贴代码,分析一下优缺点,感谢!

最佳答案

查看完整内容

无论你用 指针到文本 还是 计次=文本 都是最慢的。最好还是复制文本数组的指针,达到一次复制出1000行的文本。不知道什么原因,使用RtlMoveMemory复制指针运行完会报错,索性就不用了 [e=0] .版本 2 .子程序 数组分割_文本型, , 公开 .参数 参_数组, 文本型, 数组 .参数 参_新数组长度, 整数型 .参数 参_新数组, 文本型, 参考 数组 .参数 参_起始位置, 整数型, 可空 .局部变量 局_新数组指针, 整数型 .局部变量 局_数 ...

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳

签到天数: 14 天

发表于 2025-7-6 00:26:45 | 显示全部楼层   湖北省黄石市
无论你用 指针到文本 还是 计次=文本 都是最慢的。最好还是复制文本数组的指针,达到一次复制出1000行的文本。不知道什么原因,使用RtlMoveMemory复制指针运行完会报错,索性就不用了

  
子程序名返回值类型公开备 注
数组分割_文本型 
参数名类 型参考可空数组备 注
参_数组文本型
参_新数组长度整数型
参_新数组文本型
参_起始位置整数型
变量名类 型静态数组备 注
局_新数组指针整数型 
局_数组指针整数型 
局_计次整数型 
重定义数组 (参_新数组, 假, 参_新数组长度)
局_新数组指针 = PtrStrArray (参_新数组)
局_数组指针 = PtrStrArray (参_数组)
计次循环首 (参_新数组长度, 局_计次)
参_新数组 [局_计次]指针到文本 (PtrGetTableItem (局_数组指针, 局_计次 - 1 + 参_新数组长度 × 参_起始位置))
计次循环尾 ()
' RtlMoveMemory_整数型 (PtrStrArray (参_新数组), PtrStrArray (参_数组) + 参_新数组长度 × 参_起始位置 × 4, 参_新数组长度 × 4)
子程序名返回值类型公开备 注
PtrGetTableItem整数型 
参数名类 型参考可空数组备 注
参数_Table整数型
参数_Index整数型
置入代码 ({ 139, 69, 8, 139, 77, 12, 139, 4, 136, 201, 194, 8, 0 })
' mov eax,[ebp+08]
' mov ecx,[ebp+12]
' mov eax,[eax+ecx*4]
' leave
' retn 08
返回 (0)
子程序名返回值类型公开备 注
PtrStrArray整数型 取文本型数组内存指针,成功返回内存指针,失败返回#NULL
参数名类 型参考可空数组备 注
StringArray文本型文本型数组
置入代码 ({ 139, 69, 8, 133, 192, 116, 5, 139, 0, 141, 64, 8, 137, 236, 93, 194, 4, 0 })
返回 (0)
DLL命令名返回值类型公开备 注
RtlMoveMemory_整数型整数型 拷贝来源内存到目标内存。无返回值。
DLL库文件名:
ntdll.dll
在DLL库中对应命令名:
RtlMoveMemory
参数名类 型传址数组备 注
lpDestination整数型指向目标内存的指针
lpSource整数型指向来源内存的指针
Length整数型拷贝的字节数。



截图32位20250706060026.png
截图32位20250706060132.png
回复

使用道具 举报

结帖率:88% (14/16)

签到天数: 13 天

发表于 2025-7-6 00:34:55 | 显示全部楼层   河南省洛阳市
用快速 字节吧  读成数组会更慢。
回复

使用道具 举报

结帖率:98% (119/121)

签到天数: 12 天

 楼主| 发表于 2025-7-6 00:37:19 | 显示全部楼层   重庆市重庆市
a4561482 发表于 2025-7-6 00:34
用快速 字节吧  读成数组会更慢。

当真
   
回复

使用道具 举报

结帖率:100% (1/1)

签到天数: 18 天

发表于 2025-7-6 00:45:38 | 显示全部楼层   江西省南昌市
觉得慢,你所有代码可以改成汇编模式,那速度嗖嗖的
回复

使用道具 举报

结帖率:100% (3/3)

签到天数: 19 天

发表于 2025-7-6 01:00:59 | 显示全部楼层   贵州省毕节市
慢就是数组导致的快速文本对象 寻找文本 重复若干次 就可以截取多少多少行的数据了 比分割更快

点评

寻找换行符 本次开始位置等于上次找到位置加一   贵州省毕节市  发表于 2025-7-6 01:01
回复

使用道具 举报

结帖率:98% (119/121)

签到天数: 12 天

 楼主| 发表于 2025-7-6 01:03:38 | 显示全部楼层   重庆市重庆市
笨来无一悟 发表于 2025-7-6 01:00
慢就是数组导致的快速文本对象 寻找文本 重复若干次 就可以截取多少多少行的数据了 比分割更快{:7 ...

我用快速字节集从文件读,然后用计次循环首拼接呢。寻找换行符也要拼接这一步的吧?
回复

使用道具 举报

结帖率:98% (119/121)

签到天数: 12 天

 楼主| 发表于 2025-7-6 01:03:58 | 显示全部楼层   重庆市重庆市
hongqingfeng 发表于 2025-7-6 00:45
觉得慢,你所有代码可以改成汇编模式,那速度嗖嗖的

汇编我不会呀亲哥
回复

使用道具 举报

结帖率:0% (0/1)

签到天数: 15 天

发表于 2025-7-6 01:21:22 | 显示全部楼层   河南省新乡市
针对你的需求,以下是几种解决方案的分析及优缺点对比:

### 方案1:预加载整个文件到内存数组
**实现方式**:  
启动时一次性读取整个文本文件到内存中的数组(如Python的`list`),每个线程通过全局索引原子锁获取指定行范围。

**优点**:  
- **速度极快**:后续每次取文本都是内存操作(纳秒级响应)  
- **实现简单**:代码逻辑清晰(数组下标直接定位)  
- **线程安全易控**:通过原子锁(如`threading.Lock`)管理全局行索引

**缺点****:**  
- **内存占用高**:50MB文本加载到内存后,实际占用可能达100~200MB(取决于语言和编码)  
- **启动延迟**:初始化时需要完整读取文件(50MB文件约需0.5~2秒,取决于磁盘性能)

**适用场景**:  
- 内存资源充足(如服务器环境)  
- 文件大小可控(≤1GB)  
- 需要极致取用速度的场景

---

### 方案2:内存映射文件(Memory-Mapped File)
**实现方式**:  
使用`mmap`将文件映射到虚拟内存,线程通过共享映射区域按需读取。

**优点**:  
- **内存占用低**:操作系统按需加载物理页(4KB单位)  
- **零拷贝高效**:避免用户态与内核态数据复制  
- **启动瞬时完成**:映射建立即可开始操作

**缺点**:  
- **需要手动处理分行**:需解析`\n`位置(需额外记录行偏移索引)  
- **跨平台差异**:Windows/Linux的`mmap` API行为略有不同  
- **复杂度较高**:需处理字节边界和编码转换

**适用场景**:  
- 超大文件(>1GB)  
- 内存敏感环境(如嵌入式设备)  
- 允许额外开发成本

---

### 方案3:预读缓存分块
**实现方式**:  
启动时预读前N个块(如10×1000行)到队列,后台线程异步加载后续块。

**优点**:  
- **内存平衡**:动态加载,峰值内存可控  
- **减少等待**:线程从内存队列取块,与磁盘I/O解耦  
- **顺序保证**:队列自然维持顺序

**缺点**:  
- **逻辑复杂**:需实现生产-消费者模型  
- **突发延迟风险**:若消费速度 > 加载速度可能阻塞

**适用场景**:  
- 内存有限但磁盘IO较快(如SSD)  
- 允许轻微启动延迟的场景

---

### 多线程分配策略推荐
```python
# 伪代码示例(原子计数分配)
global_next_index = 0  # 原子变量(如AtomicLong)
lock = threading.Lock()

def thread_worker():
    while True:
        with lock:
            start_line = global_next_index
            end_line = start_line + 1000
            global_next_index = end_line
        # 从数据结构中提取[start_line:end_line]行
        process_chunk(get_lines(start_line, end_line))
```

---

### 终极建议
1. **50MB文件首选预加载数组**  
   - 现代服务器内存轻松支撑,代码简单性能高  
   - Python示例:  
     ```python
     with open("1.txt", "r") as f:
         lines = f.readlines()  # 一次性加载
     # 线程通过lines[start:end]取块
     ```

2. **超大规模(>10GB)考虑内存映射**  
   - 使用`mmap` + 行偏移索引表(启动时构建)

3. **避免:实时按需读取**  
   ```python
   # 不推荐!每次磁盘IO导致性能瓶颈
   def slow_get_lines(start, end):
       with open("1.txt") as f:
           return [line for i,line in enumerate(f) if start<=i<end]
   ```

### 性能对比
| 方案                | 初始化时间 | 单次取块耗时 | 内存开销 | 实现复杂度 |
|---------------------|------------|--------------|----------|------------|
| 预加载数组          | 中         | **★ 0.1ms**  | 高       | 低         |
| 内存映射文件        | **★ 低**   | 1~10ms       | 极低     | 中高       |
| 预读缓存分块        | 低         | 0.1ms        | 中       | 中         |
| 实时读取(对比组)  | 无         | 50~500ms     | 低       | 低         |

> **结论**:你的预加载思路完全正确,50MB文件大胆用方案1,百行代码内即可高效解决。
回复

使用道具 举报

签到天数: 18 天

发表于 2025-7-6 01:45:16 | 显示全部楼层   广东省惠州市
.版本 2
.支持库 commobj
.支持库 spec

.局部变量 每行字节数组, 字节集, , "0"
.局部变量 ksz, 快速字节集对象

ksz.从文件读 (文件地址)
每行字节数组 = 分割字节集 (ksz.取字节集 (, ), { 13, 10 }, )
文件总行数 = 取数组成员数 (每行字节数组)
调试输出 (“文件总行数:” + 到文本 (文件总行数))



试试看我这个代码吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表