开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

12
返回列表 发新帖
楼主: 扑通
收起左侧

[易语言纯源码] Python之超大文件处理

[复制链接]
结帖率:100% (12/12)
发表于 2019-1-21 09:13:04 | 显示全部楼层   广东省广州市
谢谢楼主的分享
回复 支持 反对

使用道具 举报

结帖率:91% (32/35)
发表于 2019-1-21 02:09:52 | 显示全部楼层   广东省东莞市
a474335897 发表于 2019-1-20 22:32
你这个牺牲了内存来进行数据处理,如果处理文本超过了你的内存,那么你这个程序就崩了,python有个readline ...

支持个,正在学习python
回复 支持 反对

使用道具 举报

发表于 2019-1-20 22:48:29 | 显示全部楼层   北京市北京市
其实不需要这么麻烦的,python有个内置函数叫readlines
f=open("fdsf.txt","r",encoding="utf-8") # 这里这个encoding一定要写,因为有时候电脑编码是gbk的,而python环境下是utf-8的,这样会出错,所以这里直接指定好
for i in f.readlines(): # 这里的r.readlines() 是个列表,如果你这里需要去重的话直接使用一个set函数直接做去重就可以了,这样不需要再次做去重了,或者直接在后期添加列表中写个set去重
print(i)   # 这里写替换规则即可
以上这种方法会使得在大文件读取时让内存爆炸,比如在实际工作环境中,做数据处理的时候会遇到数据大于你的内存,10G的数据,而你的电脑只有8G的内存,这个样就是崩溃,这个时候使用下面这种
with open("文件名","r",encoding="utf-8")as f:
    while 1:              # 死循环,这里不写true是因为习惯,因为除了0意外的所有都是true
        a=f.readline()    # 这里每次读取一行
        if a:                  # 判断这个a是不是为空,如果不为空则执行下一步,为空执行else
            print(a) # 这里可以做数据处理
        else:
            break   # 跳出

回复 支持 反对

使用道具 举报

发表于 2019-1-20 22:32:20 | 显示全部楼层   北京市北京市
本帖最后由 a474335897 于 2019-1-20 23:01 编辑

你这个牺牲了内存来进行数据处理,如果处理文本超过了你的内存,那么你这个程序就崩了,python有个readline分行读取或者使用yield来操作,这样保证了保证了不牺牲内存,又提升了时间,enumerate实质是一个迭代器,还有一个,就是作者这里大量使用global,其实这里不用,只有局部变量往全局变量赋值的时候用,但是这个列表这些不需要使用global,因为列表是已经开辟好内存空间了,你并没有重新指向新的内存地址,只是在往内存地址里面添加值
回复 支持 反对

使用道具 举报

结帖率:100% (9/9)

签到天数: 4 天

发表于 2019-1-20 21:24:54 | 显示全部楼层   浙江省台州市
厉害 厉害。每一行都有注解。。加分 加分!!
回复 支持 反对

使用道具 举报

结帖率:87% (20/23)

签到天数: 5 天

发表于 2019-1-20 21:08:24 | 显示全部楼层   广东省东莞市
python的支持库丰富啊 羡慕
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表