开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 1769|回复: 6
收起左侧

[已解决] 单线程采集15900条评论数据,耗时5分钟,这个正常吗?多线程的话,多快?

 关闭 [复制链接]
结帖率:91% (138/151)
发表于 2014-4-10 00:33:15 | 显示全部楼层 |阅读模式   广东省深圳市
5精币
本帖最后由 caianhua1986 于 2014-4-10 02:27 编辑

2014-04-10_001921.png
超级列表框中导入了160条天猫链接,采集160个商品的评论,是完全一字不漏的采集,包括追评和正常的评论。这里采用的是一个计次循环,来挨个采集。

计次循环的次数,就是取的超级列表框中有多少个项就循环计次,一个大循环处理一个商品页。

一个商品页,多的话有99页,大概包括追评和普通评论一起采集到,有15900条, 采集完一个链接里面的15900条评论后,换下一个链接。
你也看到了上图了,一个文件结束,到另一个文件采集完毕,自动导入txt,费了5分钟时间,1402kb的文件,大概是15900条记录。

因为有的页面不一定有99页面评论,所以,如果针对一个链接的99个分页,采用多线程的话,如何分配呢? 5页一个单位一条线程?

如果是这样子的话,99分页,大概20个线程并发采集15900条评论,  每个线程采集到的评论文本,如何汇聚到同一个txt文本呢?单线程的话,我是用这种方式:
采集到的内容=采集到的内容+单条评论内容
这样子的话,就会一条接一条的被赋值给 采集到的内容 。 等待整个采集完毕,跳出循环写入txt中。
这个单线程的,发现很慢很慢,如果是多线程的内容要汇聚到一起一并写入txt。有点难办? 可能要用到队列、线程池什么的。主要是多个线程采集到的文本汇总,有点难搞。因为不同的线程完成的先后次序不一样。
队列,等待?然后一条一条传值给文本变量,然后再加进txt去?这个还没有学。不懂。

尼玛,差不多一个小时只能采集7~8条,坑爹啊。
补充:
看到了吧,单线程,假死状态。实际上程序没有死,还在运行,但是任务管理器看到的是已经死了,没有响应了。
这就是单线程的悲哀啊,有卡顿,而且界面无法出来,就卡在那里,但是还是在运行了。2小时采集了12条吧,1000来个分页,10来万条评论的样子。够坑爹的吧。
不过,VIP教程里面的多线程,基本都是摆看的,没有太多实际用途。还得求助论坛高手来得实际。
2014-04-10_022206.png


最佳答案

查看完整内容

多线程速度肯定是翻倍的 !前提是的网速机器配置要好!不然你分配的线程过多,多线程同时执行反而拖累速度!保存到一个txt里简单 用许可证 不然数据会冲突 给你经典源码例子吧 希望能帮到你!http://bbs.125.la/thread-13653338-1-1.html

求助知识:请将问题描述清楚,最好把你有问题的源码打包上传上来,这样更方便大家帮助你。
友情提醒:本版被采纳的主题可在 申请荣誉值 帖子申请荣誉值,获得 3点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。

结帖率:100% (20/20)

签到天数: 1 天

发表于 2014-4-10 00:33:16 | 显示全部楼层   湖北省十堰市
多线程速度肯定是翻倍的 !前提是的网速机器配置要好!不然你分配的线程过多,多线程同时执行反而拖累速度!保存到一个txt里简单 用许可证 不然数据会冲突 给你经典源码例子吧 希望能帮到你!http://bbs.125.la/thread-13653338-1-1.html

点评

看了你的多线程,思路很好,值得借鉴,你的群我也申请加入了。谢谢你。   广东省深圳市  发表于 2014-4-10 02:11

评分

参与人数 1荣誉 +3 收起 理由
笨潴 + 3 热心帮助他人,荣誉+3,希望继续努力(*^__^*) 嘻嘻!

查看全部评分

回复

使用道具 举报

发表于 2014-4-10 00:47:43 | 显示全部楼层   河北省石家庄市
多线程的话看你看几条线程了,还有就是速度过快,Tao宝会出验证码限制。
亲。最佳吧!

点评

你能换个优雅点的头像不?亲。呵呵。这头像ZTMD俗气。   广东省深圳市  发表于 2014-4-10 01:15
啃西瓜的,你还没有睡觉啊。   广东省深圳市  发表于 2014-4-10 01:14
回复

使用道具 举报

结帖率:91% (138/151)
 楼主| 发表于 2014-4-10 01:13:37 | 显示全部楼层   广东省深圳市
本帖最后由 caianhua1986 于 2014-4-10 02:30 编辑
5609689 发表于 2014-4-10 00:47
多线程的话看你看几条线程了,还有就是速度过快,Tao宝会出验证码限制。
亲。最佳吧!

验证码限制? 哥,我这个不是登录采集啊。今天在论坛里面,有个人也说 会有什么验证码,我这个用的是网页访问s()  在JSON里面取的。它怎么限制我?难倒他跟我来个弹窗?我是GET方式请求,他怎么给我弹出验证码?你也够坑爹的吧。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表