开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 7922|回复: 8
收起左侧

[已解决] 如何快速高效采集网页指定数据

 关闭 [复制链接]
结帖率:100% (1/1)
发表于 2013-9-29 21:39:10 | 显示全部楼层 |阅读模式   四川省成都市
5精币
我们时常遇到需要采集一些网页上面指定数据,网页源码其实很多都是无用的,能用到的部分很有限,但是我们通常的做法又不得不下载全部的网页源码,这样似乎很考验网速,由于网速的不好,我们采集到的数据将会有很大的滞后性,这对实时精度数据分析带来毁灭性的打击。
因此我在这里向各位高手、大神请教如何能够不下载完全的网页源码又能采集到我们需要的网页数据。
我想是不是能够少接收数据或是请求服务器只发送我们需要的数据至我们的客户端。
若果有源码能够借鉴,请给点提示

最佳答案

查看完整内容

以现在的网速,采集网页完全是够的.一个大型网站页面也就100KB左右。 还有我们不能控制服务器返回的数据,需要特定数据你可以去找接口,比如Tao宝有Tao宝的API,等等。。

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳
结帖率:100% (10/10)
发表于 2013-9-29 21:39:11 | 显示全部楼层   江苏省镇江市
以现在的网速,采集网页完全是够的.一个大型网站页面也就100KB左右。

还有我们不能控制服务器返回的数据,需要特定数据你可以去找接口,比如Tao宝有Tao宝的API,等等。。

点评

像需要登录才能采集到的信息,怎么采集呢?   广东省惠州市  详情 回复 发表于 2013-9-30 11:10

评分

参与人数 1荣誉 +1 收起 理由
笨潴 + 1 热心帮助他人,荣誉+1,希望继续努力(*^__^*) 嘻嘻

查看全部评分

回复

使用道具 举报

结帖率:94% (45/48)
发表于 2013-9-29 21:55:45 | 显示全部楼层   四川省资阳市
都说了是采集了,你接受的内容都不完全怎么去匹配!
回复

使用道具 举报

结帖率:100% (6/6)
发表于 2013-9-29 21:59:15 | 显示全部楼层   湖北省天门市
多线程采集!!!

点评

如何多线程法?   广东省惠州市  详情 回复 发表于 2013-9-29 23:04
回复

使用道具 举报

结帖率:97% (36/37)
发表于 2013-9-29 23:04:57 | 显示全部楼层   广东省惠州市
神炎 发表于 2013-9-29 21:59
多线程采集!!!

如何多线程法?
回复

使用道具 举报

结帖率:100% (5/5)

签到天数: 3 天

发表于 2013-9-29 23:20:01 | 显示全部楼层   重庆市重庆市
首先不能控制服务器返回哪些数据,这要看网页设置的人了.

在一个现在网页大多数都用ZIP压缩,已经算节省资源了.

还有楼上说的,多线程吧.

最终都会制约于你的本地带宽,和服务器带宽.
回复

使用道具 举报

结帖率:90% (9/10)
发表于 2013-9-29 23:47:55 | 显示全部楼层   广东省江门市
在编码转换那部分是最浪费时间的,,,先正则后转码会快很多。。。
回复

使用道具 举报

结帖率:97% (36/37)
发表于 2013-9-30 11:10:26 | 显示全部楼层   广东省惠州市
me920 发表于 2013-9-30 09:17
以现在的网速,采集网页完全是够的.一个大型网站页面也就100KB左右。

还有我们不能控制服务器返回的数据 ...

像需要登录才能采集到的信息,怎么采集呢?
回复

使用道具 举报

结帖率:0% (0/1)
发表于 2013-10-10 18:06:04 | 显示全部楼层   湖南省永州市
也想知道.......
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表