|
分享源码
界面截图: |
|
是否带模块: |
调用了模块 |
备注说明: |
- |
本帖最后由 宇智波·佐助 于 2017-2-22 09:25 编辑
界面小展示:
近日做项目需要采集很多文章,各种类型各种网站的文章都需要。这样也就出现了1个问题,不同的网站要写不同的采集规则,其实这也没什么捷径可言。
但是每次都要敲重复的代码,比如,文本_取中间 等等。这点就不效率了,而且特别浪费时间。
于是,小弟我就写了一款通用的采集软件,能支持绝大部分网站文章的采集。只需要填写规则即可,杜绝了重复代码的编写。
从原来写1个网站的文章要15分钟,现在只要5分钟就搞定了。岂不乐哉!
(源码)软件简介:
1、软件属于源码(HTML)抓取版
2、只支持二级目录的采集,即 列表页—> 文章页 。(绝大部分的网站文章都能在2级目录内获取到)
3、手动设置翻页(想采几页就采几页)
4、支持正文内容过滤(这个你可以自行修改使用)
5、自动生成TXT文件到桌面文件夹
6、自动判断UTF8返回文本
7、支持每个节点规则的测试返回
软件的话,基本上就是上面说的这样。已经可以很美丽的使用了,我也采集了N个网站,N万篇文章了。
新手们可以,拿去研究研究,软件特别的地方也没啥,说白了就是1个逻辑思路,如何去实现功能而已。
原理其实也很简单,就是循环取中间(从外往内,一层一层提取),再加点判断就完成了。
正要说特别的地方的话,就是标题的处理了,因为某些网页字符是写入不到本地的。嗯~~有兴趣的可以看看。
当然,二次开发的也是可以的,加入伪原创,加入分页采集,加入多级目录采集,加入HTML发布文本,加入数据库入库等等。
做成商业版的也没啥问题,只要你有时间,有精力去弄。(扯远了)
重点1:一定要按照六大步骤一步一步测试,全部通过就没问题了。(什么是通过?你可以参考自带的规则展示)
重点2:规则可以叠加,前面文本和后面文本相对应,从外往内,一层一层提取。也就是循环取中间文本。好用给点分把
ML Grab2.rar
(154.05 KB, 下载次数: 1132)
|
评分
-
查看全部评分
本帖被以下淘专辑推荐:
- · 奇技淫巧|主题: 207, 订阅: 44
- · 猫乐精品|主题: 50, 订阅: 10
- · 好友轨迹|主题: 328, 订阅: 6
- · 希望能用到|主题: 141, 订阅: 1
|