【原创】网页文章采集工具，六大步骤搞定文章采集

猫乐 · 发表于 2017-2-21 17:07:23

本帖最后由宇智波·佐助于 2017-2-22 09:25 编辑

界面小展示：

近日做项目需要采集很多文章，各种类型各种网站的文章都需要。这样也就出现了1个问题，不同的网站要写不同的采集规则，其实这也没什么捷径可言。
但是每次都要敲重复的代码，比如，文本_取中间等等。这点就不效率了，而且特别浪费时间。
于是，小弟我就写了一款通用的采集软件，能支持绝大部分网站文章的采集。只需要填写规则即可，杜绝了重复代码的编写。
从原来写1个网站的文章要15分钟，现在只要5分钟就搞定了。岂不乐哉！

（源码）软件简介：
1、软件属于源码（HTML）抓取版
2、只支持二级目录的采集，即列表页—> 文章页。（绝大部分的网站文章都能在2级目录内获取到）
3、手动设置翻页（想采几页就采几页）
4、支持正文内容过滤（这个你可以自行修改使用）
5、自动生成TXT文件到桌面文件夹
6、自动判断UTF8返回文本
7、支持每个节点规则的测试返回

软件的话，基本上就是上面说的这样。已经可以很美丽的使用了，我也采集了N个网站，N万篇文章了。
新手们可以，拿去研究研究，软件特别的地方也没啥，说白了就是1个逻辑思路，如何去实现功能而已。
原理其实也很简单，就是循环取中间（从外往内，一层一层提取），再加点判断就完成了。
正要说特别的地方的话，就是标题的处理了，因为某些网页字符是写入不到本地的。嗯~~有兴趣的可以看看。
当然，二次开发的也是可以的，加入伪原创，加入分页采集，加入多级目录采集，加入HTML发布文本，加入数据库入库等等。
做成商业版的也没啥问题，只要你有时间，有精力去弄。（扯远了）

重点1：一定要按照六大步骤一步一步测试，全部通过就没问题了。（什么是通过？你可以参考自带的规则展示）

重点2：规则可以叠加，前面文本和后面文本相对应，从外往内，一层一层提取。也就是循环取中间文本。好用给点分把

ML Grab2.rar (154.05 KB, 下载次数: 1133)

xiaoxiaow · 发表于 2023-11-14 13:19:32

66666666666666

唯有独钟 · 发表于 2023-10-5 04:56:38

6548957885444

56tt · 发表于 2022-11-25 18:35:38

支持开源~！感谢分享

603007856 · 发表于 2022-11-9 21:44:42

66666666666666666666666666

ai学习 · 发表于 2022-3-1 18:27:17

感谢楼猪分享

yingle · 发表于 2021-5-21 06:05:35

感谢分享，很给力！~

yingle · 发表于 2021-5-20 20:57:53

精彩文章希望继续努力

yingle · 发表于 2021-5-20 08:24:21

精彩文章希望继续努力

yingle · 发表于 2021-5-20 08:24:05

不知道还能不能用，收下了，谢谢！回复#

yingle · 发表于 2021-5-20 08:19:22

精彩文章希望继续努力

		自动登录	找回密码
密码			注册

[易源码分享] 【原创】网页文章采集工具，六大步骤搞定文章采集

点评

评分

本帖被以下淘专辑推荐:

[易源码分享] 【原创】网页文章采集工具 ，六大步骤搞定文章采集

点评

评分

本帖被以下淘专辑推荐:

[易源码分享] 【原创】网页文章采集工具，六大步骤搞定文章采集