本帖最后由 宇智波·佐助 于 2019-5-16 10:16 编辑
先上图片,表示尊敬
1、说明:
1、刚写完的采集软件,针对资源网,其他网站可以自己测试。
3、很简单的一个软件,大牛可以绕道啦
4、root\rule 目录里存放的是网站规则的配置文件,可以用记事本打开。
5、root\article 目录里存放的是爬取出来的html文件,可以用浏览器打开。(没有把图片保存到本地,省空间,省速度,哈哈)
6、tmp 目录里存放的是临时测试爬取的html文件。
7、LinkId.txt文件是取网站链接的 配置文件。
2、教程:
1、请新建文件夹,解压压缩包里的所有文件,并编译源码。
2、选择夹介绍:
- 第一个选择夹:正式遍历文章(就是测试遍历正常,才开始正式遍历)
- 第二个选择夹:测试遍历(就是自己添加完规则后,测试遍历是否正常!)
- 第三个选择夹:添加规则(就是自己添加网站的采集规则,头文本,尾文本啊,那些的)
3、使用方法:
- 请新建文件夹,解压压缩包里的所有文件,并编译源码。
- 进入第三个选择夹,选择规则文件,点击载入按钮。
- 载入完毕后(编辑框会出现内容),点击右下角的 “测试遍历” 按钮。
- 软件自动进入第二个选择夹,这个时候可以点击 “开始遍历” 按钮。
- 遍历完成后会弹出信息框,点击列表框,可以查看遍历出的内容是否正确。
- 以上是临时采集,文件保存在 tmp 目录下。
- 正式采集就进入第一个选择夹选择规则 开始采集 ,正式采集过程可视!
规则添加方法:
规则添加方法:
规则添加方法:
页面规则采集设置:
{
范围头部文本
标签头部文本
链接头部文本
链接尾部文本
标题头部文本
标题尾部文本
标签尾部文本
范围尾部文本
}
文章规则采集设置:
{
文章范围头部文本
文章范围尾部文本
}
查看网页源代码并填写进编辑框测试遍历即可!
4、最后说句一。。。。
真的好难讲清楚,不知道你们听清没,反正我是听不清...,接触过 html 的 应该 都会懂一点..
真的是没啥难度,新手们可以学习学习,反正我也是新手,一起学习哈哈
大牛应该一看就懂了..
5、下载地址
回帖一下下帖子就能免精币下载啦...
刮刮乐:https://share.weiyun.com/5vzPqTp
|