开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 2009|回复: 9
收起左侧

[已解决] 把这个文章列表里的文章提取到txt文本里

 关闭 [复制链接]
结帖率:96% (90/94)
发表于 2011-8-23 19:35:21 | 显示全部楼层 |阅读模式   湖北省黄冈市
65精币

提取这个网页里所有显示的文章的内容
http://www.wowawowa.cn/ditu/list_17_1.html
     把提到的每篇内容全部加入到 一个.txt 文本 里哈,
     不要标题,只要内容就行,去掉里面的代码符号,

   
,想 了一下午自己真的没办法了求助,,希望看到源码后,学到知识,感谢大牛,来{:soso__14264871205577977726_2:}    在线等,晚上11点左右来确定

最佳答案

查看完整内容

应该没什么问题了。。如果有哪些没过滤掉的 你就按下面这个格式添加上去就可以了

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳
结帖率:97% (30/31)

签到天数: 9 天

发表于 2011-8-23 19:35:22 | 显示全部楼层   海南省临高县
本帖最后由 沉默夏夜 于 2011-8-24 00:13 编辑

应该没什么问题了。。如果有哪些没过滤掉的  你就按下面这个格式添加上去就可以了 111.jpg



取网页内容.rar (9 KB, 下载次数: 2879)
回复

使用道具 举报

结帖率:80% (8/10)

签到天数: 1 天

发表于 2011-8-23 20:08:03 | 显示全部楼层   湖南省衡阳市
给你思路吧,首先读取这个网页的源码,然后从源码中把内容页的地址全部保存到数组或者文本中,然后利用计次循环把每一个内容页的源码读取,在写到文本中。
回复

使用道具 举报

结帖率:71% (15/21)
发表于 2011-8-23 20:29:56 | 显示全部楼层   江西省上饶市
楼主我回去试了!内容文本有许多干扰正则的匹配符!
我无能为力!
回复

使用道具 举报

结帖率:67% (2/3)
发表于 2011-8-23 20:46:06 | 显示全部楼层   广东省佛山市
本帖最后由 fsjoe 于 2011-8-23 20:46 编辑

思路:
枚举所有超级链接并取得其他地址
再获得链接指向 的网页内容.
再取得网页中的文本
回复

使用道具 举报

结帖率:71% (15/21)
发表于 2011-8-23 20:49:22 | 显示全部楼层   江西省上饶市
本帖最后由 shi6718298 于 2011-8-23 21:00 编辑

楼主我可以实现你想要的功能!但是没有标点!
给你看个图!如果你同意请回复我!
111.jpg

我这里还有一种!!
1.jpg
但是有部分字符!和网页上的广告!
回复

使用道具 举报

结帖率:0% (0/1)
发表于 2011-8-23 21:23:20 | 显示全部楼层   湖北省武汉市
其实挺简单,只是没时间弄

先HTTP读文件(),把需要的链接取出来(可以用正则,用寻找文本也行)

再HTTP读文件(),写到文件就OK了
回复

使用道具 举报

结帖率:97% (30/31)

签到天数: 9 天

发表于 2011-8-23 22:31:44 | 显示全部楼层   海南省临高县
本帖最后由 沉默夏夜 于 2011-8-23 22:58 编辑

稍等帮你优化下。。{:3_233:}



QQ截图20110823225743.jpg
回复

使用道具 举报

结帖率:100% (1/1)

签到天数: 10 天

发表于 2011-8-24 08:36:31 | 显示全部楼层   江苏省苏州市

我也来玩玩,直接用正则去除html文本,更快更方便,倒是某些特定的符号得去除掉,比如引号,横杠之类的
QQ截图20110824083503.jpg
回复

使用道具 举报

结帖率:64% (9/14)
发表于 2011-11-29 17:21:11 | 显示全部楼层   四川省南充市
!!额额我是来学习的不会呵呵!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表