开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 2269|回复: 18
收起左侧

[完成] 爬到的网站进行xx处理

 关闭 [复制链接]
结帖率:100% (3/3)
发表于 2020-3-12 13:52:38 | 显示全部楼层 |阅读模式   江苏省南京市
60精币
爬到的代码片段如下,其中有文字,还有a标签和图片,如何处理才能只留下来文字和链接地址啊,用易语言的文本取中间搞了变天,这个页面可以,下个页面就不行了,希望哪位大神指点一下  


<p><b> </b>喷雾瓶 四个装【50ML】,8.8包u<br />7券<a isconvert='1' target='_blank' >https://jingfen.jd.com/item.html?sku=66302327446&q=F3Y…</a> <br>

<img src="https://wx2.sinaimg.cn/orj360/0067dkTkly1gcr2wio3nmj30g70cln2s.jpg"></p>

实现效果:
喷雾瓶 四个装【50ML】,8.8包u https://jingfen.jd.com/item.html?sku=66302327446&q=F3YQFBdtE3cXEBN&d=MbxCos

最佳答案

查看完整内容

[e=0].版本 2 .支持库 RegEx .子程序 html过滤, 文本型, 公开 .参数 欲过滤的文本, 文本型 .参数 是否过滤特殊符号, 逻辑型, 可空 .局部变量 正则, 正则表达式 .局部变量 计次, 整数型 .局部变量 搜索结果, 搜索结果, , "0" .局部变量 结果, 文本型 结果 = 欲过滤的文本 正则.创建 (“]*>”, 假) 搜索结果 = 正则.搜索全部 (欲过滤的文本) .计次循环首 (取数组成员数 (搜索结果), 计次) 结果 = 子文本替换 (结果, 搜索结 ...
结帖率:100% (1/1)
发表于 2020-3-12 13:52:39 | 显示全部楼层   广东省广州市
  
子程序名返回值类型公开备 注
html过滤文本型 
参数名类 型参考可空数组备 注
欲过滤的文本文本型
是否过滤特殊符号逻辑型
变量名类 型静态数组备 注
正则正则表达式 
计次整数型 
搜索结果搜索结果0
结果文本型 
结果 = 欲过滤的文本
正则.创建 (“<[^>]*>”, )
搜索结果 = 正则.搜索全部 (欲过滤的文本)
计次循环首 (取数组成员数 (搜索结果), 计次)
结果 = 子文本替换 (结果, 搜索结果 [计次].取匹配文本 (欲过滤的文本, ), “”, , 1, )
计次循环尾 ()
如果真 (是否过滤特殊符号 = )
结果 = 子文本替换 (结果, “ ”, #换行符, , , )
结果 = 子文本替换 (结果, “<”, “<”, , , )
结果 = 子文本替换 (结果, “>”, “>”, , , )
结果 = 子文本替换 (结果, “&”, “&”, , , )
结果 = 子文本替换 (结果, “"”, #引号, , , )
结果 = 子文本替换 (结果, “&#8194;”, “ ”, , , )
结果 = 子文本替换 (结果, “&#8195;”, “ ”, , , )
结果 = 子文本替换 (结果, “”, #左引号, , , 真)
结果 = 子文本替换 (结果, “”
, #右引号, , , 真)
结果 = 子文本替换 (结果, “—”, “—”, , , )
结果 = 子文本替换 (结果, “…”, “…”, , , )
返回 (结果)


i支持库列表   支持库注释   
RegEx正则表达式支持库


看看是不是要的效果

清除html标识.e

3.98 KB, 下载次数: 3, 下载积分: 精币 -1 枚

回复

使用道具 举报

结帖率:100% (3/3)
 楼主| 发表于 2020-3-12 14:36:16 | 显示全部楼层   江苏省南京市
53507203 发表于 2020-3-12 14:01
[e=0].版本 2
.支持库 RegEx

大佬,你这个可以把图片和a链接去掉,但是链接保存下来的不对,我想保存的是a标签里的真实链接,你这个直接提取的是a标签外面的链接,大佬能在帮忙修改一下么?
回复

使用道具 举报

结帖率:100% (3/3)
 楼主| 发表于 2020-3-12 14:38:07 | 显示全部楼层   江苏省南京市
53507203 发表于 2020-3-12 14:01
[e=0].版本 2
.支持库 RegEx

其他的都对,就是链接要保存下来的是a标签里面真实链接,你这个处理后的是a标签外面省略的链接,麻烦大佬在帮忙修改一下啊
回复

使用道具 举报

结帖率:100% (3/3)
 楼主| 发表于 2020-3-12 14:43:04 | 显示全部楼层   江苏省南京市
53507203 发表于 2020-3-12 14:01
[e=0].版本 2
.支持库 RegEx

源码在这,帖子中target不知道怎么回事被过滤掉了

111.txt

331 Bytes, 下载次数: 3, 下载积分: 精币 -1 枚

回复

使用道具 举报

结帖率:100% (41/41)

签到天数: 6 天

发表于 2020-3-12 15:28:22 | 显示全部楼层   浙江省温州市
  1. .版本 2

  2. .子程序 获取, 文本型
  3. .参数 待获取文本, 文本型
  4. .局部变量 正则, 正则表达式类
  5. .局部变量 num, 整数型
  6. .局部变量 导出文本, 文本型

  7. 正则.创建 (“</b>(.*?)<br[\s|\S]*?href='(.*?)'>”, 待获取文本, , , , )
  8. num = 正则.取匹配数量 ()
  9. .计次循环首 (num, num)
  10.     导出文本 = 导出文本 + 正则.取子匹配文本 (1, 1, 0) + 正则.取子匹配文本 (1, 2, 0) + #换行符
  11. .计次循环尾 ()
  12. 返回 (导出文本)
复制代码

补充内容 (2020-3-12 15:33):
正确代码在第九楼
回复

使用道具 举报

结帖率:100% (41/41)

签到天数: 6 天

发表于 2020-3-12 15:28:35 | 显示全部楼层   浙江省温州市
.版本 2

.子程序 获取, 文本型
.参数 待获取文本, 文本型
.局部变量 正则, 正则表达式类
.局部变量 num, 整数型
.局部变量 导出文本, 文本型

正则.创建 (“</b>(.*?)<br[\s|\S]*?href='(.*?)'>”, 待获取文本, , , , )
num = 正则.取匹配数量 ()
.计次循环首 (num, num)
    导出文本 = 导出文本 + 正则.取子匹配文本 (1, 1, 0) + 正则.取子匹配文本 (1, 2, 0) + #换行符
.计次循环尾 ()
返回 (导出文本)


补充内容 (2020-3-12 15:30):
同上

补充内容 (2020-3-12 15:34):
正确代码在第九楼
回复

使用道具 举报

结帖率:100% (41/41)

签到天数: 6 天

发表于 2020-3-12 15:29:16 | 显示全部楼层   浙江省温州市
  
子程序名返回值类型公开备 注
获取文本型 
参数名类 型参考可空数组备 注
待获取文本文本型
变量名类 型静态数组备 注
正则正则表达式类 
num整数型 
导出文本文本型 
正则.创建 (“(.*?)
, 待获取文本, , , , )
num = 正则.取匹配数量 ()
计次循环首 (num, num)
导出文本 = 导出文本 + 正则.取子匹配文本 (1, 1, 0) + 正则.取子匹配文本 (1, 2, 0)#换行符
计次循环尾 ()
返回 (导出文本)








QQ截图20200312152801.bmp





补充内容 (2020-3-12 15:30):
同上

补充内容 (2020-3-12 15:33):
正确代码在第九楼
回复

使用道具 举报

结帖率:100% (41/41)

签到天数: 6 天

发表于 2020-3-12 15:33:01 | 显示全部楼层   浙江省温州市
上面错了

  
子程序名返回值类型公开备 注
获取文本型 
参数名类 型参考可空数组备 注
待获取文本文本型
变量名类 型静态数组备 注
正则正则表达式类 
num整数型 
导出文本文本型 
正则.创建 (“</b>(.*?)<br[\s|\S]*?href='(.*?)'>
, 待获取文本, , , , )
num = 正则.取匹配数量 ()
计次循环首 (num, num)
导出文本 = 导出文本 + 正则.取子匹配文本 (num, 1, 0) + 正则.取子匹配文本 (num, 2, 0)#换行符
计次循环尾 ()
返回 (导出文本)





QQ截图20200312153241.bmp
回复

使用道具 举报

结帖率:100% (41/41)

签到天数: 6 天

发表于 2020-3-12 15:34:44 | 显示全部楼层   浙江省温州市
广二爷xxoo 发表于 2020-3-12 15:33
上面错了

[e=5].版本 2

需要用到精益模块
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表