开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 175|回复: 4
收起左侧

[完成] 求大佬写个正则

 关闭 [复制链接]
结帖率:81% (13/16)
发表于 前天 13:57 | 显示全部楼层 |阅读模式   山东省济南市
10精币
匹配搜狗搜索结果的网址
跪求大佬
wechat_2025-07-18_135717_788.png

最佳答案

签到天数: 18 天

发表于 前天 13:57 | 显示全部楼层   广西壮族自治区南宁市
<span\b[^>]*>([^<]*?(https?:\/\/|www\.|[\w-]+\.\w{2,})[^\s<>"]*[^<]*)<\/span>
回复

使用道具 举报

结帖率:17% (1/6)

签到天数: 12 天

发表于 前天 14:59 | 显示全部楼层   香港特别行政区*
[Python] 纯文本查看 复制代码
import re

# 读取网页源码文件
with open('webpage.html', 'r', encoding='utf-8') as file:
    html_content = file.read()

# 提取HTML标签属性的URL(避免匹配到残缺的URL)
url_pattern = re.compile(
    r'\b(?:href|src)\s*=\s*["\']'  # 匹配 href=" 或 src="
    r'(?P<url>'                     # 捕获组命名
    r'(?:https?://|//)'             # http://, https://, //
    r'[^\s"\'>]+'                   # 匹配URL部分
    r')["\']',                      # 结束引号
    re.IGNORECASE
)

# 提取所有匹配的URL
urls = [url_match.group('url') for url_match in url_pattern.finditer(html_content)]


# 去重并排序(可选)
unique_urls = sorted(set(urls))

# 打印提取到的URL
print("提取到的网址列表:")
for i, url in enumerate(unique_urls, 1):
    print(f"{i}. {url}")

print(f"\n总计发现 {len(unique_urls)} 个网址")


给你写了个python的demo,直接从源码匹配
回复

使用道具 举报

结帖率:98% (57/58)

签到天数: 20 天

发表于 前天 15:41 | 显示全部楼层   河北省廊坊市
^(https|http|ftp)\:\\\\[a-zA-Z0-9\\-\\.]+\.[a-zA-Z]{2,}\:?([0-9]{1,5})?(\\[^\s|<]*)?$
https http ftp 开头
是否带有端口  
网址结束的后面是空或者<
回复

使用道具 举报

结帖率:17% (1/6)

签到天数: 12 天

发表于 前天 16:28 | 显示全部楼层   香港特别行政区*
[Python] 纯文本查看 复制代码
import re

# 读取网页源码文件
with open('webpage.html', 'r', encoding='utf-8') as file:
    html_content = file.read()

# 提取HTML标签属性的URL(避免匹配到残缺的URL)
url_pattern = re.compile(
    r'\b(?:href|src)\s*=\s*["\']'  # 匹配 href=" 或 src="
    r'(?P<url>'                     # 捕获组命名
    r'(?:https?://|//)'             # http://, https://, //
    r'[^\s"\'>]+'                   # 匹配URL部分
    r')["\']',                      # 结束引号
    re.IGNORECASE
)

# 提取所有匹配的URL
urls = [url_match.group('url') for url_match in url_pattern.finditer(html_content)]


# 去重并排序(可选)
unique_urls = sorted(set(urls))

# 打印提取到的URL
print("提取到的网址列表:")
for i, url in enumerate(unique_urls, 1):
    print(f"{i}. {url}")

print(f"\n总计发现 {len(unique_urls)} 个网址")


用python给你写了个示例,所有的url都能匹配出来
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表