开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 9772|回复: 4
收起左侧

[源码分享] Python爬取壁纸网站源码,修整版

[复制链接]
结帖率:54% (7/13)
发表于 2023-4-16 22:02:33 | 显示全部楼层 |阅读模式   浙江省嘉兴市
[Python] 纯文本查看 复制代码
import requests
import re
import os

url = 'https://www.bizhi88.com/3840x2160/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
response.encoding = 'utf8'
html_info = re.findall('<a href="(.*?)" title="(.*?)" target="_blank" class="img" style="(.*?)"', response.text)

num = 0
for link, title, style in html_info:
    num = num + 1
    if num == 1:
        continue
    link_url = 'https://www.bizhi88.com' + link
    response2 = requests.get(url=link_url, headers=headers)
    response2.encoding = "utf8"
    img_url = re.findall('<img src="(.*?)" alt="(.*?)"', response2.text)[0]
    directory = 'Wallpapers'
    if not os.path.exists(directory):
        os.makedirs(directory)
    file_name = f'{directory}/{img_url[1]}.jpg'
    with open(file_name, 'wb') as f:
        response3 = requests.get(img_url[0], stream=True)
        for chunk in response3.iter_content(chunk_size=1024):
            if chunk:
                f.write(chunk)
        print(f'{file_name} downloaded!')

根据刚才一个易友分享的例子增加了一个下载保存的功能 其中Wallpapers文件夹是创建的下载的图片也在里面
结帖率:50% (1/2)

签到天数: 13 天

发表于 2023-10-10 14:25:07 | 显示全部楼层   江苏省南京市
果心豆腐酱 发表于 2023-10-6 02:33
# 导入 requests 模块
import requests
# 导入正则表达式模块

课代表是吧
回复 支持 反对

使用道具 举报

结帖率:93% (248/268)

签到天数: 18 天

发表于 2023-10-6 02:33:05 | 显示全部楼层   广西壮族自治区崇左市
# 导入 requests 模块
import requests
# 导入正则表达式模块
import re
# 导入 os 模块
import os

# 目标网站 URL
url = 'https://www.bizhi88.com/3840x2160/'
# 请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送 GET 请求,并获取响应
response = requests.get(url=url, headers=headers)
# 设置响应编码为 UTF-8
response.encoding = 'utf8'
# 使用正则表达式从 HTML 中提取需要的信息
html_info = re.findall('<a href="(.*?)" title="(.*?)" target="_blank" class="img" style="(.*?)"', response.text)

num = 0
# 遍历提取出来的信息
for link, title, style in html_info:
    # 自增编号计数器
    num = num + 1
    # 略过第一个信息,因为第一个是广告
    if num == 1:
        continue
    # 拼接完整的图片详情页链接
    link_url = 'https://www.bizhi88.com' + link
    # 发送 GET 请求,并获取响应
    response2 = requests.get(url=link_url, headers=headers)
    # 设置响应编码为 UTF-8
    response2.encoding = "utf8"
    # 使用正则表达式从 HTML 中提取图片链接和标题
    img_url = re.findall('<img src="(.*?)" alt="(.*?)"', response2.text)[0]
    # 设置保存图片的目录
    directory = 'Wallpapers'
    # 如果目录不存在,则创建目录
    if not os.path.exists(directory):
        os.makedirs(directory)
    # 拼接保存图片的文件名
    file_name = f'{directory}/{img_url[1]}.jpg'
    # 以二进制模式打开文件,并将图片内容写入文件中
    with open(file_name, 'wb') as f:
        # 发送 GET 请求,以流的方式获取图片内容
        response3 = requests.get(img_url[0], stream=True)
        # 逐块写入文件
        for chunk in response3.iter_content(chunk_size=1024):
            if chunk:
                f.write(chunk)
        # 输出下载完成的信息
        print(f'{file_name} downloaded!')
这段代码实现了从指定网站下载4k壁纸的功能,主要步骤如下:

使用 requests 模块向指定 URL 发送 GET 请求,获取网页源码;
使用正则表达式从网页源码中提取出所有目标图片的详情页链接;
对于每一个详情页,再次发送 GET 请求,获取详情页源码;
使用正则表达式从详情页源码中提取出目标图片的 URL 和标题;
创建本地文件夹,如果不存在的话;
将图片写入本地文件,并根据图片标题重命名。
其中,有一些注意点:

代码中的计数器 num,是用来跳过第一个广告图片的。因为这个网站的第一个壁纸链接总是广告页的链接。
因为下载的是图片文件,所以要使用二进制模式打开文件。
因为图片可能很大,所以采用逐块写入的方式。
回复 支持 1 反对 0

使用道具 举报

发表于 2023-6-9 10:29:47 | 显示全部楼层   吉林省吉林市
好厉害 好厉害
回复 支持 反对

使用道具 举报

结帖率:83% (10/12)

签到天数: 22 天

发表于 2023-4-16 22:27:59 | 显示全部楼层   上海市上海市
拿走了,这就去下个pycharm
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表