开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 32143|回复: 1
收起左侧

[源码分享] Python自学记录--爬取贴吧图片

[复制链接]
结帖率:50% (3/6)
发表于 2021-9-26 18:05:02 | 显示全部楼层 |阅读模式   天津市天津市
  1. #图片爬虫
  2. import urllib
  3. import urllib.request
  4. from lxml import etree
  5.   
  6. class Spider(object):
  7.     def __init__(self):
  8.         self.tiebaName="java"
  9.         self.beginPage=1
  10.         self.endPage=3
  11.         self.url="http://tieba.baidu.com/f?"
  12.         self.ua_header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}
  13.         self.fileName=1
  14.   
  15.     #构造url
  16.     def tiebaSpider(self):
  17.         for page in range(self.beginPage,self.endPage+1):
  18.             pn=(page-1)*50
  19.             wo={'pn':pn,'kw':self.tiebaName}
  20.             word=urllib.parse.urlencode(wo)
  21.             myurl=self.url+word
  22.             self.loadPage(myurl)
  23.   
  24.     #爬取页面内容
  25.     def loadPage(self,url):
  26.         req=urllib.request.Request(url,headers=self.ua_header)
  27.         data=urllib.request.urlopen(req).read()
  28.   
  29.         html=etree.HTML(data)
  30.         links=html.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')
  31.   
  32.         for link in links:
  33.             link="http://tieba.baidu.com"+link
  34.             self.loadImages(link)
  35.   
  36.     #爬取帖子详情页,获取图片链接
  37.     def loadImages(self,link):
  38.         req=urllib.request.Request(link,headers=self.ua_header)
  39.         data=urllib.request.urlopen(req).read()
  40.         html=etree.HTML(data)
  41.         links=html.xpath('//img[@class="BDE_Image" ]/@src')
  42.         for imageslink in links:
  43.             self.writeImages(imageslink)
  44.   
  45.     #通过图片所在链接,爬取图片并保存到本地
  46.     def writeImages(self,imagesLink):
  47.         print("正在存储图片:",self.fileName,"............")
  48.         image=urlib.request.urlopen(imagesLink).read()
  49.          
  50.   
  51.         file=open(r"D:\代码保存\保存图片\"+str(self.fileName)+".jpg","wb")
  52.   
  53.         file.write(image)
  54.   
  55.         file.close()  
  56.   
  57.         self.fileName+=1
  58.   
  59. if __name__ == '__main__':
  60.      
  61.     mySpider=Spider()
  62.   
  63.     mySpider.tiebaSpider()
复制代码


结帖率:98% (379/388)

签到天数: 8 天

发表于 2021-9-26 21:56:15 | 显示全部楼层   福建省福州市
很平常啊,。虽然不会PY但是看到实现的内容。 感觉易语言也能实现这些··
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表