开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 32094|回复: 2
收起左侧

[源码分享] Python自学记录--多线程糗事百科爬虫

[复制链接]
结帖率:50% (3/6)
发表于 2021-9-26 22:36:16 | 显示全部楼层 |阅读模式   天津市天津市
  1. #线程库
  2. import threading
  3. #队列
  4. import queue
  5. import requests
  6. import time
  7. from lxml import etree

  8. #采集网页线程--爬取段子列表所在的网页,放进队列
  9. class Thread1(threading.Thread):
  10.    
  11.     def __init__(self, threadName,pageQueue,dataQueue):
  12.         threading.Thread.__init__(self)
  13.         self.threadName = threadName #线程名
  14.         self.pageQueue = pageQueue #页码队列
  15.         self.dataQueue = dataQueue #数据队列
  16.         self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}

  17.     def run(self):
  18.         print("启动线程"+self.threadName)
  19.         while not flag1:
  20.             try:
  21.                 page=self.pageQueue.get()
  22.                 url="https://www.qiushibaike.com/8hr/page/"+str(page)+"/"
  23.                 content=requests.get(url,headers=self.headers).text
  24.                 time.sleep(0.5)
  25.                 self.dataQueue.put(content) #将数据放入队列中
  26.             except Exception as e:
  27.                 pass

  28.         print("结束线程"+self.threadName)



  29. #解析网页线程--从队列中拿到列表网页,进行解析,并储存到本地
  30. class Thread2(threading.Thread):
  31.    
  32.     def __init__(self, threadName,dataQueue,filename):
  33.         threading.Thread.__init__(self)
  34.         self.threadName = threadName
  35.         self.dataQueue = dataQueue
  36.         self.filename = filename

  37.     def run(self):
  38.         print("启动线程"+self.threadName)
  39.         while not flag2:
  40.             try:
  41.                 data1=self.dataQueue.get()
  42.                 html=etree.HTML(data1)
  43.                 node_list=html.xpath('//div//a[@class="recmd-content"]')
  44.                 for node in node_list:
  45.                     data=node.text
  46.                     self.filename.write(data+"\n")
  47.             except Exception as e:
  48.                 pass

  49.         print("结束线程"+self.threadName)

  50. flag1=False #判断页码队列中是否为空
  51. flag2=False #判断数据队列中是否为空

  52. def main():
  53.     #页码队列
  54.     pageQueue=queue.Queue(2)  #页码最大为10

  55.     for i in range(1,11):
  56.         pageQueue.put(i)

  57.     #存放采集结果的数据队列
  58.     dataQueue=queue.Queue()

  59.     #保存到本地的文件
  60.     filename=open(r"D:\代码保存\duanzi.txt","a")

  61.     #启动线程
  62.     t1=Thread1("采集线程",pageQueue,dataQueue)
  63.     t1.start()
  64.     t2=Thread2("解析线程",dataQueue,filename)
  65.     t2.start()

  66.     #当padeQueue为空时,结束采集线程
  67.     while not pageQueue.empty():
  68.         pass

  69.     global flag1
  70.     flag1=True

  71.     #当padeQueue为空时,结束采集线程
  72.     while not pageQueue.empty():
  73.         pass

  74.     global flag2
  75.     flag2=True

  76.     t1.join()
  77.     t2.join()

  78.     filename.close()

  79.     print("结束!")

  80. if __name__ == '__main__':
  81.     main()
复制代码


评分

参与人数 2好评 +2 精币 +4 收起 理由
冰点 + 1 + 2 感谢分享,很给力!~
金胖子 + 1 + 2 感谢分享,很给力!~

查看全部评分

结帖率:50% (3/6)

签到天数: 1 天

 楼主| 发表于 2021-9-27 12:39:02 | 显示全部楼层   天津市天津市
汉族 发表于 2021-9-26 23:16
那个 问问 python  访问 快吗?  现在很多访问需要 CURL 才能获取数据

师兄,这个不懂,我刚开始学习,没了解到太深
回复 支持 反对

使用道具 举报

结帖率:87% (20/23)

签到天数: 14 天

发表于 2021-9-26 23:16:22 | 显示全部楼层   广东省东莞市
那个 问问 python  访问 快吗?  现在很多访问需要 CURL 才能获取数据
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表