开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 21646|回复: 6
收起左侧

[已解决] 表情包采集

 关闭 [复制链接]
结帖率:97% (34/35)
发表于 2018-12-22 17:54:40 | 显示全部楼层 |阅读模式   湖南省长沙市
5精币
  1. #  表情采集
  2. import requests  # 远程请求模块
  3. import json  # json 解析模块
  4. import time  # 时间模块
  5. import threadpool  # 线程池模块
  6. import os   # 文件操作模块
  7. import re   #正则模块

  8. #  采集配置设置
  9. page = 1  # 采集多少页
  10. threaNumber = 10  # 启用的线程数量
  11. Target_link = 'https://www.doutula.com/photo/list/'  # 目标地址
  12. path_photo = './face_img'  # 表情包存放文件夹

  13. #   检查目标文件夹是否存在
  14. if not os.path.exists(path_photo):
  15.     os.makedirs(path_photo)  # 自动创建
  16.    
  17. #   获取某个路径的后缀名
  18. def file_extension(path):
  19.     return os.path.splitext(path)[1]

  20. #   获取斗图列表
  21. def face_list(page=1):
  22.     User_Agent = 'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 wechatdevtools/1.02.1811270 MicroMessenger/6.7.3 Language/zh_CN webview/ token/b8acb8f2802426934a5f1f2c447882f2'
  23.     #   假装自己是好人
  24.     headers = {
  25.         'User-Agent': User_Agent,
  26.         'content-type': 'text/html;charset = UTF-8',
  27.         'Accept': 'application/json, text/javascript, */*; q=0.01'
  28.     }
  29.     #   请求本页  
  30.     r = requests.get(Target_link+"?page=%s" % page, headers=headers)
  31.     pattern = r'<img[\s\S]*?data-original="(.*?)" alt="(.*?)"'
  32.     img_list = re.findall(pattern, r.text, re.M)  # 正则图片列表
  33.     for (path, name) in img_list:
  34.         exten = file_extension(path)
  35.         with open(path_photo + '/%s%s' % (name, exten), 'wb') as f:
  36.             #   远程请求 获取图片资源  并写出
  37.             f.write(requests.get(path, headers=headers).content)  #请求图片 并下载回来、

  38. #  批量下载的图片。。。本来要多线程下载的  不过 要吃饭了。。
  39. #  其实获取图片列表挺快的  慢的是下载图片这个环境  应该在这个环节套个线程      
  40. for i in range(page):
  41.     face_list(i)
复制代码

其实是分享源码来着  不过 没找到对应的分类  emmmm  好像没有缩进了  我的天。。。。。。。

最佳答案

查看完整内容

加多进程会快点,多线程进入只会进入一个,因为有gil锁

评分

参与人数 1好评 +1 收起 理由
精易小鱼 + 1 组装个Scrapy的

查看全部评分


回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳
结帖率:0% (0/2)
发表于 2018-12-22 17:54:41 | 显示全部楼层   山东省济南市
加多进程会快点,多线程进入只会进入一个,因为有gil锁
回复

使用道具 举报

结帖率:97% (34/35)

签到天数: 14 天

 楼主| 发表于 2019-1-10 09:34:29 | 显示全部楼层   湖南省长沙市
ideologism 发表于 2019-1-6 12:27
加多进程会快点,多线程进入只会进入一个,因为有gil锁

我没试过 还以为能嵌套多线程的  受教了
回复

使用道具 举报

结帖率:0% (0/2)
发表于 2019-1-10 13:16:00 | 显示全部楼层   山东省济南市
大兔崽子 发表于 2019-1-10 09:34
我没试过 还以为能嵌套多线程的  受教了

我也很菜共同学习吧
回复

使用道具 举报

结帖率:0% (0/1)
发表于 2019-1-12 18:18:36 | 显示全部楼层   广东省深圳市
感觉就是个爬虫,可以考虑用线程池模型,然后看一下能不能搞到ip池或者用tor,防止ip被封
回复

使用道具 举报

结帖率:50% (4/8)
发表于 2019-6-19 11:22:39 | 显示全部楼层   广东省广州市
main
我线程池不是会用智慧启动线程
回复

使用道具 举报

发表于 2019-9-6 02:01:06 | 显示全部楼层   湖南省长沙市
0.00.00.00.00.0
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 诚聘英才| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 800073686,邮箱:800073686@b.qq.com
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表