开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 6703|回复: 3
收起左侧

[源码分享] 绝地战绩数据抓取

[复制链接]
结帖率:100% (1/1)
发表于 2018-1-24 22:21:43 | 显示全部楼层 |阅读模式   四川省成都市
初学python,拿绝地的战绩cha询练练手
通过对地址 https://pubgtracker.com/profile/pc/Xinyibaby-Aini?region=as
的抓包分析,逆向出数据的获取流程,最后用python模拟拿到数据。
代码写得烂,贴出来,欢迎找茬。
  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. # 文件名:bgload.py
  4. # 作者:andwp QQ:0x709933  
  5. # 使用说明:python 2.7.10 绝地战绩数据抓取,仅解析部分数据
  6. #   > python
  7. #   >> import bgload
  8. #   >> jsobj = bgload.seach('name', 'as')  
  9. #

  10. import requests
  11. import re
  12. import sys
  13. import time
  14. import urllib
  15. import json
  16. def runreq(url):
  17.     user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.20 Safari/537.36'
  18.     payload = {'User-Agent':user_agent, 'Host':'pubgtracker.com','Accpet-Encoding':'gzip, deflate, br','Accpet-language':'zh-Hans-CN, zh-Hans; q=0.5','Upgrade-Insecure-Requests':'1', 'Referer': url}
  19.     session = requests.Session()
  20.     t = session.get(url, headers=payload)  
  21.     cmpurl = urlextract(url, t.text)  
  22.     payload = {'User-Agent':user_agent, 'Host':'pubgtracker.com','Referer':url, 'Accpet' :'text/html, application/xhtml+xml, image/jxr, */*','Accpet-Encoding':'gzip, deflate','Accpet-language':'zh-Hans-CN, zh-Hans; q=0.5', 'Upgrade-Insecure-Requests':'1'}
  23.     print 'wait 4 load %s' % (cmpurl)
  24.     time.sleep(3)
  25.     t = session.get(cmpurl, headers=payload,allow_redirects=True)
  26.     print t.status_code
  27.     return jsonextract(t.text)
  28. def urlextract(oriurl, context):
  29.     tt1 = re.findall('[A-Za-z]+\=\{"[A-Za-z]+"\:\W+\}\;', context)
  30.     tt2 = re.findall('[A-Za-z]+\.[A-Za-z]+[\+\-\*]\=\W+\;', context)
  31.     fstr = re.sub('\=\{"', '.', tt1[0])
  32.     fstr = re.sub('"\:', '=', fstr)
  33.     fstr = re.sub('\}', '', fstr)
  34. #print start
  35.     a = []
  36.     a.append(fstr)
  37.     for item in tt2:
  38.         a.append(item)
  39.     bAry = []
  40.     for item in a:
  41.         temstr = re.sub('\!\+\[\]', '1', item)
  42.         temstr = re.sub('\!\!\[\]', '1', temstr)
  43.         temstr = re.sub('\[\]', '0', temstr)
  44.         temstr = re.sub('\+\(\(', '(10*(', temstr)
  45.         temstr = re.sub('\(\+', '(', temstr)
  46.         temstr = re.sub('\.', 'tmp', temstr)
  47.         bAry.append(temstr)
  48.     sc = re.search('[A-Za-z]+',bAry[0]).group(0)
  49.     tmpfeild = 'print '+ sc
  50.     hosturl = re.match( 'https?\:\/\/\w+\.\w+', oriurl).group(0)
  51.     urlLen = hosturl.__len__() - 8
  52. #    bAry.append(tmpfeild)
  53.     bAry.append('%s+=%d' % (sc, urlLen))
  54. #    bAry.append(tmpfeild)
  55.     for item in bAry:
  56.         exec(item)
  57. #        print item
  58.     answer = locals()[sc]
  59.     jschl_vc =  re.findall('jschl_vc"[^"]+"([^"]+)"', context)[0]
  60.     passval = re.findall('pass"[^"]+"([^"]+)"', context)[0]
  61.     action = re.findall('action\="([^"]+)"', context)[0]
  62.     getargs = { 'pass': passval }
  63.     encodeGet = urllib.urlencode(getargs)
  64.     cmpurl = '%s%s?jschl_vc=%s&%s&jschl_answer=%s' % (hosturl, action, jschl_vc, encodeGet, answer)
  65.     return cmpurl
  66. def jsonextract(html):
  67.     js = re.findall('var playerData[ |\=]+(\{"[\/|\.|\w|\d|\{|\}|\'|"|\[|\]|\;|\,|\:| |\-|\%]+\})', html)
  68.     if js <> None and js.__len__() > 0:
  69.         jsobject = json.loads(js[0])
  70.         print 'Player name:%s; SteamID:%s' % (jsobject['PlayerName'], jsobject['SteamId'])
  71.         stas = jsobject['Stats']
  72.         i = -1
  73.         if stas <> None:
  74.             i = stas.__len__()
  75.         while i > 0:
  76.             i-=1
  77.             print 'Region:%s ; Season:%s; Match:%s' % (stas[i]['Region'],stas[i]['Season'],stas[i]['Match'])
  78.             stasInfo = stas[i]['Stats']
  79.             if stasInfo <> None:
  80.                 for info in stasInfo:
  81.                     print '%s:%s\tcategory:%s' % (info['field'],info['displayValue'],info['category'])
  82.         return js[0]
  83.     else:
  84.         return html

  85. def seach(name, region):
  86.     '''执行cha询方法
  87.     [url=home.php?mod=space&uid=47252]@name[/url] 用户ID
  88.     @region 区域 亚洲:AS 欧洲:EU 南美:NA 澳洲:OC 南韩/日本:JPKR 东南亚:SEA  所有区域统计:AGG
  89.     '''
  90.     urlstr = 'https://pubgtracker.com/profile/pc/%s?region=%s' % (name, region)
  91.     return runreq(urlstr)
  92. if __name__ == "__main__":
  93.     '''    测试方法,测试执行的用户 '''
  94.     seach(name = 'Xinyibaby-Aini', region = 'as')
复制代码




运行结果:

输出

输出


签到天数: 1 天

发表于 2022-7-30 09:19:09 | 显示全部楼层   广西壮族自治区北海市
666666666666666666666
回复 支持 反对

使用道具 举报

结帖率:0% (0/1)
发表于 2018-1-25 00:40:10 | 显示全部楼层   广东省深圳市
感谢分享,支持楼主!
回复 支持 反对

使用道具 举报

结帖率:81% (29/36)

签到天数: 27 天

发表于 2018-1-25 00:28:57 | 显示全部楼层   四川省泸州市
这个网站应该不用抓包吧?别人有api说明呢
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表