开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 174|回复: 3
收起左侧

[python] python爬取网页信息

[复制链接]
结帖率:85% (23/27)
发表于 2025-4-16 22:25:02 | 显示全部楼层 |阅读模式   浙江省杭州市
11精币
网站:https://www.chinaplasonline.com/eMarketplace/AllExhibitors/simp?Regions=44&src=31&SearchType=all&SearchBy=Exh&page=2&view=grid
大佬指导下如何爬取网页上公司的名称、展位号以及查看公司的信息。

VX截图_20250416222427.png

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳

签到天数: 4 天

发表于 2025-4-16 22:43:03 | 显示全部楼层   上海市上海市
回复

使用道具 举报

签到天数: 11 天

发表于 2025-4-16 23:31:47 | 显示全部楼层   广东省广州市
这种你查看网页代码是否显示,如果直接显示的话用正则取下来就行了,另外一种如果是接口返回的话就得抓接口来获取
回复

使用道具 举报

签到天数: 6 天

发表于 2025-4-17 09:10:55 | 显示全部楼层   广西壮族自治区南宁市
[Python] 纯文本查看 复制代码
import re
import json
import requests

# 页数
page = 4

url = "https://api.chinaplasonline.com/WebCoreAPI_Search/OpenSearch/SearchWithAds"

payload = json.dumps({
   "log": {
      "LangId": "",
      "SearchBy": "Exh",
      "Keyword": "",
      "IP": "127.0.0.1",
      "Page": page,
      "VistorGuid": "",
      "AdsaleGuid": "",
      "SourceName": "eMarketpalce",
      "SelectedCriterion": {
         "Prods": [
            ""
         ],
         "Apps": [
            ""
         ],
         "Tags": [
            ""
         ],
         "Regions": [
            "44"
         ],
         "TechAreas": [
            ""
         ],
         "ThemeZone": [
            ""
         ],
         "Halls": [
            ""
         ]
      },
      "IsCountPage": False
   },
   "model": {
      "Start": str((page-1)*15),
      "Size": "15",
      "Fetch_fields": "key;diycompid;companynamesc;sponsorid;sgrade;boothno;companytagid;companycatid;companycatsc;companyappid;companyappsc;liveurlsc;liveTitlesc;videofilename;logofilename;companydescsc;companytagsc;r_companytag;r_producttag;r_companycat;r_companyapp",
      "Query": "(comp_info_a:'' OR comp_info_b:'' OR comp_catapptagkey:'') AND seqid:(-1,)&&distinct=dist_key:diycompid,dist_count:1,dist_times:1,reserved:false,update_total_hit:true&&kvpairs=duniqfield:diycompid&&aggregate=group_key:companycatid,agg_fun:count(),max_group:4&&sort=+comp_orderingsc&&filter=(companycountryeformid=\"44\")",
      "second_rank_name": "comp_adv",
      "first_rank_name": "sys_first_default",
      "Disable": "qp:spell_check",
      "raw_query": ""
   },
   "searchParams": {
      "langId": 936,
      "catIds": "",
      "appIds": "",
      "exZone": 0,
      "type": "Exh",
      "keyword": "",
      "tagIds": "",
      "themezone": "",
      "halls": "",
      "regions": "44",
      "IsCPSListOnly": False
   }
})
headers = {
   'Content-Type': 'application/json'
}

response = requests.request("POST", url, headers=headers, data=payload)

responseJsonObject = json.loads(response.text)
for item in responseJsonObject['data']['body']['result']['items']:
    print(f"标题:{item['fields']['companynamesc']}")
    print(f"简介:{item['fields']['companydescsc']}")
    labels = re.findall('~(.*?)~', item['fields']['r_companycat'].replace('\r\n','').replace('\n',''))
    print(f"标签:{'、'.join(labels)}\n")



补充内容 (2025-4-17 09:12):
前面1~3页返回45条,这没细看,自己再琢磨下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表