开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 173|回复: 11
收起左侧

[python] python爬取网站信息

[复制链接]
结帖率:85% (22/26)
发表于 前天 22:30 | 显示全部楼层 |阅读模式   浙江省杭州市
11精币
网站:https://www.pchi-china.com/page/exhibitor
大佬指导下如何爬取网页上公司的名称、展位号以及查看公司的信息。

VX截图_20250414222922.png

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳
结帖率:97% (29/30)
发表于 前天 22:48 | 显示全部楼层   贵州省遵义市
你这不是自己都找到了吗?
回复

使用道具 举报

结帖率:85% (22/26)

签到天数: 1 天

 楼主| 发表于 前天 22:56 | 显示全部楼层   浙江省杭州市
右手胜过左手 发表于 2025-4-14 22:48
你这不是自己都找到了吗?

这只是一页的,我要把几十页的全爬出来
回复

使用道具 举报

结帖率:97% (29/30)
发表于 前天 22:59 | 显示全部楼层   贵州省遵义市
jmao1234 发表于 2025-4-14 22:56
这只是一页的,我要把几十页的全爬出来

你采集那么多它也是翻页啊;你这问题有点奇怪,你是不会翻页?还是不会写代码?还是有加密参数?采集多了有验证?问题的基本提问法都没描述
回复

使用道具 举报

结帖率:100% (1/1)

签到天数: 15 天

发表于 前天 23:07 | 显示全部楼层   河南省信阳市
修改负载里面的pageNum参数即可
回复

使用道具 举报

结帖率:100% (58/58)

签到天数: 15 天

发表于 前天 23:29 | 显示全部楼层   江西省南昌市
获取数据,解析数据,保存数据
回复

使用道具 举报

结帖率:81% (22/27)

签到天数: 15 天

发表于 前天 23:40 | 显示全部楼层   云南省昆明市
jmao1234 发表于 2025-4-14 22:56
这只是一页的,我要把几十页的全爬出来

请求哪里不是加了页数,1就是第一1页,2就是第二页。直接循环提交,
回复

使用道具 举报

结帖率:50% (1/2)

签到天数: 16 天

发表于 昨天 00:21 | 显示全部楼层   香港特别行政区深水埗区
  
子程序名返回值类型公开备 注
GET_网页请求 
变量名类 型静态数组备 注
Url文本型 
add_Header类_POST数据类 
Header文本型 
Return文本型 
' 请自行调用精易模块!
Url = "https://www.pchi-china.com/cmsApi/common/exhibitorShop/list?pageNum=1&pageSize=99999&countryCode=&exhibitionId=&exhibitorCategory=&isAsc=desc&keyword=&orderByColumn="
add_Header.添加 ("user-agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36")
add_Header.添加 ("version","1")
Header = add_Header.获取协议头数据 (
Return= 网页_访问S (Url,0 , , , ,Header , , 真, , , , , , , , , ,  , )
Return= 编码_utf8到gb2312(Return)



回复

使用道具 举报

结帖率:50% (1/2)

签到天数: 16 天

发表于 昨天 00:21 | 显示全部楼层   香港特别行政区深水埗区
Jannock 发表于 2025-4-15 00:21
[e=0].版本 2

.子程序 GET_网页请求, , 公开

一页搞定
回复

使用道具 举报

结帖率:50% (1/2)

签到天数: 16 天

发表于 昨天 01:10 | 显示全部楼层   香港特别行政区深水埗区
[Python] 纯文本查看 复制代码
import requests
import json

url = "https://www.pchi-china.com/cmsApi/common/exhibitorShop/list?pageNum=1&pageSize=999999999&countryCode=&exhibitionId=&exhibitorCategory=&isAsc=desc&keyword=&orderByColumn="

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36",
    "version": "1"
}

response = requests.get(url,headers=headers)

# 输出响应内容
print(response.status_code)
# 检查请求是否成功
if response.status_code == 200:
    try:
        response_data = response.json()  # ✅ 正确调用方法获取字典
    except ValueError:
        print("响应内容不是有效的JSON格式")
        exit()



# 提取所需字段
result = []

for exhibitor in response_data["rows"]:
    entry = {
        "公司名称": exhibitor["companyName"],
        "公司描述": exhibitor["companyDesc"],  # 将换行符替换为空格
        "地址": exhibitor["address"],
        "展位号": exhibitor["standNo"],
        "联系电话": exhibitor["contactPhone"],
        "联系手机": exhibitor["contactMobile"],
        "联系邮箱": exhibitor["contactEmail"]
    }
    result.append(entry)

# 打印结果(示例)
for i, company in enumerate(result, 1):
    print(f"\n【第{i}家公司】")
    print(f"名称:{company['公司名称']}")
    #print(f"描述:{company['公司描述'][:50]}...")  # 显示前50个字符避免过长
    print(f"地址:{company['地址']}")
    print(f"展位:{company['展位号']}")
    print(f"电话:{company['联系电话']}")
    print(f"手机:{company['联系手机']}")
    print(f"邮箱:{company['联系邮箱']}")


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表