python爬取网站信息

jmao1234 · 发表于 2025-4-14 22:30:27

网站：https://www.pchi-china.com/page/exhibitor
大佬指导下如何爬取网页上公司的名称、展位号以及查看公司的信息。

Jannock · 发表于 2025-4-14 22:30:28

[Python] 纯文本查看 复制代码

import requests
import json

url = "https://www.pchi-china.com/cmsApi/common/exhibitorShop/list?pageNum=1&pageSize=999999999&countryCode=&exhibitionId=&exhibitorCategory=&isAsc=desc&keyword=&orderByColumn="

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36",
    "version": "1"
}

response = requests.get(url,headers=headers)

# 输出响应内容
print(response.status_code)
# 检查请求是否成功
if response.status_code == 200:
    try:
        response_data = response.json()  # ✅ 正确调用方法获取字典
    except ValueError:
        print("响应内容不是有效的JSON格式")
        exit()



# 提取所需字段
result = []

for exhibitor in response_data["rows"]:
    entry = {
        "公司名称": exhibitor["companyName"],
        "公司描述": exhibitor["companyDesc"],  # 将换行符替换为空格
        "地址": exhibitor["address"],
        "展位号": exhibitor["standNo"],
        "联系电话": exhibitor["contactPhone"],
        "联系手机": exhibitor["contactMobile"],
        "联系邮箱": exhibitor["contactEmail"]
    }
    result.append(entry)

# 打印结果（示例）
for i, company in enumerate(result, 1):
    print(f"\n【第{i}家公司】")
    print(f"名称：{company['公司名称']}")
    #print(f"描述：{company['公司描述'][:50]}...")  # 显示前50个字符避免过长
    print(f"地址：{company['地址']}")
    print(f"展位：{company['展位号']}")
    print(f"电话：{company['联系电话']}")
    print(f"手机：{company['联系手机']}")
    print(f"邮箱：{company['联系邮箱']}")

右手胜过左手 · 发表于 2025-4-14 22:48:16

你这不是自己都找到了吗？

jmao1234 · 发表于 2025-4-14 22:56:02

右手胜过左手发表于 2025-4-14 22:48
你这不是自己都找到了吗？

这只是一页的，我要把几十页的全爬出来

右手胜过左手 · 发表于 2025-4-14 22:59:43

jmao1234 发表于 2025-4-14 22:56
这只是一页的，我要把几十页的全爬出来

你采集那么多它也是翻页啊；你这问题有点奇怪，你是不会翻页？还是不会写代码？还是有加密参数？采集多了有验证？问题的基本提问法都没描述

kaliJs · 发表于 2025-4-14 23:07:00

修改负载里面的pageNum参数即可

fire9 · 发表于 2025-4-14 23:29:23

获取数据，解析数据，保存数据

lainian · 发表于 2025-4-14 23:40:56

jmao1234 发表于 2025-4-14 22:56
这只是一页的，我要把几十页的全爬出来

请求哪里不是加了页数，1就是第一1页，2就是第二页。直接循环提交，

Jannock · 发表于 2025-4-15 00:21:31

子程序名	返回值类型	公开	备注
GET_网页请求

变量名	类型	静态	数组	备注
Url	文本型
add_Header	类_POST数据类
Header	文本型
Return	文本型

' 请自行调用精易模块！
Url = "https://www.pchi-china.com/cmsApi/common/exhibitorShop/list?pageNum=1&pageSize=99999&countryCode=&exhibitionId=&exhibitorCategory=&isAsc=desc&keyword=&orderByColumn="
add_Header.添加 ("user-agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36"）
add_Header.添加 ("version","1"）
Header = add_Header.获取协议头数据 (）
Return= 网页_访问S (Url,0 , , , ,Header , , 真, , , , , , , , , , , ）
Return= 编码_utf8到gb2312（Return)

Jannock · 发表于 2025-4-15 00:21:49

Jannock 发表于 2025-4-15 00:21
[e=0].版本 2

.子程序 GET_网页请求, , 公开

一页搞定

		自动登录	找回密码
密码			注册

[已解决] python爬取网站信息

最佳答案