开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 29969|回复: 2
收起左侧

[源码分享] Python-xpath

[复制链接]

发表于 2020-12-23 16:55:02 | 显示全部楼层 |阅读模式   广东省广州市
  1. #!/usr/bin/python
  2. # -*- coding: utf-8 -*-

  3. import requests
  4. from lxml import etree
  5. import sqlite3


  6. def write_sql(c, text):
  7.     html = etree.HTML(text)
  8.     # 标题
  9.     titles = html.xpath('//ul[@class="news"]//a[@target="_blank"]/p/text()')
  10.     # 链接
  11.     hrefs = html.xpath('//ul[@class="news"]//a[@target="_blank"]/@href')
  12.     # 日期
  13.     ems = html.xpath('//ul[@class="news"]//a[@target="_blank"]/em/text()')

  14.     number = 0
  15.     for title, href, em in zip(titles, hrefs, ems):
  16.         href = host + href
  17.         cursor = c.execute(
  18.             "SELECT COUNT(*) FROM Python WHERE Url = '%s'" % href)
  19.         res = c.fetchall()
  20.         # 判断该字段是否已存在
  21.         if res[0][0] > 0:
  22.             continue

  23.         c.execute('INSERT INTO Python( Url, Title, Author) VALUES ( "%s", "%s", "%s")' % (
  24.             href,
  25.             title.replace(""", """"),
  26.             em))
  27.         number += 1
  28.         print(title, href, em)

  29.     conn.commit()
  30.     return number > 0


  31. if __name__ == '__main__':

  32.     conn = sqlite3.connect("Python-xxx.db")
  33.     c = conn.cursor()
  34.     c.execute('''CREATE TABLE IF NOT EXISTS Python (
  35.         Url VARCHAR,
  36.         Title VARCHAR,
  37.         Author VARCHAR
  38.     )''')
  39.     conn.commit()

  40.     host = "https://xxx"
  41.     url = host + "/xxx"
  42.     req = requests.get(url)
  43.     req.encoding = 'utf-8'
  44.     # print(req.text)

  45.     html = etree.HTML(req.text)
  46.     clearfixs = html.xpath('//*[@class="nav clearfix"]//a[starts-with(@href, "/cate/")]/text()')
  47.     hrefs = html.xpath('//*[@class="nav clearfix"]//a[starts-with(@href, "/cate/")]/@href')
  48.     # print(clearfix, href)

  49.     for clearfix, href in zip(clearfixs, hrefs):
  50.         print(clearfix, host + href)

  51.         page = 1
  52.         while True:
  53.             url = host + href + "/list_%s.html" % page
  54.             req = requests.get(url)
  55.             req.encoding = 'utf-8'

  56.             if (not write_sql(c, req.text)):
  57.                 break

  58.             print("第%s页" % page)
  59.             page += 1

  60.     conn.close()
复制代码
xpath用着就是舒服~


Python-xpath
https://bbs.266.la/forum.php?mod=viewthread&tid=959
(出处: 派生社区)

发表于 2024-7-18 20:00:03 | 显示全部楼层   山东省东营市
挖2024坟啊啊啊啊啊啊啊啊啊啊
回复 支持 反对

使用道具 举报

发表于 2022-4-10 19:44:02 | 显示全部楼层   江西省宜春市
学习了,谢旋
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表