Python的html解析自定义规则版

不吃鱼的喵 · 发表于 2021-4-25 15:38:40

本帖最后由不吃鱼的喵于 2021-4-26 05:44 编辑

如有啥建议可以提一下哈

import requests
import re
from bs4 import BeautifulSoup
from bs4.element import Tag
from ua import *
from mpy.YiChang import *

"""部分功能可扩展"""

def 网页_读网址(地址, ua='电脑'):
"""
简单的网页读写
"""
try:
      html = requests.get(地址, headers=取随机UA(ua))
      html.encoding = html.apparent_encoding
      return html.text
except:
      print('网页_读网址异常')
      return None

def __html路径匹配(源码, 路径):
"""
使用的第三方bs4的库  也可以换成其他的或者自己造轮子
"""
try:
      路径列表 = 路径.split('>')
      匹配列表 = [源码]
      for 匹配路径 in 路径列表:
         临时列表 = []
         for 文本 in 匹配列表:
            临时 = 匹配路径.split('.')
            路径 = 临时[0]
            索引 = -1
            if len(临时) > 1:
                  索引 = int(临时[1])
            数据 = BeautifulSoup(str(文本), 'html.parser')
            数据 = 数据.select(路径)
            if 索引>-1:          # 匹配的到的索引而不是整个路径树
                  临时列表.append(数据[索引])
            for j in range(len(数据)):
                  临时列表.append(数据[j])
         匹配列表 = 临时列表
      return 匹配列表
except:
      print('html取路径异常')
      return []

def __html取属性(元素: Tag, 属性名):
"""
依赖BS4库
"""
try:
      if 属性名 == 'text':
         临时 = 元素.text
      elif 属性名 == 'string':
         临时 = 元素.string
      elif 属性名 == 'str':
         临时 = str(元素)
      else:
         临时 = 元素.get(属性名)
      if 临时 is None:
         临时 = ''
      return 临时
except:
      print('html取属性异常')

def __html正则处理(文本, 参数):
"""
参数列表:
第一个是判断类型
第二个是正则的表达式
第三个就是正则的参数  如正则替换被替换的文本  正则匹配用不到
"""
try:

      if 参数[0] == '正则匹配':
         if 参数[2] == '':
            索引 = 0
         else:
            索引 = int(参数[2])
         结果 = re.search(参数[1], 文本)
         if 结果:
            文本 = 结果.group(索引)
      elif 参数[0] == '正则替换':
         文本 = re.sub(参数[1], 参数[2], 文本)
      return 文本
except:
      print('html正则处理异常')

def __html文本处理(文本, 参数):
"""
一些非正则的文本处理
"""
try:
      if 参数[0] == '前置文本':
         文本 = 参数[1] + 文本
      elif 参数[0] == '后置文本':
         文本 = 文本 + 参数[1]
      elif 参数[0] == '删隐藏字符':
         文本 = 参数[1].join(文本.split())
      return 文本
except:
      return None

def __html访问地址(地址, 参数):
"""
第二次或第n次读取网页并获得源码
构思中......
"""
pass

@异常检测
def html解析(网页源码, 匹配规则: str):
规则列表 = 匹配规则.split('|')
匹配列表 = [网页源码]
for 规则 in 规则列表:
      临时列表 = []
      for 文本 in 匹配列表:
         临时 = 规则.split('@')
         临时文本 = ''
         if '路径' == 临时[0]:  # HTML取路径
            临时列表 = 临时列表 + __html路径匹配(文本, 临时[1])
            continue
         elif '属性' == 临时[0] and type(文本) == Tag and len(临时) == 2:
            临时文本 = __html取属性(文本, 临时[1])
         elif 临时[0].find('正则') > -1:  # 正则处理
            临时文本 = __html正则处理(str(文本), 临时)
         else:
            临时文本 = __html文本处理(str(文本), 临时)
         if 临时文本:
            临时列表.append(临时文本)
      else:
         匹配列表 = 临时列表

return 匹配列表

不吃鱼的喵 · 发表于 2021-4-25 15:45:40

本帖最后由不吃鱼的喵于 2021-4-25 16:56 编辑

全局书源 = {'笔趣阁':
         {"搜索地址": "http://www.xbiquge.la/modules/article/waps.php?searchkey={}",
         "搜索书名": "路径@table[class=\"grid\"]>tr>td[class=\"even\"].0>a|属性@text",
         "搜索书籍地址": "路径@table[class=\"grid\"]>tr>td[class=\"even\"].0>a|属性@href",
         "搜索作者": '路径@table[class="grid"]>tr>td[class="even"].1|属性@text',
         "搜索最新章节": '路径@table[class="grid"]>tr>td[class="odd"]>a|属性@text',

         "章节名": "路径@div[id=\"list\"]>dl>dd>a|属性@text",
         "章节地址": "路径@div[id=\"list\"]>dl>dd>a|属性@href|前置文本@http://www.xbiquge.la",
         "章节正文": "路径@div[id=\"content\"]|属性@text|删隐藏字符@\n\n ",
         "封面": "路径@div[id=\"fmimg\"]>img|属性@src",
         "作者": "路径@div[id=\"info\"]>p.0|属性@text|删隐藏字符@|正则替换@作者：@",
         "最后更新": "路径@div[id=\"info\"]>p.2|属性@text|正则替换@最后更新：@",
         "最新章节": "路径@div[id=\"info\"]>p.3>a|属性@text",
         "简介": "路径@div[id=\"intro\"]>p.1|属性@text|删隐藏字符@ "}}

全局书源['xddxs'] = {
'搜索地址': 'https://m.xddxs.cc/s.php?q={}',
'搜索书名': '路径@h4[class="bookname"]>a|属性@text',
'搜索作者': '路径@div[class="bookinfo"]>div[class="author"]|属性@text|正则替换@作者：@',
'搜索书籍地址': '路径@h4[class="bookname"]>a|属性@href|前置文本@https://m.xddxs.cc',
'搜索封面': '路径@div[class="bookimg"]>a>img|属性@src',
'搜索类型': '路径@div[class="bookinfo"]>div[class="cat"]|属性@text|正则替换@分类：@',
'搜索最新章节': '路径@div[class="update"]>a|属性@text',
}

最近在写小说的匹配

QQ截图20210425164112.png

Wu7653108 · 发表于 2021-5-2 04:42:57

好，支持支持

不吃鱼的喵 · 发表于 2021-4-25 16:41:47

lijiuyun 发表于 2021-4-25 16:06
不愧是精益的成员，中文写的不错，点个赞，加油

中文习惯了改不过来了哈哈

lijiuyun · 发表于 2021-4-25 16:06:39

不愧是精益的成员，中文写的不错，点个赞，加油

		自动登录	找回密码
密码			注册

[源码分享] Python的html解析 自定义规则版

[源码分享] Python的html解析自定义规则版