python scrapy框架

一只编程小菜鸟 · 发表于 2023-9-15 18:08:09

# python使用scrapy爬取豆瓣top250，能获取到第一页全部的标题，链接，使用scrapr.Request访问爬取到的链接，想要将每部电影的详情简介爬出来，第一页25部电影，老是显示不全，是因为反爬还是代码问题，需要大佬看看，额外打赏500精币

Hwak · 发表于 2023-9-15 18:43:34

   for i in range(0, 1):
         url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
         yield scrapy.Request(url)
这里是不是有问题？

一只编程小菜鸟 · 发表于 2023-9-15 19:10:42

Hwak 发表于 2023-9-15 18:43
for i in range(0, 1):
url = 'https://movie.douban.com/top250?start={}&filter='.fo ...

这个是我重写了start_requests方法，初始化调度器的地方

Hwak · 发表于 2023-9-15 19:12:52

一只编程小菜鸟发表于 2023-9-15 19:10
这个是我重写了start_requests方法，初始化调度器的地方

运行不起来你自己断点调试看看吧这个看是否每个都有访问返回

Tz小雨 · 发表于 2023-9-16 21:49:40

[Python] 纯文本查看 复制代码

import scrapy
from scrapy import cmdline


class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def start_requests(self):
        for i in range(0, 1):
            url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
            yield scrapy.Request(url)

    def parse(self, response):
        res = response.xpath('//ol[@class="grid_view"]/li/div/div[@class="info"]')
        for i in res:
            item = {}
            item['title'] = i.xpath('./div/a/span[1]/text()').extract_first()
            item['rating_num'] = i.xpath('./div[@class="bd"]/div/span[2]/text()').extract_first()
            item['href'] = i.xpath('./div[@class="hd"]/a/@href').extract_first()
            print(item)
            yield scrapy.Request(item['href'], callback=self.my_parse, meta={'item': item,'dont_filter':True})

    def my_parse(self, response):
        item = response.meta['item']
        # 通过查找类名或标签提取电影详情简介
        item['indent'] = response.xpath('//div[@class="indent"]//p/text()').extract()
        # 将多行文本合并为单个字符串
        item['indent'] = ' '.join(item['indent']).strip()
        print(item)
        yield item


if __name__ == '__main__':
    cmdline.execute('scrapy crawl douban'.split())

改了一下，再试试

		自动登录	找回密码
密码			注册

[python] python scrapy框架