开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 625|回复: 4
收起左侧

[python] python scrapy框架

[复制链接]
结帖率:70% (14/20)
发表于 2023-9-15 18:08:09 | 显示全部楼层 |阅读模式   广东省揭阳市
500精币
# python使用scrapy爬取豆瓣top250,能获取到第一页全部的标题,链接,使用scrapr.Request访问爬取到的链接,想要将每部电影的详情简介爬出来,第一页25部电影,老是显示不全,是因为反爬还是代码问题,需要大佬看看,额外打赏500精币

douban.zip

680 Bytes, 下载次数: 11

595a79966fea37519d91c40c6ca7f32.png

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳

结帖率:100% (17/17)

签到天数: 5 天

发表于 2023-9-15 18:43:34 | 显示全部楼层   广东省广州市
       for i in range(0, 1):
            url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
            yield scrapy.Request(url)
这里是不是有问题?
回复

使用道具 举报

结帖率:70% (14/20)
 楼主| 发表于 2023-9-15 19:10:42 | 显示全部楼层   广东省揭阳市
Hwak 发表于 2023-9-15 18:43
for i in range(0, 1):
            url = 'https://movie.douban.com/top250?start={}&filter='.fo ...

这个是我重写了start_requests方法,初始化调度器的地方
回复

使用道具 举报

结帖率:100% (17/17)

签到天数: 5 天

发表于 2023-9-15 19:12:52 | 显示全部楼层   广东省广州市
一只编程小菜鸟 发表于 2023-9-15 19:10
这个是我重写了start_requests方法,初始化调度器的地方

运行不起来 你自己断点调试看看吧 这个 看是否每个都有访问返回
回复

使用道具 举报

结帖率:81% (13/16)

签到天数: 5 天

发表于 2023-9-16 21:49:40 | 显示全部楼层   安徽省池州市
[Python] 纯文本查看 复制代码
import scrapy
from scrapy import cmdline


class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def start_requests(self):
        for i in range(0, 1):
            url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
            yield scrapy.Request(url)

    def parse(self, response):
        res = response.xpath('//ol[@class="grid_view"]/li/div/div[@class="info"]')
        for i in res:
            item = {}
            item['title'] = i.xpath('./div/a/span[1]/text()').extract_first()
            item['rating_num'] = i.xpath('./div[@class="bd"]/div/span[2]/text()').extract_first()
            item['href'] = i.xpath('./div[@class="hd"]/a/@href').extract_first()
            print(item)
            yield scrapy.Request(item['href'], callback=self.my_parse, meta={'item': item,'dont_filter':True})

    def my_parse(self, response):
        item = response.meta['item']
        # 通过查找类名或标签提取电影详情简介
        item['indent'] = response.xpath('//div[@class="indent"]//p/text()').extract()
        # 将多行文本合并为单个字符串
        item['indent'] = ' '.join(item['indent']).strip()
        print(item)
        yield item


if __name__ == '__main__':
    cmdline.execute('scrapy crawl douban'.split())



改了一下,再试试


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 诚聘英才| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 800073686,邮箱:800073686@b.qq.com
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表