开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 469|回复: 11
收起左侧

[已解决] python作业

 关闭 [复制链接]

结帖率:92% (190/207)
发表于 2023-11-29 16:58:42 | 显示全部楼层 |阅读模式   广东省东莞市
260精币
python作业太多了,希望论坛好友帮忙搞下,非常感谢

15程序设计题
现在需要对IMDB数据库的最佳电影榜单进行爬虫,网页布局如下图所示,请根据要求完成相关题目
1. 该网站的网址为http://imdb.kxapps.com/default.aspx?page=1,请利用request模块完成网页源码的抓取,抓取过程中并设置用户代理。(6分)
2. 利用lxml库函数解析网页源码,并利用xpath获取第一部电影肖申克救赎的排名、电影名称,导演,主演,类型、剧情简介与电影评分信息(14分)
3. 在数据解析的过程中发现,电影上映年份与电影名放在了一起,请利用正则表达式从上一题获取到的电影名称数据中提取中文电影名称、上映年份。(6分)
4. 完成第一题网址中所有电影(共14部)的数据解析提取,数据内容为:中文电影名称、导演、主演、类型、剧情简介、上映年份、评分(10分)

最佳答案


回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳

签到天数: 1 天

发表于 2023-11-29 16:58:43 | 显示全部楼层   湖南省长沙市
我就宠你吧

spider.txt

1.92 KB, 下载次数: 8

改成.py运行

评分

参与人数 1好评 +1 精币 +3 收起 理由
afd + 1 + 3 感谢老哥,前行路上的一道光,您的技术跟胸怀一样宽广,愿您事业有成,前途无量.

查看全部评分

回复

使用道具 举报

结帖率:100% (1/1)
发表于 2023-11-29 17:19:06 | 显示全部楼层   美国
我好奇,你是Tao宝上还是哪接的单,然后来论坛拿精币找人做吗?

点评

坦白讲,他这个是学Python时老师教的最基础的爬虫课程。 估计这个货就是懒。。。   贵州省贵阳市  详情 回复 发表于 2023-11-29 17:23
回复

使用道具 举报

结帖率:99% (120/121)

签到天数: 28 天

发表于 2023-11-29 17:23:09 | 显示全部楼层   贵州省贵阳市
Sin3973 发表于 2023-11-29 17:19
我好奇,你是Tao宝上还是哪接的单,然后来论坛拿精币找人做吗?

坦白讲,他这个是学Python时老师教的最基础的爬虫课程。
估计这个货就是懒。。。

点评

afd
滚一边去   广东省东莞市  发表于 2023-11-29 17:27
回复

使用道具 举报

结帖率:92% (190/207)

签到天数: 14 天

 楼主| 发表于 2023-11-29 17:26:58 | 显示全部楼层   广东省东莞市
Sin3973 发表于 2023-11-29 17:19
我好奇,你是Tao宝上还是哪接的单,然后来论坛拿精币找人做吗?

大学作业,备考忙

点评

大学还学这个啊?还招生不?有啥要求么? [attachimg]1290856[/attachimg]   贵州省贵阳市  详情 回复 发表于 2023-11-29 17:36
回复

使用道具 举报

结帖率:99% (120/121)

签到天数: 28 天

发表于 2023-11-29 17:36:45 | 显示全部楼层   贵州省贵阳市
afd 发表于 2023-11-29 17:26
大学作业,备考忙

大学还学这个啊?还招生不?有啥要求么?
12A164BC.gif
回复

使用道具 举报

结帖率:100% (1/1)
发表于 2023-11-29 17:45:42 | 显示全部楼层   湖北省黄石市
xpath


拿列表:  /html/body/div/div/div[2]/div[2]/div[3]/ul[2]/li

歌名数组:/html/body/div/div/div[2]/div[2]/div[3]/ul[2]/li/div/div[3]/span/a

歌手数组:/html/body/div/div/div[2]/div[2]/div[3]/ul[2]/li/div/div[4]/a

时长数组:/html/body/div/div/div[2]/div[2]/div[3]/ul[2]/li/div/div[5]



饭喂到你嘴里!




点评

afd
写的什么玩意 傻不拉几的   广东省东莞市  发表于 2023-11-29 17:55

评分

参与人数 1精币 +1 收起 理由
xiaoyu1986 + 1 我靠( ‵o′)凸,这个逼好屌,逮谁骂谁。。。

查看全部评分

回复

使用道具 举报

结帖率:100% (1/1)
发表于 2023-11-29 17:59:45 | 显示全部楼层   湖北省黄石市

1.jpg

你真是个低素质的小白,对不起你名人堂的称号


补充内容 (2023-11-29 18:00):
学Python老师没叫你用xpath模块?
回复

使用道具 举报

签到天数: 1 天

发表于 2023-11-29 18:12:14 | 显示全部楼层   澳大利亚
import requests
from lxml import etree
import re

url = 'http://imdb.kxapps.com/default.aspx?page=1'

# 设置用户代理
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

response = requests.get(url, headers=headers)

# 检查请求状态
if response.status_code == 200:
    html = response.text
else:
    print("页面内容获取失败!")

# 使用lxml解析网页源码
tree = etree.HTML(html)

# 解析所有电影的数据
movies_data = []

# 获取电影总数
movie_list = tree.xpath('//div[@class="top_list"]/ul/li')

for movie in movie_list:
    rank = movie.xpath('.//div[@class="number"]/em/text()')[0]
    movie_name = movie.xpath('.//h2/a/text()')[0]
    #print(movie_name)
    director = movie.xpath('.//p[1]/span/text()')[0]
    actors = movie.xpath('.//p[2]/span/text()')[0].replace('\xa0\xa0', ' ')
    genre = movie.xpath('.//p[3]/span/text()')[0]
    summary = movie.xpath('.//p[@class="mt3"]/text()')[0].strip().replace('\r\n', '')
    rating = movie.xpath('.//div[@class="mov_point"]/b[@class="point"]/@title')[0]

    # 使用正则表达式提取中文电影名称和上映年份
    movie_name = movie_name.strip()  # 去除字符串两端的空格
    pattern = r'([\u4e00-\u9fff]+)\s.*\((\d{4})\)'
    match = re.match(pattern, movie_name)
    if match:
        chinese_name = match.group(1)
        #print(chinese_name)
        release_year = match.group(2)
    else:
        chinese_name = None
        release_year = None

    movies_data.append({
        "排名": rank,
        "中文电影名称": chinese_name,
        "上映年份": release_year,
        "导演": director,
        "主演": actors,
        "类型": genre,
        "剧情简介": summary,
        "评分": rating
    })

# 打印所有电影的数据
for movie in movies_data:
    print(movie)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 诚聘英才| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 800073686,邮箱:800073686@b.qq.com
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表