开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 914|回复: 24
收起左侧

[易语言纯源码] [我的爬虫日记01]爬虫获取豆瓣网Top250

[复制链接]
发表于 2024-10-29 20:01:15 | 显示全部楼层 |阅读模式   辽宁省沈阳市
分享源码
界面截图:
是否带模块: 调用了模块
备注说明: -
  
窗口程序集名保 留  保 留备 注
程序集1   
子程序名返回值类型公开备 注
_启动子程序整数型 本子程序在程序启动后最先执行
变量名类 型静态数组备 注
url_all文本型0
i整数型 
电影名文本型 
' 第一页https://movie.douban.com/top250?start=0
' 第二页https://movie.douban.com/top250?start=25
' 第三页https://movie.douban.com/top250?start=50
fputs (1, “开始获取...”#换行符 )
取全部详情页链接 (“https://movie.douban.com/top250”, url_all)
.for (1, GetAryElementCount (url_all), 1, i)
fputs (1, url_all [i]#换行符 )
取影片信息 (url_all [i])
.next ()
fputs (1, “获取完成!”#换行符 )
fgets ()
return (0)  ' 可以根据您的需要返回任意数值
子程序名返回值类型公开备 注
取全部详情页链接整数型 
参数名类 型参考可空数组备 注
url文本型
url_all文本型
变量名类 型静态数组备 注
html_str文本型 
grid_view_str文本型 
url_arr文本型0
i整数型 
page整数型 
full_url文本型 
.for (1, 250, 25, page)
' 取网页源码并转码
full_url = url + “?start=”str (page)
html_str = HttpRequestRetText (url, 0, , , , , , , , , )
html_str = Utf8ToGb2312 (html_str)
' 获取中间链接列表数据
grid_view_str = GetMidText (html_str, #left_grid_view, #right_grid_view, , )
GetMidText_批量 (grid_view_str, #left_a, #right_a, url_arr, , , , , , , )
.for (1, GetAryElementCount (url_arr), 1, i)
AddElement (url_all, url_arr [i])
.next ()
.next ()
return (0)
子程序名返回值类型公开备 注
取影片信息  
参数名类 型参考可空数组备 注
url文本型
变量名类 型静态数组备 注
html_str文本型 
电影名文本型 
年份文本型 
导演文本型 
attrs_html文本型 
主演数组文本型0
i整数型 
类型数组文本型0
地区文本型 
语言文本型 
评分文本型 
' ===============获取===================
html_str = HttpRequestRetText (url, 0, , , , , , , , , )
html_str = Utf8ToGb2312 (html_str)
电影名 = GetMidText (html_str, #left_电影名, #right_电影名, , )
年份 = GetMidText (html_str, #left_年份, #right_年份, , )
导演 = GetMidText (html_str, #left_导演, #right_导演, , )
' 主演
GetMidText_批量 (html_str, #left_主演, #right_主演, 主演数组, , , , , , , )
' 类型
GetMidText_批量 (html_str, #left_类型, #right_类型, 类型数组, , , , , , , )
地区 = GetMidText (html_str, #left_地区, #right_地区, , )
语言 = GetMidText (html_str, #left_语言, #right_语言, , )
评分 = GetMidText (html_str, #left_评分, #right_评分, , )
' ===============打印===================
fputs (1, “电影名:” + 电影名 + #换行符 )
fputs (1, “年份:” + 年份 + #换行符 )
fputs (1, “导演:” + 导演 + #换行符 )
fputs (1, “主演:”)
.for (1, GetAryElementCount (主演数组), 1, i)
.ife (i < 3)
fputs (1, 主演数组 [i]“/”)
break ()

.next ()
fputs (1, #换行符 )
fputs (1, “类型:”)
.for (1, GetAryElementCount (类型数组), 1, i)
.ife (i < 3)
fputs (1, 类型数组 [i]“/”)
break ()

.next ()
fputs (1, #换行符 )
fputs (1, “地区:” + 地区 + #换行符 )
fputs (1, “语言:” + 语言 + #换行符 )
fputs (1, “评分:” + 评分 + #换行符 )
fputs (1, #换行符 )


爬取豆瓣top250.rar (353.28 KB, 下载次数: 22)

评分

参与人数 3精币 +4 收起 理由
光影魔术 + 2 新技能已get√
wa690602724 + 1 感谢分享,很给力!~
多多帅吧 + 1 感谢你的支持,精易有你更精彩

查看全部评分


签到天数: 2 天

发表于 2025-1-9 12:50:06 | 显示全部楼层   河北省石家庄市
回复 支持 反对

使用道具 举报

签到天数: 9 天

发表于 2024-12-4 05:53:34 | 显示全部楼层   北京市北京市
感谢分享,很给力!~
回复 支持 反对

使用道具 举报

结帖率:100% (1/1)

签到天数: 1 天

发表于 2024-11-6 19:02:34 | 显示全部楼层   广西壮族自治区柳州市
感谢分享源码
回复 支持 反对

使用道具 举报

签到天数: 14 天

发表于 2024-10-30 17:55:28 | 显示全部楼层   重庆市重庆市
运行了没反应
回复 支持 反对

使用道具 举报

签到天数: 13 天

发表于 2024-10-30 14:07:16 | 显示全部楼层   广东省东莞市
感谢分享
回复 支持 反对

使用道具 举报

结帖率:50% (3/6)
发表于 2024-10-30 11:45:24 | 显示全部楼层   河南省南阳市
感谢大神分享~!
回复 支持 反对

使用道具 举报

签到天数: 17 天

发表于 2024-10-30 11:20:24 | 显示全部楼层   湖北省武汉市
感谢分享
回复 支持 反对

使用道具 举报

结帖率:100% (7/7)

签到天数: 15 天

发表于 2024-10-30 10:10:31 | 显示全部楼层   湖北省武汉市
感谢分享,很给力!~
回复 支持 反对

使用道具 举报

签到天数: 19 天

发表于 2024-10-30 09:44:54 | 显示全部楼层   河南省郑州市
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表