开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 1308|回复: 3
收起左侧

[易语言] 关于多线程操作及控制

[复制链接]
结帖率:59% (17/29)
发表于 2017-3-21 10:11:18 | 显示全部楼层 |阅读模式   广东省广州市
5精币
关于多线程采集的思路

比如我想采集易语言问答区里所有用户

基本思路如下:
1、先得到易语言问答区里总面数,然后采集所有帖子链接


2、进入所有帖子链接,得到回复总页数(可能1-100页等)


3、采集各帖子链接里面的所有页数的用户ID。


但流程控制我不太会基本想法是这样的


  
子程序名返回值类型公开备 注
_按钮_关键字搜索_被单击  
变量名类 型静态数组备 注
局_临时文本文本型 
局_总页文本型 
局_分页整数型 
超级列表框1.全部删除 ()
序号_关键字 = 0
集_关键字 = 编码_gb2312到utf8 (编辑框_关健字.内容)
局_临时文本 = 网页访问u (“http://” + 集_关键字 + “&pg=1”)
局_总页 = 文本_取出中间文本 (局_临时文本, “page-number”#引号“>共”, “页”)
如果真 (局_总页 = “”)
局_总页 = “1”
变量循环首 (1, 到整数 (局_总页), 1, 局_分页)
标签_进度.标题 = “共” + 局_总页 + “页  正在采集第”到文本 (局_分页)“页”
启动线程 (&关键字搜索, 局_分页, )
延时 (10)
变量循环尾 ()
子程序名返回值类型公开备 注
关键字搜索  
参数名类 型参考可空数组备 注
局参_分页整数型链接列表分页
变量名类 型静态数组备 注
局_临时文本文本型 
局_正则正则表达式类 
局_i整数型 
局_临时文本 = 网页访问u (“http://” + 集_关键字 + “&pg=”到文本 (局参_分页))
局_正则.创建 ( #常量_搜索, 局_临时文本)
计次循环首 (局_正则.取匹配数量 (), 局_i)
ID采集 (局_正则.取子匹配文本 (局_i, 1))
延时 (10)
计次循环尾 ()
子程序名返回值类型公开备 注
ID采集  
参数名类 型参考可空数组备 注
局参_链接文本型一级列表链接
变量名类 型静态数组备 注
局_临时文本文本型 
局_总页文本型 
局_分页整数型 
局_网址文本型 
局_分割符字节集 
局_参数串字节集 
局_指针整数型 
局_临时文本 = 网页访问u (局参_链接 + “_1.html”)
局_总页 = 文本_取出中间文本 (局_临时文本, “>共”, “页”)
如果真 (局_总页 = “”)
局_总页 = “1”

变量循环首 (1, 到整数 (局_总页), 1, 局_分页)
局_网址 = 局参_链接
局_分割符 = { 255 }
局_参数串 = 到字节集 (局_网址) + 局_分割符 + 到字节集 (到文本 (局_分页))
集_参数串长度_2 = 取字节集长度 (局_参数串)
局_指针 = 申请内存 (取字节集长度 (局_参数串), )
写到内存 (局_参数串, 局_指针, )
启动线程 (&ID多线程采集, 局_指针, )
延时 (10)
' 处理事件 ()
变量循环尾 ()
子程序名返回值类型公开备 注
ID多线程采集  
参数名类 型参考可空数组备 注
局参_参数整数型
变量名类 型静态数组备 注
i整数型 
局_ID采集文本型0
临时索引整数型 
局_临时文本文本型 
局_参数串字节集 
局_参数串数组字节集0
局_网址文本型 
局_分页整数型 
局_参数串 = 指针到字节集 (局参_参数, 集_参数串长度_2)
释放内存 (局参_参数)
局_参数串数组 = 分割字节集 (局_参数串, { 255 }, )
局_网址 = 到文本 (局_参数串数组 [1])
局_分页 = 到整数 (到文本 (局_参数串数组 [2]))
局_临时文本 = 网页访问u (局_网址 + “_”到文本 (局_分页)“.html”)
调试输出 (局_网址 + “_”到文本 (局_分页)“.html”)
文本_取中间_批量_正则方式 (局_临时文本, #常量_ID采集前标识, #常量_ID采集后标识, 局_ID采集)
计次循环首 (取数组成员数 (局_ID采集), i)
进入许可区 (许可证)
如果 (倒找文本 (文本_取右边 (文本_取出中间文本 (局_ID采集 [i], “来自:”, “</a>”), “>”), 编辑框_城市.内容, , ) ≠ -1 倒找文本 (文本_取右边 (文本_取出中间文本 (局_ID采集 [i], “医院:”, “</a>”), “>”), 编辑框_城市.内容, , ) ≠ -1)
序号_关键字 = 序号_关键字 + 1
临时索引 = 超级列表框1.插入表项 (, , , , , )
超级列表框1.置标题 (临时索引, 0, 到文本 (序号_关键字))
超级列表框1.置标题 (临时索引, 1, 文本_取右边 (文本_取出中间文本 (局_ID采集 [i], “来自:”, “</a>”), “>”))
超级列表框1.置标题 (临时索引, 2, 文本_取右边 (文本_取出中间文本 (局_ID采集 [i], “医院:”, “</a>”), “>”))
超级列表框1.置标题 (临时索引, 3, 文本_取出中间文本 (局_ID采集 [i], “sendmsg&to=”, #引号 ))
超级列表框1.置标题 (临时索引, 4, 文本_取出中间文本 (局_ID采集 [i], “发表于”, “'”))
超级列表框1.置标题 (临时索引, 5, 文本_去除文本 (文本_取出中间文本 (局_ID采集 [i], “ontent”#引号“>”, “</div>”), #常量_ID采集去除文本, 字符 (32), “</span>”, “<br/>”, “<br>”))




退出许可区 (许可证)
计次循环尾 ()


i支持库列表   支持库注释   
iext扩展界面支持库一
EThread多线程支持库
spec特殊功能支持库


但感觉以上思路会很乱,而且容易出差,因为线程感觉实在太多在运行了,不知道怎么投递,一个个进入线程,
比如
1、先得到易语言问答区里总面数,然后采集所有帖子链接,先投递一个链接进去执行


2、进入其中一个链接,得到回复总页数(可能1-100页等)


3、对该链接的所有回复分页用户ID进行采集,并完成。



4、再投递一个帖子链接。


就是分别控制,对这一块我不太懂,或是有没其它思路


比如先把所有帖子链接数全保存进一个数组,然后从数组得到一个个链接进行多线程,求教


补充内容 (2017-3-21 10:12):
如果有相关例子提供最好谢谢


回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳
结帖率:100% (4/4)

签到天数: 1 天

发表于 2017-3-21 21:46:08 | 显示全部楼层   山东省菏泽市
线程池比较适合此类问题!
还有比较严重的问题 就是多线程直接操作窗口组件
应该是间接操作 ,比如使用标签的反馈事件
或者是子类化窗口
然后投递消息到窗口(这个消息属于自定义消息,消息值最好大于20480这个值)
回复

使用道具 举报

结帖率:59% (17/29)
 楼主| 发表于 2017-3-21 23:12:01 | 显示全部楼层   广东省广州市
荖貢 发表于 2017-3-21 21:46
线程池比较适合此类问题!
还有比较严重的问题 就是多线程直接操作窗口组件
应该是间接操作 ,比如使用标签 ...

是否有好点的例子,方便理解谢谢
回复

使用道具 举报

结帖率:100% (4/4)

签到天数: 1 天

发表于 2017-3-22 12:11:29 | 显示全部楼层   山东省菏泽市
去E论坛有很多此类例子可供查阅,希望能帮到你
如果看不懂
那只能收费帮你了
QQ:
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 诚聘英才| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 800073686,邮箱:800073686@b.qq.com
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表