开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 156|回复: 4
收起左侧

[已解决] yolo奖励函数和实时性

 关闭 [复制链接]
结帖率:75% (6/8)
发表于 2025-3-3 09:27:41 | 显示全部楼层 |阅读模式   江苏省苏州市
10精币
具体步骤:
让yolo进行画面识别,然后我需要写识别到之后进行什么步骤,现在需要设定一个奖励函数来让ai做出最优抉择。
使用场景:
进行竞技类的游戏,列如篮球足球类的,需要奖励函数来让ai做决策:传球、控球、射门投篮等...
当前已具备:
yolov8训练的模型
同时还有一个困扰:
正常yolov8识别速度很快,但是我根据识别到得到图像来写操作的话画面就会变成几秒1帧,这样无法进行实时的操作,具体说明:yolo识别图像并返回数据,我根据数据进行操作,但是操作完之后画面已经进行到下下一步了。如果尝试一个线程用yolo识别并返回数据一个线程来分析数据并实现操作的话也无法实现实时性,是不是有什么更好的写法。

最佳答案

查看完整内容

LOL竞技场:竞技强化学习的泛化环境 https://arxiv.org/abs/2209.08483 他们也是采用了强化学习,奖励函数考虑了KDA,推线,伤害输赢等。 采用虚拟机10开,200个机器,他们可以采集到大量数据。 要定义观察空间,行动空间和奖励。 观察空间观察空间设计为所有英雄都相同,如英雄状态,技能信息,描述炮塔和水晶的状态等 行动空间由三元组形式组成,以层次结构涵盖英雄的所有可能动作:1)采取哪个动作按钮;2)瞄准谁,例如炮塔 ...

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳

结帖率:100% (56/56)

签到天数: 9 天

发表于 2025-3-3 09:27:42 | 显示全部楼层   浙江省杭州市
LOL竞技场:竞技强化学习的泛化环境
https://arxiv.org/abs/2209.08483

他们也是采用了强化学习,奖励函数考虑了KDA,推线,伤害输赢等。
采用虚拟机10开,200个机器,他们可以采集到大量数据。


要定义观察空间,行动空间和奖励。
观察空间观察空间设计为所有英雄都相同,如英雄状态,技能信息,描述炮塔和水晶的状态等
行动空间由三元组形式组成,以层次结构涵盖英雄的所有可能动作:1)采取哪个动作按钮;2)瞄准谁,例如炮塔、敌方英雄或部队中的士兵;3)如何行动,例如移动和释放技能的离散方向。请注意,不同的英雄具有不同的禁止技能偏移,因为他们拥有不同的技能。


你准备使用强化学习,yolo只是最基础的一部,所以实际上你得先根据你的游戏定义好观察空间,行动空间和奖励。再采集几百万的数据,这个数据量小根本不行,但是也简单,就是租游戏服务器多开,然后采集。最后用开源强化学习策略进行训练,进行测试。

游戏还是比较难,推荐先从斗地主强化学习了解一下步骤,再推广到更为复杂的竞技类游戏。
https://github.com/kwai/DouZero/blob/main/README.zh-CN.md

评分

参与人数 1荣誉 +1 收起 理由
笨潴 + 1 热心帮助他人,荣誉+1,希望继续努力(*^__^*) 嘻嘻!

查看全部评分

回复

使用道具 举报

结帖率:75% (6/8)

签到天数: 10 天

 楼主| 发表于 2025-3-3 09:44:32 | 显示全部楼层   江苏省苏州市
比如说控球时间每帧+0.1奖励,距离禁区越进控球时间奖励越多,射门成功+50奖励,被断球-10奖励,这些奖励如何反馈给ai呢,这个是我没搞懂的点
回复

使用道具 举报

结帖率:100% (56/56)

签到天数: 9 天

发表于 2025-3-3 09:47:13 | 显示全部楼层   浙江省杭州市
评论还在审核,之前我测试过那个斗地主的AI,我觉得玩的还是很不错的,可见强化学习还是很有用。
但是这里面的难点,yolo只是获得状态的基础步骤,都不在核心问题里。
回复

使用道具 举报

结帖率:75% (6/8)

签到天数: 10 天

 楼主| 发表于 2025-3-3 09:59:22 | 显示全部楼层   江苏省苏州市
晴雯晴雯 发表于 2025-3-3 09:47
评论还在审核,之前我测试过那个斗地主的AI,我觉得玩的还是很不错的,可见强化学习还是很有用。
但是这里 ...

是的yolo只是提供画面识别的结果,提供给我们当前画面的数据而已
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表