yolo奖励函数和实时性

约定踏雪去看花 · 发表于 2025-3-3 09:27:41

具体步骤：
让yolo进行画面识别，然后我需要写识别到之后进行什么步骤，现在需要设定一个奖励函数来让ai做出最优抉择。
使用场景：
进行竞技类的游戏，列如篮球足球类的，需要奖励函数来让ai做决策：传球、控球、射门投篮等...
当前已具备：
yolov8训练的模型
同时还有一个困扰：
正常yolov8识别速度很快，但是我根据识别到得到图像来写操作的话画面就会变成几秒1帧，这样无法进行实时的操作，具体说明：yolo识别图像并返回数据，我根据数据进行操作，但是操作完之后画面已经进行到下下一步了。如果尝试一个线程用yolo识别并返回数据一个线程来分析数据并实现操作的话也无法实现实时性，是不是有什么更好的写法。

晴雯晴雯 · 发表于 2025-3-3 09:27:42

LOL竞技场：竞技强化学习的泛化环境
https://arxiv.org/abs/2209.08483

他们也是采用了强化学习，奖励函数考虑了KDA，推线，伤害输赢等。
采用虚拟机10开，200个机器，他们可以采集到大量数据。

要定义观察空间，行动空间和奖励。
观察空间观察空间设计为所有英雄都相同，如英雄状态，技能信息，描述炮塔和水晶的状态等
行动空间由三元组形式组成，以层次结构涵盖英雄的所有可能动作：1）采取哪个动作按钮；2）瞄准谁，例如炮塔、敌方英雄或部队中的士兵；3）如何行动，例如移动和释放技能的离散方向。请注意，不同的英雄具有不同的禁止技能偏移，因为他们拥有不同的技能。

你准备使用强化学习，yolo只是最基础的一部，所以实际上你得先根据你的游戏定义好观察空间，行动空间和奖励。再采集几百万的数据，这个数据量小根本不行，但是也简单，就是租游戏服务器多开，然后采集。最后用开源强化学习策略进行训练，进行测试。

游戏还是比较难，推荐先从斗地主强化学习了解一下步骤，再推广到更为复杂的竞技类游戏。
https://github.com/kwai/DouZero/blob/main/README.zh-CN.md

约定踏雪去看花 · 发表于 2025-3-3 09:44:32

比如说控球时间每帧+0.1奖励，距离禁区越进控球时间奖励越多，射门成功+50奖励，被断球-10奖励，这些奖励如何反馈给ai呢，这个是我没搞懂的点

晴雯晴雯 · 发表于 2025-3-3 09:47:13

评论还在审核，之前我测试过那个斗地主的AI，我觉得玩的还是很不错的，可见强化学习还是很有用。
但是这里面的难点，yolo只是获得状态的基础步骤，都不在核心问题里。

约定踏雪去看花 · 发表于 2025-3-3 09:59:22

晴雯晴雯发表于 2025-3-3 09:47
评论还在审核，之前我测试过那个斗地主的AI，我觉得玩的还是很不错的，可见强化学习还是很有用。
但是这里 ...

是的yolo只是提供画面识别的结果，提供给我们当前画面的数据而已

		自动登录	找回密码
密码			注册

[已解决] yolo奖励函数和实时性

最佳答案

评分