/pydogfight

dogfight 2D gym environment

Primary LanguagePython

pydogfight

基于Gym开发的2D空战仿真框架

运行

python main.py scripts/v2/ppo.yaml --render --output-dir=outputs/ppo_v2  

配置文件

scripts/v2/ppo.yaml

output_dir: output/v2/ppo # 输出目录
render: false # 是否渲染
num_episodes: 1000 # 运行轮数
track: 60 # 是否捕获行为树运行数据
policy:
    red: scripts/v2/rl.xml # 红方行为树
    blue: scripts/v2/greedy.xml # 蓝方行为树
options:
    train: true # 是否开启训练
    red_agents: ['red'] # 红方agents
    blue_agents: ['blue'] # 蓝方agents
#     indestructible: true # 是否开启无敌模式
    collision_scale: 1.5 # 碰撞倍数,越大越容易发生碰撞
context: # 行为树环境变量,可以在行为树中通过{{}}来传递
    models_dir: 'models/v2/ppo' # 模型目录
    rl_algo: PPO
---
# 后面的配置会继承前面的
num_episodes: 100
options:
    train: false
    indestructible: false
    collision_scale: 1.5

强化学习结合的行为树

行为树框架:https://github.com/wangtong2015/pybts

具体请看scripts中写的行为树xml和 pydogfight/policy/bt/ 中的代码

行为树节点定义

具体请看

  • bt/ :这里放自定义的节点
  • pydogfight/policy/bt/ 这里是默认提供的贪心节点
  • pydogfight/policy/bt/rl 这里是默认提供的强化学习节点

上述节点均默认注册

强化学习

approx_kl: 近似Kullback-Leibler散度,即策略更新前后的变化量。数值为0.028604157,表示在连续更新中,新策略与旧策略之间的差异是适中的。如果这个值过高,可能表示策略更新过于激进,可能导致训练不稳定。

clip_fraction: 这是PPO算法中使用的剪裁比例,其值为0.138,意味着大约13.8%的梯度被剪裁。这是为了避免更新步骤过大,保持训练的稳定性。

clip_range: 剪裁范围,这里是0.2。这个范围决定了策略更新的最大步长,防止更新过大而导致训练不稳定。

entropy_loss: 熵损失,值为-2.77。熵损失是用来衡量策略的随机性,高熵意味着策略的随机性更高,有助于探索;而低熵则意味着策略趋于确定性。负值表示熵在减少,策略逐渐趋向确定性。

explained_variance: 解释方差,值为-0.156。这个指标衡量的是模型预测的值函数和实际回报之间的一致性。理想情况下,这个值越接近1越好。这里的负值表明模型的预测和实际情况差异较大。

learning_rate: 学习率,这里为0.0003。学习率决定了权重更新的步长,对学习过程的速度和质量有直接影响。

loss: 总损失,值为-0.027。这是模型在训练过程中的总体损失,是优化的直接目标。

n_updates: 更新次数,290次。表示到目前为止,模型参数已经被更新了290次。

policy_gradient_loss: 策略梯度损失,值为-0.0213。这个损失反映了策略梯度优化器的性能,是模型学习策略的直接反馈。

std: 策略的标准差,值为0.964。这个指标反映了采取行动的随机性,较大的值表明采取的行动较为多样。

value_loss: 值函数损失,值为0.00489。这是值函数预测与实际回报之间差异的量度,用于优化模型的值函数预测。

环境

战场:1v1战机对抗 策略更新时间间隔:1s 一局对战最长时长:30min 一局对战平均时长:10min

状态空间:

  • shape=(15, 8)
  • 每一行都是一个实体的数据(飞机、导弹),包括坐标、发射状态、速度等

动作空间:

  • shape=(3, )
  • 1:动作类型
    • 0:无
    • 1:go to location
    • 2: fire missile
  • 2、3:动作指定坐标(x,y)

框架:stable_baseline3

强化学习策略:PPO

强化学习算法

DQN

  • 类型:用于离散动作空间。
  • 原理:DQN 是基于Q学习的一种算法,使用深度神经网络来近似Q函数,即动作-价值函数,它预测在给定状态和动作下的期望回报。DQN 引入了经验回放(replay buffer)和目标Q网络这两个关键技术来稳定训练和避免发散。
  • 特点:简单,易于实现,广泛应用于具有离散动作空间的问题,但不适用于连续动作空间。

SAC(Soft Actor-Critic)

  • 类型:用于连续动作空间。
  • 原理:SAC 是一个基于Actor-Critic架构的算法,它结合了深度学习和强化学习的技术。SAC的核心在于最大化预期回报和熵(动作的随机性),这样可以鼓励探索。SAC通常具有更好的样本效率和更稳定的训练性能。
  • 特点:可以处理连续动作问题,通过熵正则化促进探索,训练相对稳定。

DDPG(Deep Deterministic Policy Gradient)

  • 类型:用于连续动作空间。
  • 原理:DDPG是一个Actor-Critic算法,结合了Q学习的**和策略梯度方法。它使用一个确定性的策略(Actor)来选择动作,和一个值函数(Critic)来评估这个动作。DDPG也使用了经验回放和目标网络技术,类似于DQN。
  • 特点:适用于连续动作空间,可以学习确定性策略,训练较为稳定,但可能面临探索不足的问题。

TD3(Twin Delayed DDPG)

  • 类型:用于连续动作空间。
  • 原理:TD3是对DDPG的一个改进,它引入了双Critic架构来减少值函数估计的过优化问题,同时通过延迟策略更新和目标策略平滑来进一步提高算法的稳定性。
  • 特点:相比DDPG,TD3在许多环境中表现出更好的性能和更高的样本效率,减少了过优化问题。

问题

1. "dot" not found in path.

可能是电脑上没有安装graphviz,请参照如下网址安装 https://graphviz.org/download/