actor 和 critic 网络没有forward 是如何训练的？看不懂

Question

actor 和 critic 网络没有forward 是如何训练的？看不懂

Opened this issue 10 months ago · 1 comments

请问在PPO_model.py 文件里，forward 是空的，为什么可以通过evaluate 函数实现呢？实在没搞懂这样的话HGNNScheduler 网络里的 actor 和 critic 是怎么训练的？
evaluate 函数，里面使用了 actor 和 critic ，那actor 网络的含义是什么啊？初始化的输出只有1维，如何输出 action的分布呢？是通过里面的 act 和 get_action_prob 函数实现的？
那在test的时候还是通过函数实现而不是通过神经网络interfence得到结果的啊？
菜鸡懵逼ing

Answer 1 · 2024-04-12T07:48:28.000Z

虽然PPO_model文件里没有forward，但是evaluate()里面调用了“self.get_machines[i]”，“self.get_machines[i]”， “self.actor", "self.critic"，这几个都是nn.Module的子类。actor是输出动作的，逼近”状态-动作“函数，critic计算值函数，计算优势函数用。