Action space

TCL action:[0, 3] 原始action是[0,1] => [on, off]，根据当前TCL最大能量消耗大于当前剩余能量，那么就应该开始工作-> [0, 33%, 67%, 100%] 运转

Price action:[0, 4] 表示价格响应负荷的信号，值在{-2，-1，0，1，2}当中正是的，price_level 表示当前的价格水平，它是用来指示价格响应负荷的信号的一个值。该值在范围 {-2, -1, 0, 1, 2} 内，代表着不同的价格信号：

根据当前的价格水平，代理（agent）可以调整其行为，例如控制 TCL 或 ESS 的状态，以及优化能量消耗或生产，从而获得更好的奖励值或利润。价格响应负荷是一种智能电网中的重要机制，可以通过调整价格信号来实现电力需求和供应的平衡，以提高能源的效率和经济性。

Energy deficiency action:[0, 1] 0表示购买电力，1表示使用电池能源。

Energy excess action:[0, 1] 0表示将过剩电力卖出，1表示将过剩电力存储到电池当中。

使用给定的控制动作（action）。该方法的输入是一个四元组 action，其中包含四个整数值，表示控制动作：

reward

在这个函数中，_compute_reward 用于计算每个时间步的奖励（reward）。奖励是由以下三个部分组成：

TCL 负荷消耗（tcl_consumption）乘以 DER（分布式能源资源）的发电成本（gen_cost）：这表示消耗的电力乘以单位电力的成本，以此作为一个奖励或惩罚。如果 TCL 负荷消耗的电力越少，那么奖励就越高；如果 TCL 负荷消耗的电力越多，那么奖励就越低。
住户的盈利（residential_profit）：这表示住户根据当前价格水平（price_level）购买电力时的盈利。如果价格水平低，住户以较低的价格购买电力，其盈利会增加，从而增加奖励；如果价格水平高，住户以较高的价格购买电力，其盈利会减少，从而减少奖励。
主电网的盈利（main_grid_profit）：这表示主电网根据当前价格水平（price_level）出售电力时的盈利。如果价格水平高，主电网以较高的价格出售电力，其盈利会增加，从而增加奖励；如果价格水平低，主电网以较低的价格出售电力，其盈利会减少，从而减少奖励。

最终，奖励是上述三个部分之和，表示代理（Agent）在当前时间步的总体表现。奖励越高，表示代理在当前状态下做出了更好的决策；奖励越低，表示代理在当前状态下做出了较差的决策。