Typo in the Implementation

Line 121 in d2e587a

    
           expected_state_action_values = reward_batch + (self.gamma * mask_batch + next_state_values)

current Target: r_t + \gamma * mask + v_{t+1}
correct Target: r_t + \gamma * mask * v_{t+1}