모델에 관한 질문: 정책 경사 모델?
Opened this issue · 1 comments
hccho2 commented
page 52에 이런 내용이 있습니다.
"본 책에서는 여러 강화학습 기법 중에 정책 경사를 주식투자에 적용합니다"
정책 경사라면, 정책을 예측하는 모델인데, page 86의 line23 코드에서는 (softmax가 아니고) sigmoid로 prediction을 만들어 내고 있습니다.
모델이 예측하는 것이 정책에 대한 확률은 아닌것 같습니다.
그리고, prediction과 결합하여 loss를 계산할 (PolicyLearner._get_batch()가 만들어 내는 ) target 값은 reward를 discount해서 만들어 내고 있습니다.
모델이 prediction하는 것이 정책이 아니고, Q-value를 예측하는 듯 합니다.
(정확히 Q-value도 아닙니다. default값으로 0.5가 들어가 있기 때문)
제가 잘 못 이해하고 있는 것인가요?