quantylab/rltrader

모델에 관한 질문: 정책 경사 모델?

Opened this issue · 1 comments

page 52에 이런 내용이 있습니다.
"본 책에서는 여러 강화학습 기법 중에 정책 경사를 주식투자에 적용합니다"

정책 경사라면, 정책을 예측하는 모델인데, page 86의 line23 코드에서는 (softmax가 아니고) sigmoid로 prediction을 만들어 내고 있습니다.

모델이 예측하는 것이 정책에 대한 확률은 아닌것 같습니다.
그리고, prediction과 결합하여 loss를 계산할 (PolicyLearner._get_batch()가 만들어 내는 ) target 값은 reward를 discount해서 만들어 내고 있습니다.

모델이 prediction하는 것이 정책이 아니고, Q-value를 예측하는 듯 합니다.
(정확히 Q-value도 아닙니다. default값으로 0.5가 들어가 있기 때문)

제가 잘 못 이해하고 있는 것인가요?

@hccho2 sigmoid로도 확률을 예측할 수는 있습니다. 다만 지적하신대로 이론과 구현이 안맞는 부분은 있습니다. 개정판에서는 이론을 최대한 지키도록 구현을 수정했습니다. DQN, PG, AC, A2C, A3C를 각각 적용해 볼수도 있게 준비 중입니다. 개발 중인 코드는 dev 브랜치에서 확인하실 수 있습니다. 이슈 제기 및 개발 참여도 해주시면 많은 도움이 될 것 같습니다.