proceduralia/randomist

Code for Policy Optimization as Online Learning with Mediator Feedback

Python

Readme
0Issues
2Stargazers
4Watchers

No issues in this repository yet.

Topics

thompson-sampling exploration policy-optimization multi-armed-bandits mcmc

Contact site admin: Geeks.