RodneyShag/GridWorldMDP

Uses Markov decision processes (MDPs) and Temporal Difference (TD) Q-learning to maximize reward in a "grid world".

Java

Readme
0Issues
3Stargazers
2Watchers

No issues in this repository yet.

Topics

machine-learning markov-decision-processes q-learning reinforcement-learning

Contact site admin: Geeks.