SarahFLestari/Qlearning

Membangun sebuah sistem Q-learning untuk menemukan optimum policy sehingga Agent yang berada di posisi Start (1,1) mampu menemukan Goal yang berada di posisi (10,10) dengan mendapatkan Total Reward maksimum

Python

Watchers

jhcloos
SarahFLestari
Indonesia