fahminurf/QLearning

Bangunlah sebuah program Q-learning untuk menemukan optimum policy sehingga Agent yang berada di posisi Start (1,1) mampu menemukan Goal yang berada di posisi (15,15) dengan mendapatkan Total Reward maksimum pada grid world Gambar di bawah ini. Data pada gambar tersebut dapat dilihat di file DataTugas3ML2019.txt. Pada kasus ini, Agent hanya bisa melakukan empat aksi: N, E, S, dan W yang secara berurutan menyatakan North (ke atas), East (ke kanan), South (ke bawah), dan West (ke kiri). Anda boleh menggunakan skema apapun dalam mengimplementasikan sebuah episode.

Python

Stargazers

fahminurf