alfonsodelavega/ruta-optima-qlearning
Aprendizaje de la ruta óptima en un laberinto. Se utilizará q-learning para calcular los valores Q, a partir de los que se extraerá la política óptima. Movimiento estocástico y modelo desconocido.
PythonMIT
No issues in this repository yet.