alfonsodelavega/ruta-optima-qlearning

Aprendizaje de la ruta óptima en un laberinto. Se utilizará q-learning para calcular los valores Q, a partir de los que se extraerá la política óptima. Movimiento estocástico y modelo desconocido.

PythonMIT

No issues in this repository yet.