/ruta-optima-qlearning

Aprendizaje de la ruta óptima en un laberinto. Se utilizará q-learning para calcular los valores Q, a partir de los que se extraerá la política óptima. Movimiento estocástico y modelo desconocido.

Primary LanguagePythonMIT LicenseMIT

Chatea con nosotros si tienes dudas o te atascas

Aprendizaje de la Ruta Óptima en un Laberinto con Q-Learning.

Etiquetas

Reinforcement Learning, Espacio de los Estados Discreto, Espacio de las Acciones Discreto, Modelo Desconocido, Q-Learning.

Accede a la Información Necesaria para Resolver el Reto

Descripción

En este segundo desafío construirás un agente capaz de aprender la ruta óptima en cualquier laberinto mediante Reinforcement Learning. Lo conseguirás utilizando Q-Learning para calcular los valores asociados a cada estado Q. Cada estado Q representa la combinación de un estado con una de las acciones disponibles en dicho estado. Terminarás extrayendo la política óptima haciendo uso de los valores Q.

El movimiento del agente tendrá una fuerte componente estocástica y las funciones de transición y de recompensa serán desconocidas.

Información Completa para Resolver el Reto

Accede a la Información Necesaria para Resolver el Reto

¿Dudas? ¿Atascado?

Chatea con nosotros si tienes dudas o te atascas