Chatea con nosotros si tienes dudas o te atascas
Reinforcement Learning, Espacio de los Estados Discreto, Espacio de las Acciones Discreto, Modelo Desconocido, Q-Learning.
Accede a la Información Necesaria para Resolver el Reto
En este segundo desafío construirás un agente capaz de aprender la ruta óptima en cualquier laberinto mediante Reinforcement Learning. Lo conseguirás utilizando Q-Learning para calcular los valores asociados a cada estado Q. Cada estado Q representa la combinación de un estado con una de las acciones disponibles en dicho estado. Terminarás extrayendo la política óptima haciendo uso de los valores Q.
El movimiento del agente tendrá una fuerte componente estocástica y las funciones de transición y de recompensa serán desconocidas.
Accede a la Información Necesaria para Resolver el Reto
Chatea con nosotros si tienes dudas o te atascas