Aprendizaje por refuerzo: Fundamentos teóricos del algoritmo PPO e implementación

Este repositorio se puede encontrar en: https://github.com/alberto-maurel/Aprendizaje-por-refuerzo-Fundamentos-teoricos-del-algoritmo-PPO-e-implementacion

El repositorio contiene los códigos principales del Trabajo de Fin de Grado: Aprendizaje por refuerzo: Fundamentos teóricos del algoritmo PPO e implementación. Concretamente, se implementa el algoritmo PPO para resolver los problemas CartPole y Pong y el algoritmo Truly PPO (TRPPO) para resolver el problema CartPole. Además, se incluyen los pesos de las redes neuronales para diferentes iteraciones de entrenamiento. Para el problema CartPole se incluyen los pesos de las 75 iteraciones (tanto para el PPO como para el TRPPO). Para el Pong se incluyen los pesos cada 100 iteraciones (de la 0 a la 1500).