Python Deep Learning

Introducción al aprendizaje por refuerzo profundo

Teoria y práctica en Python

Jordi Torres

Este libro ha sido descatalogado debido a que se basa en librerías de Python de aprendizaje por refuerzo que han sido actualizadas y el código requiere ser revisado en detalle. Desafortunadamente el autor no dispone del tiempo necesario para revisar el código con las nuevas versiones de las librerías. Disculpas por avanzado por cualquier inconveniente. (Sant Jordi, 23/abril/2023)

WATCH THIS SPACE collection – Barcelona: Book 7. Kindle Direct Publishing. ISBN 9798599775416 , 2021

Acerca del libro

El aprendizaje por refuerzo profundo, o Deep Reinforcement Learning, es el campo de la inteligencia artificial con un gran potencial en los próximos años. Permite que los algoritmos aprendan de su entorno para lograr objetivos diversos, superando así las limitaciones que se encuentran en los algoritmos tradicionales de aprendizaje automático para que las máquinas aprendan por sí solas.Sin embargo, debido a la complejidad del aprendizaje por refuerzo y a la falta de manuales sobre el tema, a menudo existen dificultades a la hora de establecer una ruta adecuada para empezar, ya que no resulta sencillo saltar la barrera de entrada a este apasionante campo de innovación.Por ello, el objetivo de este libro es ser una guía de iniciación para quienes quieran conocer los fundamentos teóricos del área. Al mismo tiempo, a partir de la implementación en Python y de la explicación detallada de todos los algoritmos presentados en el libro, se facilita un conocimiento práctico de los fundamentos.

Contenido de este libro

En la primera parte del libro se ha formalizado el tema alrededor de dos elementos clave en el área de aprendizaje por refuerzo, como son el proceso de decisión de Markov y la ecuación de Bellman. A partir de aquí, en la segunda parte del libro, siguiendo un enfoque clásico de los libros dedicados al tema, se han repasado las tres aproximaciones para resolver un problema de aprendizaje por refuerzo. Se ha empezado presentando la programación dinámica, que asume que se conocen las dinámicas de transición del entorno. Sin embargo, en la mayoría de los problemas de aprendizaje por refuerzo estas no se conocen, y para solucionar estos casos se introdujeron hace años los algoritmos basados en Monte Carlo, que aprenden mediante la interacción con el entorno. Finalmente, se ha tratado el aprendizaje por diferencia temporal como una mejora sobre los métodos Monte Carlo; en concreto, se han descrito dos importantes métodos, el método on-policy SARSA y el método off-policy Q-learning, que son la base de muchos algoritmos actuales. En la tercera parte del libro se ha presentado muy brevemente tanto los conceptos básicos de aprendizaje profundo, como la versión práctica de estos conceptos usando la librería PyTorch. Actualmente el aprendizaje profundo se usa para que el aprendizaje por refuerzo tenga un enfoque más eficaz; es lo que llamamos aprendizaje por refuerzo profundo (Deep Reinforcement Learning). Finalmente, en la cuarta parte del libro se presentan dos familias de métodos, value-based y policy-based, con los que el lector debe estar familiarizado porque los conceptos fundamentales que se derivan de estos métodos son los que sustentan todos los métodos actuales de aprendizaje por refuerzo profundo. En concreto, para ver las principales propiedades de estos dos enfoques se han presentado los métodos Deep Q-Learning y REINFORCE. En este capítulo presentaremos como podemos usar estos métodos avanzados mediante la librería RLlib en el framework de Ray.

Notas de prensa

Barcelona Supercomputing Center (BSC-CNS): .https://www.bsc.es/es/noticias/noticias-del-bsc/el-investigador-del-bsc-jordi-torres-publica-el-primer-libro-en-español-sobre-aprendizaje-por

Facultat d’Informàtica de Barcelona (FIB/UPC): .https://www.fib.upc.edu/es/noticias/nuevo-libro-de-jordi-torres-sobre-temas-de-inteligencia-artificial