Introdução ao Aprendizado por Reforço - 2020

Este repositório contém os materiais usados em aula no curso de verão Introdução ao Aprendizado por Reforço oferecido pelo Curso de Verão do IME-USP de 11/02/2020 a 16/02/2020.

Staff

LIAMF: Grupo PAR (Planejamento e Aprendizado por Reforço)

Professores: Ângelo Gregório Lovatto (@angelolovatto), Thiago Pereira Bueno (@thiagopbueno)

Monitor: Renato Scaroni (@renato-scaroni)

Coordenadora: Leliane Nunes de Barros

Descrição do curso

Introdução aos Processos de Decisão Markovianos; Gradiente de política. Algoritmo REINFORCE e a técnica da score-function; Método actor-critic (A2C); Aprendizado da função valor para redução da variância do gradiente da política. Compromisso entre viés e variância; O curso será desenvolvido utilizando slides e atividades práticas com exercícios de modelagem de problemas e aplicação de métodos aprendidos em problemas benchmark.

Requisito: Familiaridade com estatística, probabilidade básicas e cálculo no R^n. Apesar de todos os conceitos necessários serem apresentados durante o curso.

Público: Profissionais da área de IA. Alunos de graduação e pós-graduação interessados na área de aprendizado por reforço.

Preparação

Material Preliminar: Fundamentação matemática e estatística para o acompanhamento do curso
Tutorial de configuração do ambiente
Material adicional sobre entropia

Aula 1 - Introdução / MDPs / OpenAI Gym

Objetivos:

Familiarizar-se com os objetivos e formato do curso
Ter uma ideia geral sobre possíveis aplicações de RL
Aprender os conceitos básicos e vocabulário de RL
Entender as diferenças entre RL e Supervised Learning (SL)

Materiais:

Aula 2 - Policy Gradients / Política Estocástica / TensorFlow + Keras

Objetivos:

Entender a abordagem de otimização de políticas como busca no espaço de parâmetros da política
Implementar um primeiro agente baseado no algoritmo REINFORCE
Familiarizar-se com a API básica de construção de modelos (i.e., redes neurais) em Keras
Familiarizar-se com métodos de Deep Learning usando TensorFlow 2.X

Materiais:

Aula 3 - Função Valor e Redução de Variância / Baselines

Objetivos:

Relacionar as propriedades do estimador REINFORCE com a performance do agente
Verificar experimentalmente o efeito de redução de variância do estimador de Policy Gradient calculado com reward-to-go
Incorporar a função Valor como baseline para os retornos das trajetórias no REINFORCE
Familiarizar-se com o aprendizado de função Valor via regressão sobre os retornos das trajetórias

Materiais:

Aula 4 - Actor-Critic (A2C) / Generalized Advantage Estimation (GAE)

Objetivos:

Familiarizar-se com os componentes Actor e Critic
Entender o papel da função Valor na estimativa truncada dos retornos
Ter um primeiro contato com truques de implementação tipicamente utilizados e RL

Materiais:

Aula 5 - Tópicos Avançados: Desafios de RL

Objetivos:

Entender algumas das limitações e dificuldades fundamentais de Deep RL
Familiarizar-se com técnicas avançadas de algoritmos Actor-Critic
Ter uma visão geral sobre diferentes áreas de pesquisa em RL

Materiais:

Slides

Referências

Livros

Reinforcement Learning: An Introduction (Sutton & Barto 2018, 2nd Edition)
Deep Learning (Goodfellow, Bengio and Courville, 2016)

Frameworks e bibliotecas

Blogs, sites e outros recursos na web

Vídeos

Artigos Científicos:

Challenges of Real-World Reinforcement Learning (Dulac-Arnold, Mankowitz, and Hester, 2019)
Reinforcement Learning Applications (Li, 2019)
RECSIM: A Configurable Simulation Platform for Recommender Systems (Ie, Eugene, et al., 2019)
Policy Gradient Methods for Reinforcement Learning with Function Approximation (Sutton, R.S., McAllester, D.A., Singh, S.P. and Mansour, Y., 2000)
Deep Learning in Neural Networks: An Overview (Schmidhuber, 2014)
An overview of gradient descent optimization algorithms (Ruder, 2017)

atgmello/curso-verao-rl-ime-2020

Introdução ao Aprendizado por Reforço - 2020

Staff

Descrição do curso

Preparação

Aula 1 - Introdução / MDPs / OpenAI Gym

Aula 2 - Policy Gradients / Política Estocástica / TensorFlow + Keras

Aula 3 - Função Valor e Redução de Variância / Baselines

Aula 4 - Actor-Critic (A2C) / Generalized Advantage Estimation (GAE)

Aula 5 - Tópicos Avançados: Desafios de RL

Referências

Livros

Frameworks e bibliotecas

Blogs, sites e outros recursos na web

Vídeos

Artigos Científicos: