/curso-verao-rl-ime-2020

Curso de verão em Aprendizado por Reforço pelo IME-USP

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

Introdução ao Aprendizado por Reforço - 2020

Este repositório contém os materiais usados em aula no curso de verão Introdução ao Aprendizado por Reforço oferecido pelo Curso de Verão do IME-USP de 11/02/2020 a 16/02/2020.

Staff

LIAMF: Grupo PAR (Planejamento e Aprendizado por Reforço)

Professores: Ângelo Gregório Lovatto (@angelolovatto), Thiago Pereira Bueno (@thiagopbueno)

Monitor: Renato Scaroni (@renato-scaroni)

Coordenadora: Leliane Nunes de Barros

Descrição do curso

Introdução aos Processos de Decisão Markovianos; Gradiente de política. Algoritmo REINFORCE e a técnica da score-function; Método actor-critic (A2C); Aprendizado da função valor para redução da variância do gradiente da política. Compromisso entre viés e variância; O curso será desenvolvido utilizando slides e atividades práticas com exercícios de modelagem de problemas e aplicação de métodos aprendidos em problemas benchmark.

Requisito: Familiaridade com estatística, probabilidade básicas e cálculo no R^n. Apesar de todos os conceitos necessários serem apresentados durante o curso.

Público: Profissionais da área de IA. Alunos de graduação e pós-graduação interessados na área de aprendizado por reforço.


Preparação


Aula 1 - Introdução / MDPs / OpenAI Gym

Objetivos:

  • Familiarizar-se com os objetivos e formato do curso
  • Ter uma ideia geral sobre possíveis aplicações de RL
  • Aprender os conceitos básicos e vocabulário de RL
  • Entender as diferenças entre RL e Supervised Learning (SL)

Materiais:

Aula 2 - Policy Gradients / Política Estocástica / TensorFlow + Keras

Objetivos:

  • Entender a abordagem de otimização de políticas como busca no espaço de parâmetros da política
  • Implementar um primeiro agente baseado no algoritmo REINFORCE
  • Familiarizar-se com a API básica de construção de modelos (i.e., redes neurais) em Keras
  • Familiarizar-se com métodos de Deep Learning usando TensorFlow 2.X

Materiais:

Aula 3 - Função Valor e Redução de Variância / Baselines

Objetivos:

  • Relacionar as propriedades do estimador REINFORCE com a performance do agente
  • Verificar experimentalmente o efeito de redução de variância do estimador de Policy Gradient calculado com reward-to-go
  • Incorporar a função Valor como baseline para os retornos das trajetórias no REINFORCE
  • Familiarizar-se com o aprendizado de função Valor via regressão sobre os retornos das trajetórias

Materiais:

Aula 4 - Actor-Critic (A2C) / Generalized Advantage Estimation (GAE)

Objetivos:

  • Familiarizar-se com os componentes Actor e Critic
  • Entender o papel da função Valor na estimativa truncada dos retornos
  • Ter um primeiro contato com truques de implementação tipicamente utilizados e RL

Materiais:

Aula 5 - Tópicos Avançados: Desafios de RL

Objetivos:

  • Entender algumas das limitações e dificuldades fundamentais de Deep RL
  • Familiarizar-se com técnicas avançadas de algoritmos Actor-Critic
  • Ter uma visão geral sobre diferentes áreas de pesquisa em RL

Materiais:


Referências

Livros

Frameworks e bibliotecas

Blogs, sites e outros recursos na web

Vídeos

Artigos Científicos: