/reinforcement-learning

Reinforcement Learning Study and Codes

Primary LanguageJupyter Notebook

reinforcement-learning

Reinforcement Learning

  • Actual Inequalities: image
  • UCB Intuition: Ekran Görüntüsü (746)
  • Upper Bound Derivation: Ekran Görüntüsü (747)
  • Thompson Sampling Intuition: Ekran Görüntüsü (749) Ekran Görüntüsü (751)
  • Multi-Armed Bandit Problem to Reinforcement Learning: Ekran Görüntüsü (752)
  • MDP Types: Ekran Görüntüsü (754)
  • Bellman Optimality Equation: Ekran Görüntüsü (758) Ekran Görüntüsü (760) Ekran Görüntüsü (761) Ekran Görüntüsü (762) Ekran Görüntüsü (763) Ekran Görüntüsü (765)
  • Policy Improvement: Ekran Görüntüsü (766) Ekran Görüntüsü (767)
  • Policy Improvement Pseudocode: Ekran Görüntüsü (768) Ekran Görüntüsü (769)
  • Value Iteration: Ekran Görüntüsü (775)
  • Summary: Ekran Görüntüsü (776)
  • Temporal Difference Learning: Ekran Görüntüsü (777)
  • SARSA Pseudocode: Ekran Görüntüsü (780)
  • Q-Learning Pseudocode:
    Ekran Görüntüsü (779)
  • Q-Learning vs SARSA: Ekran Görüntüsü (778)
  • RL Steps: Ekran Görüntüsü (783)