hu-yuu/Q-Learning

Q(durum, aksiyon) = R(durum, aksiyon)+γ×Max{Q(sonraki durumlar, tüm aksiyonlar)} formülü ile Q-Learning

Python

Q-Learning

Q(durum, aksiyon) = R(durum, aksiyon)+γ×Max{Q(sonraki durumlar, tüm aksiyonlar)} formülü ile Q-Learning