/Maze-QLearning

Primary LanguageJupyter Notebook

Maze-QLearning

Guida Implementazione

Creazione del Labirinto Virtuale

Implementa un ambiente simulato con labirinti di diverse configurazioni, comprendenti celle, corridoi e posizioni iniziale e finale.

Implementazione Algoritmo Q-learning

Sviluppa un agente Q-learning per gestire le relazioni spazio-temporali nel processo decisionale.

Definizione di Stati e Azioni

Identifica dettagliatamente gli stati dell'ambiente, considerando la geometria del labirinto e la posizione relativa dell'agente. Definisci azioni per spostamenti ottimali e strategie di navigazione avanzate.

Addestramento Iterativo e Fine-Tuning

Conduci sessioni di addestramento iterativo, applicando tecniche di fine-tuning per ottimizzare le prestazioni dell'agente nella risoluzione di labirinti di complessità crescente.

Valutazione Prestazioni

Valuta le prestazioni dell'agente in termini di efficienza nella risoluzione di labirinti, misurando tempo e mosse effettuate.

Risultati

  • Dimostrazione abilità agente nel trovare percorsi ottimali attraverso labirinti.
  • Ottimizzazione prestazioni agente tramite addestramento iterativo, evidenziando miglioramenti nella risoluzione veloce e nella gestione situazioni complesse.
  • Confronto risultati ottenuti con quelli prodotti da SARSA.
  • Discussione sfide affrontate durante l'implementazione e relative soluzioni.

Obiettivi Progetto

Risoluzione Efficiente Labirinti

Crea agente per navigare efficientemente in labirinti di complessità variabile, identificando il percorso ottimale.

Ottimizzazione Decisioni Movimento

Addestra l'agente a imparare un modello di movimento ottimale, considerando topologia del labirinto e facendo scelte intelligenti per raggiungere la destinazione nel minor tempo possibile.

Definizione Stati e Azioni

Identifica accuratamente gli stati dell'ambiente, comprendendo posizione corrente agente nel labirinto e definendo azioni per spostamenti strategici in direzioni specifiche.

Gestione Ricompense e Penalità

Implementa sistema di ricompense e penalità per guidare apprendimento agente, considerando aspetti come raggiungimento destinazione e scoperta di percorsi più efficienti.