2024Lato-WarsztatyBadawcze

Zgadywanie jest tanie, błędne zgadywanie jest kosztowne” ~ stare chińskie przysłowie

Głównym celem przedmiotu jest uświadomienie studentom ogromu nowej i wciąż rozwijanej nauki. Poprzez praktyczne ćwiczenia oraz projekty grupowe, studenci będą mieli okazję zgłębić zarówno teorię, jak i praktykę tej dziedziny. Na zajęciach nacisk kładziony będzie na pracę nad projektem (własną oraz w grupie), a indywidualne pomysły będą chojnie nagradzane.

Reinforcement Learning

Warsztaty będą dotyczyć Uczenia ze Wzmocnieniem (ang. Reinforcement Learning), które stanowi podstawę wielu zaawansowanych systemów sztucznej inteligencji.

Motywacja

RL jest frameworkiem pod który można podpiąć wiele praktycznych problemów dzisiejszego świata. Algorytmy RL są używane do rozwiązywania praktycznych problemów biznesowych. Częściej mamy środowisko niż dane i obserwacje, więc RL ma więcej sensu niż uczenie z nauczycielem.


NVIDIA używa RL do projektowania swoich kart graficznych


DeepMind używając RL pomagają w robieniu fuzji jądrowej. Muszą zmieniać trochę moc magnesów w 1 ms, aby plazma miała odpowiednią temperaturę.


“ChatGPT is taught using Reinforcement Learning from Human Feedback (RLHF)” ~ OpenAI

Tematy

Studenci będą zgłębiać różne techniki, w tym:

  1. Metoda Monte Carlo
  2. TD-Learning
  3. Q-learning
  4. On-policy vs off-policy
  5. SARSA
  6. Algorytmy oparte na sieciach neuronowych (jeśli starczy czasu)
  7. Metoda Actor-Critic (jeśli starczy czasu)

Nacisk będzie kładziony na praktyczne zastosowania tych technik oraz dogłębne zrozumienie ich działania i różnic - mocnych i słabych stron.

Szczegóły

Warsztaty składają się z części teoretycznej oraz praktycznej.

Część teoretyczna realizowana jest na podstawie książki "reinforcement learning: an introduction" autorstwa Barto, Sutton dostępnej tutaj. Zobaczymy ile uda nam się przerobić przez pierwsze 5 zajęć. Będą z tego prace domowe wystarczy zrobić kilka z nich. Książka całkowicie pomija aspekt projektowania nagrody.

Część praktyczna będzie polegała na wybraniu sobie gry przez zespół i napisaniu agenta, który będzie w to grał.

Terminarz

Numer zajęć Data Temat zajęć
1. 2024.02.22 Projektu brak; na wykładzie podział na grupy projektowe
2. 2024.02.29 Zapoznanie się z tematyką przedmiotu; podział na zespoły
3. 2024.03.07 Zajęcia
4. 2024.03.14 Zajęcia
5. 2024.03.21 Konsultacje (zdalne)
6. 2024.03.28 Journal Club
7. 2024.04.04 Zajęcia; Wybór prezentacji; Wykład Adam Chojecki
8. 2024.04.11 Zajęcia
9. 2024.04.18 Konsultacje (możliwe zdalne)
10. 2024.04.25 Journal Club
- 2024.05.02 Brak zajęć (Majówka)
11. 2024.05.09 Journal Club
12. 2024.05.16 Konsultacje (możliwe zdalne)
13. 2024.05.23 Konsultacje (możliwe zdalne)
- 2024.05.30 Brak zajęć (Boże ciało)
14. 2024.06.06 Prezentacje projektów; Termin oddania raportu i GitHuba
15. 2024.06.13 Możliwość ustnej poprawy oceny

Ocena

Student zbiera punkty spośród możliwych do zdobycia:

Lp. max punktacja Rodzaj zadania
1. 20 Praca domowa
2. 15 Prezentacja na Journal Club
3. 5 Kahoot! z Journal Club
4. 5 Praca systematyczna
5. 25 Grupowa prezentacja projektu na Lab
6. 5 GitHub porządek i reprodukowalność
7. 30 Raport z projektu

Zebrane punkty przelicza się na ocenę według następującej skali:

2 3 3.5 4 4.5 5
[0, 50) lub 0 pkt za którekolwiek zadanie [50, 60) [60, 70) [70, 80) [80, 90) [90, $\infty$)

Oznacza to, że w celu zaliczenia przedmiotu student musi zdobyć ponad 0 pkt za każde zadanie oraz co najmniej 50 pkt w sumie.

Projekt

Zespoły będą miały za zadanie użyć algorytmów omawianych na zajęciach do rozwiązania wybranej przez siebie gry. Przykłądowe gry które może wybrać zespół:

  1. Tetris
  2. Doom
  3. Trackmania
  4. Coś z ATARI

Pliki i Foldery

Folder JournalClub zawiera prezentacje wygłaszane przez studentów w ranach Journal Club. Folder Projekty zawiera prezentacje orez raporty związane z projektami wykonywanymi przez studentów przez cały semestr. Plik wyklad_RL.pdf to prezentacja, która przedstawiana była w ramach wykładu przeze mnie, czyli prowadzącego warsztaty, dnia 2024.04.04.

Kontakt

W razie jakichkolwiek wątpliwości zapraszam do kontaktu na adres e-mail 01142115@pw.edu.pl bądź przyjście w czasie gdy jestem dostępny dla studentów w ramach Tutorni, czyli TBA w strefie Break;. Najlepiej jest się zapowiedzieć, ale nie trzeba.