Q-Learning Tutorial¶
Q-Learning ist ein modell-freier Reinforcement Learning Algorithmus. Der Agent lernt hierbei die "Qualität" (Q-Wert) von Aktionen in bestimmten Zuständen direkt aus der Interaktion mit der Umgebung.
Konzept¶
Im Gegensatz zur Value Iteration benötigt Q-Learning kein Wissen über die Regeln der Umgebung (Transitionswahrscheinlichkeiten). Der Agent probiert Aktionen aus und aktualisiert seine Schätzung:
$$Q(s, a) \leftarrow Q(s, a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s, a)]$$
- Exploration vs. Exploitation: Mit der Epsilon-Greedy-Strategie wählt der Agent manchmal zufällige Aktionen ($\epsilon$), um Neues zu entdecken, und meistens die beste bekannte Aktion (-\epsilon$).
Interaktives Notebook¶
Lerne Q-Learning praxisnah kennen und trainiere deinen eigenen Agenten:
Visualisierung in der GUI¶
In der ColabGUI kannst du den Q-Learning Agenten auswählen. Die GUI visualisiert die gelernten Q-Werte direkt im Grid:
- Der höchste Q-Wert einer Zelle wird angezeigt.
- Die Position des Wertes im Feld (oben, unten, links, rechts) zeigt die aktuell bevorzugte Richtung an.