Belohnungen (Rewards)¶
Belohnungswerte¶
| Ereignis | Belohnung | Terminierend |
|---|---|---|
| Jeder Schritt (Standard) | -1 | Nein |
| Vom Geist gefangen | -50 | Ja |
| Ziel erreicht | +100 | Ja |
Strategie¶
Um die Belohnung zu maximieren, sollte der Agent: 1. Den kürzesten Weg zum Ziel finden. 2. Den Geist unbedingt vermeiden.
Verwendung in Adversarial Search¶
Die oben genannten Belohnungswerte werden von den Minimax- und Expectimax-Agenten genutzt, um die Güte eines zukünftigen Zustands zu bewerten. Die Heuristik-Funktion dieser Agenten berechnet den erwarteten kumulativen Reward, um die Aktion zu wählen, die den minimalen Verlust (Minimax) oder den maximalen erwarteten Gewinn (Expectimax) verspricht.