Zum Inhalt

Belohnungen (Rewards)

Belohnungswerte

Ereignis Belohnung Terminierend
Jeder Schritt (Standard) -1 Nein
Vom Geist gefangen -50 Ja
Ziel erreicht +100 Ja

Strategie

Um die Belohnung zu maximieren, sollte der Agent: 1. Den kürzesten Weg zum Ziel finden. 2. Den Geist unbedingt vermeiden.

Die oben genannten Belohnungswerte werden von den Minimax- und Expectimax-Agenten genutzt, um die Güte eines zukünftigen Zustands zu bewerten. Die Heuristik-Funktion dieser Agenten berechnet den erwarteten kumulativen Reward, um die Aktion zu wählen, die den minimalen Verlust (Minimax) oder den maximalen erwarteten Gewinn (Expectimax) verspricht.