Função Valor das Ações Qπ(s, a) : (S, A) → R
•
•
A função valor das ações Qπ(s, a) indica a soma das
recompensas a obter, dado que:
–
–
–
o agente está no estado s.
executou uma ação a.
a partir daí, seguiu uma política de ações π.
Qπ(s, a) = r(s, a) + Vπ(s’), onde:
–
S’ = α(s,a) = indica em qual estado o agente está, dado que ele estava
no estado s e executou a ação a.
–
O valor da ação é a recompensa da ação mais o valor do estado para
onde o agente vai devido à ação.