Função Valor das Ações Qπ(s, a) : (S, A) → R
A função valor das ações Qπ(s, a) indica a
soma das recompensas a obter, dado que:
o agente está no estado s.
executou uma ação a.
a partir daí, seguiu uma política de ações π.
Qπ(s, a) = r(s, a) + Vπ(s’), onde:
S’ = α(s,a) = indica em qual estado o agente está,
dado que ele estava no estado s e executou a ação
a.
O valor da ação é a recompensa da ação mais
o valor do estado para onde o agente vai
devido à ação.