Aprendendo uma Política Ótima
Se o ambiente é determinístico α(s, a) = s’ (função
de transição de estados) é conhecida e r(s, a) (função
de recompensa) é conhecida, é possível computar
uma política ótima:
V*(s) =maxa[r(s,a) + V*(α(s,a))]
π*(s) = argmaxa[r(s,a) + V*(α(s,a))]
Tempo polinomial.
Problema: se não temos conhecimento prévio das
recompensas e transição de estados.
Se o ambiente é não-determinístico, mas a função
de probabilidade de transição de estados for
conhecida, também é possível computar π*
Problema: É difícil estimar probabilidades.