Aprendendo uma Política Ótima  
					Se o ambiente é determinístico α(s, a) = s’ (função  
					de transição de estados) é conhecida e r(s, a) (função  
					de recompensa) é conhecida, é possível computar  
					uma política ótima:  
					V*(s) =maxa[r(s,a) + V*(α(s,a))]  
					π*(s) = argmaxa[r(s,a) + V*(α(s,a))]  
					Tempo polinomial.  
					Problema: se não temos conhecimento prévio das  
					recompensas e transição de estados.  
					Se o ambiente é não-determinístico, mas a função  
					de probabilidade de transição de estados for  
					conhecida, também é possível computar π*  
					Problema: É difícil estimar probabilidades.