Q-learning 和 SARSA是两种model-free的学习方法,两者有很多异同点。
比如在评估策略和行动策略上面,评估策略是用来更新Q值表格的(也就是“学习”),行动策略是用来决定下一步行动的。
首先Q-learning 是off-policy 的,翻译成异策略,也就是评估用的策略和实际行动采用的策略是不一样的,其中评估策略采用的是贪婪策略,而行动策略采用的是ε-greedy策略;也就是说Q-Learning学到的用来更新Q值的用的是最好的值,而实际上采用的方法却不是,有点像道理我都懂,却过不好这一生。
而SARSA是on policy的,也就是评估策略和行动策略使用的是相同的方法,即都为也是采用ε-greedy策略。也就是说,SARSA没学到的方法和用的是同一种,就比较踏踏实实。
refers:
强化学习(七)--Q-Learning和Sarsa