- 利用经验池是异步机制,开启多个探索者进行经验积累,学习者专注于经验池中的数据进行学习。
- 辅助方式:利用TD等方式确定的优先级来更新经验池。
** 学习者根据TD error修改优先级
** 探索者根据TD error初始化优先级
APE-X DQN:
结合了double-q 和nstep
batch loss function:
APE-X DPG:
- batch loss function:
探索率设置公式:
其中,,每个探索者的探索率固定不变
IMPALA:
结合了double-q 和nstep
batch loss function:
探索率设置公式:
其中,,每个探索者的探索率固定不变
IMPALA: