强化学习
调reward
每次比较不同reward的影响大小
调学习率
可以使用周期性
调探索
不要一开始就陷入局部最优,最好random很多轮,如果有良定义的先验指引更好
调环境
越简洁越好,规则多要谨慎,不是不能学,是mission impossible
初始即因为一些规则end (初始位置 速度符合结束? 初始有碰撞 等等) 直接reset掉 以及结束因为一些瑕疵提前end 没有正样本
训练智能体实现多个目标比只实现一个目标要学得更快
强化学习
调reward
每次比较不同reward的影响大小
调学习率
可以使用周期性
调探索
不要一开始就陷入局部最优,最好random很多轮,如果有良定义的先验指引更好
调环境
越简洁越好,规则多要谨慎,不是不能学,是mission impossible
初始即因为一些规则end (初始位置 速度符合结束? 初始有碰撞 等等) 直接reset掉 以及结束因为一些瑕疵提前end 没有正样本
训练智能体实现多个目标比只实现一个目标要学得更快