之前强化学习理论给予了神经科学以灵感和启发: 最近在理解奖励驱动学习所涉及的机制方面取得了令人振奋的进展。这一进展部分是通过输入强化学习领域(RL)的思想来实现的。最重要的是...
之前强化学习理论给予了神经科学以灵感和启发: 最近在理解奖励驱动学习所涉及的机制方面取得了令人振奋的进展。这一进展部分是通过输入强化学习领域(RL)的思想来实现的。最重要的是...
MONet: Unsupervised Scene Decomposition and Representation 1 .总的来说,这边论文讲了如上图的事情,与传统VAE不...
最近在研究的线路就是:metal learning + episodic memory. 我觉得agent 需要能学习各种任务,也需要有记忆把学到的抽象的东西保存下来,这样可...
关于多巴胺和前额皮质的故事: 观察人的大脑,有两个重要部分: 1. 基底神经节(或蜥蜴脑),其中包含VTA和黑质,其中产生多巴胺。 这一块会被激活,在得到的奖励比预估的更多...
先说为什么要加? SAC 算法本质是经过熵强化的回报值最大化算法。在我们单独跑的其他实验中,包括SAC + RNN表现出很好的性能,1.replay buffer使它的采样效...
代码已经在正常跑实验了。以下描述的是,经过我几次尝试后改动最小的那个方案: 为planet增加SAC功能,之前写了详细思路请先参考: 详解PLANET代码(tensorflo...
我们以数据流向为主线索,讲讲论文代码做了些什么事情。 跑算法就是先收集数据,然后把它feed到构建好的模型中去训练。这个代码还多了一步planning。planning完收到...