240 发简信
IP属地:上海
  • 解读一PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM

    之前强化学习理论给予了神经科学以灵感和启发: 最近在理解奖励驱动学习所涉及的机制方面取得了令人振奋的进展。这一进展部分是通过输入强化学习领域(RL)的思想来实现的。最重要的是...

  • revelation of MONet

    MONet: Unsupervised Scene Decomposition and Representation 1 .总的来说,这边论文讲了如上图的事情,与传统VAE不...

  • 解读Been There, Done That: Meta-Learning with Episodic Recall

    最近在研究的线路就是:metal learning + episodic memory. 我觉得agent 需要能学习各种任务,也需要有记忆把学到的抽象的东西保存下来,这样可...

  • 解读二PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM

    关于多巴胺和前额皮质的故事: 观察人的大脑,有两个重要部分: 1. 基底神经节(或蜥蜴脑),其中包含VTA和黑质,其中产生多巴胺。 这一块会被激活,在得到的奖励比预估的更多...

  • 详解PLANET代码(tensorflow)如何加入SAC功能

    先说为什么要加? SAC 算法本质是经过熵强化的回报值最大化算法。在我们单独跑的其他实验中,包括SAC + RNN表现出很好的性能,1.replay buffer使它的采样效...

  • PLANET+SAC代码实现与解读

    代码已经在正常跑实验了。以下描述的是,经过我几次尝试后改动最小的那个方案: 为planet增加SAC功能,之前写了详细思路请先参考: 详解PLANET代码(tensorflo...

  • 120
    代码解析《Learning Latent Dynamics for Planning from Pixels》

    我们以数据流向为主线索,讲讲论文代码做了些什么事情。 跑算法就是先收集数据,然后把它feed到构建好的模型中去训练。这个代码还多了一步planning。planning完收到...