特芬奇斯拉星人

IP属地：上海

解读一PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM
之前强化学习理论给予了神经科学以灵感和启发：最近在理解奖励驱动学习所涉及的机制方面取得了令人振奋的进展。这一进展部分是通过输入强化学习领域（R...

437 0 0
revelation of MONet
MONet: Unsupervised Scene Decomposition and Representation 1 .总的来说，这边论文讲...

698 0 0

解读Been There, Done That: Meta-Learning with Episodic Recall
最近在研究的线路就是：metal learning + episodic memory. 我觉得agent 需要能学习各种任务，也需要有记忆把学...

437 0 0
解读二PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM
关于多巴胺和前额皮质的故事：观察人的大脑，有两个重要部分：１. 基底神经节（或蜥蜴脑），其中包含VTA和黑质，其中产生多巴胺。这一块会被...

934 0 0
详解PLANET代码(tensorflow)如何加入SAC功能
先说为什么要加？ SAC 算法本质是经过熵强化的回报值最大化算法。在我们单独跑的其他实验中，包括SAC + RNN表现出很好的性能，１．repl...

361 0 0
PLANET+SAC代码实现与解读
代码已经在正常跑实验了。以下描述的是，经过我几次尝试后改动最小的那个方案：为planet增加SAC功能，之前写了详细思路请先参考：详解PLA...

875 0 0
代码解析《Learning Latent Dynamics for Planning from Pixels》
我们以数据流向为主线索，讲讲论文代码做了些什么事情。跑算法就是先收集数据，然后把它feed到构建好的模型中去训练。这个代码还多了一步plann...

570 0 0