240 发简信
IP属地:北京
  • 2018-12-20 PPO debug experience

    PPO Debug Experience Recently, I need to perform PPO in a complex env. ...

  • 2018-11-24 Loss function in pytorch

    最近看了下 PyTorch 的损失函数文档,整理了下自己的理解,重新格式化了公式如下,以便以后查阅。 值得注意的是,很多的 loss 函数都有 ...

  • 2018-11-19 Methods for training RL in sparse reward tasks

    强化学习有一个方向是专注于解决稀疏奖励中的策略问题。这是目前研究的一个热点。 相信大家对于强化学习已经有了一定的概念,其中Model-Free的...

  • 2018-11-16 Tips for training DQN/AC algorithm in Reinforcement learning

    Tips for training AC algorithm in Reinforcement learning 在强化学习中训练AC算法的技巧...

  • 2018-10-20 使用markdown编辑公式

    一些扩展的markdown语法支持采用LaTex语法写数学公式,掌握数学公式的编辑是一名程序员的必备技能。本文介绍如何在markdown中书写数...

  • 2018-10-04 Pytorch IndexError: too many indices for array

    layout: posttitle: IndexError: too many indices for arraysubtit...

  • 佛系保研:从电气工程跨保AI

    Part1 基本情况 首先介绍一下自己情况 申请之前的准备 我大概从大三上学期的十二月开始搜集信息,了解了一些学校,看了一些保研论坛的帖子,和几...