云雨惊袭明月夜

IP属地：北京

2018-12-20 PPO debug experience
PPO Debug Experience Recently, I need to perform PPO in a complex env. ...

190 0 0
2018-11-24 Loss function in pytorch
最近看了下 PyTorch 的损失函数文档，整理了下自己的理解，重新格式化了公式如下，以便以后查阅。值得注意的是，很多的 loss 函数都有 ...

1034 0 0

2018-11-19 Methods for training RL in sparse reward tasks
强化学习有一个方向是专注于解决稀疏奖励中的策略问题。这是目前研究的一个热点。相信大家对于强化学习已经有了一定的概念，其中Model-Free的...

494 0 0
2018-11-16 Tips for training DQN/AC algorithm in Reinforcement learning
Tips for training AC algorithm in Reinforcement learning 在强化学习中训练AC算法的技巧...

0.1 1113 0 1
2018-10-20 使用markdown编辑公式
一些扩展的markdown语法支持采用LaTex语法写数学公式，掌握数学公式的编辑是一名程序员的必备技能。本文介绍如何在markdown中书写数...

313 0 0
2018-10-04 Pytorch IndexError: too many indices for array
layout: posttitle: IndexError: too many indices for arraysubtit...

1747 0 0
佛系保研：从电气工程跨保AI
Part1 基本情况首先介绍一下自己情况申请之前的准备我大概从大三上学期的十二月开始搜集信息，了解了一些学校，看了一些保研论坛的帖子，和几...

1825 2 1