240 发简信
IP属地:江苏
  • Resize,w 360,h 240
    Unity ml-agents 源码分析 基础算法(1)

    预备知识 本文章基于ml-agents v0.7版本,因为都是阅览版,若读者使用更其他版本肯定有较大不同之处。再看本文之前希望先对ml-agen...

  • PPO公式推导

    Trajectory : 为一串游戏的状态和动作序列。 这里的为一类序列,为的发生的概率。那这里是不是我们直接能用来获得最大值呢?我们这里设之列...