240 发简信
IP属地:湖北
  • DL中的OurModule()

    上面参数主要介绍下dropout_prob,模型训练时应用Dropout的流程,概况一下描述就是:1.随机概率p随机dropout部分神经元,并...

  • Resize,w 360,h 240
    交叉熵方法

    交叉熵损失计算示例 交叉熵损失公式 其中y为label,p^为预测的正类别概率,即在二分类中通过sigmoid函数得出的正类别概率大小。 举例:...

  • Resize,w 360,h 240
    Tensorboard使用

    以下面代码为例 文件保存位置为:E:\Deep-Reinforcement-Learning-Hands-On-master\Chapter03...

  • Resize,w 360,h 240
  • Resize,w 360,h 240
    2.4 增量实现 & 2.5 解决一个非平稳问题

    2.4Incremental Implementation 背景:目前的行动价值方法都将行动价值估计为观察到的奖励的样本平均值。现在转向如何以计...

  • Resize,w 360,h 240
    Minimax算法和α-β剪枝

    上节提到强化学习算法解决的井字棋游戏并不适合用Minimax算法解决,理由是Minimax假设游戏双方都不会犯错,这种情况比较特殊。 1.Min...

  • Resize,w 360,h 240
    1.5 扩展案例:tic-tac-toe(井字棋)& 1.6 总结

    1.5 扩展案例:tic-tac-toe 回想一下孩子的井字棋游戏。两名玩家轮流在三乘三的棋盘上比赛。一个玩家打而另一个画⚪,直到一个玩家通过在...

  • 1.2 Examples & 1.3 Elements of Reinforcement Learning & 1.4 Limitations and Scopes

    1.2 例子以及简单应用: (1)一个象棋大师走了一步。通过计划预期可能的回复和反回复,以及通过对特定位置和动作的可取性的即时、直观的判断,做出...