240 发简信
IP属地:浙江
  • 动态规划

    动态规划用来计算最优策略,条件是环境已知。 首先,环境已知的话,我们可以计算最优的value function:根据贝尔曼方程: Policy ...

  • Resize,w 360,h 240
    有限马尔科夫决策过程

    增强学习的方法就是用来解决马尔科夫决策过程。马尔科夫决策过程描述的是agent和environment的交互过程。 在时间序列0,1,..t,的...

  • 增强学习四要素

    增强学习四个要素 policy policy指的是一个函数或者规则,输入为环境状态,输出为action(Roughly speaking, ...

  • 临时-20170419

    编译项目 [maven编译java项目]((http://upload-images.jianshu.io/upload_images/2066...

  • Ad Click Prediction: a View from the Trenches

    点击率预估 特征工程 主要内容 主要介绍在实际的点击率预估的工程过程中,有那些tricks,包括特征工程以及一些特评价指标- 关于稀疏模型 单...