240 发简信
IP属地:上海
  • 动态规划

    动态规划用来计算最优策略,条件是环境已知。 首先,环境已知的话,我们可以计算最优的value function:根据贝尔曼方程: Policy Evaluation 策略估...

  • 120
    有限马尔科夫决策过程

    增强学习的方法就是用来解决马尔科夫决策过程。马尔科夫决策过程描述的是agent和environment的交互过程。 在时间序列0,1,..t,的时候,agent获得环境的状态...

  • 增强学习四要素

    增强学习四个要素 policy policy指的是一个函数或者规则,输入为环境状态,输出为action(Roughly speaking, a policy is a m...

  • 临时-20170419

    编译项目 [maven编译java项目]((http://upload-images.jianshu.io/upload_images/206603-6f7abe313f7c...

  • Ad Click Prediction: a View from the Trenches

    点击率预估 特征工程 主要内容 主要介绍在实际的点击率预估的工程过程中,有那些tricks,包括特征工程以及一些特评价指标- 关于稀疏模型 单纯靠OGD(online gr...