240 发简信
IP属地:广东
  • 强化学习中on-policy和off-policy方法

    什么是策略? 一个确定性策略定义了一个从行动空间到状态空间的函数。在实际应用中,一个策略的输出常常是一个概率分布,表示在状态下采取每一个动作的概...

  • 强化学习中的model-free和model-based算法

    Model-based强化学习通过一个代理(agent)来尝试理解环境,并且建立模型来表示这个代理。这个模型希望学习到两个函数: 状态转移函数(...

  • Resize,w 360,h 240
    Adam优化算法简介

    背景介绍 在机器学习中,对每一个数据点,我们通过最小化经验风险来从数据中学习,其中是模型的参数。对整个训练集,目标函数即为对应的梯度为然而,当很...

  • 支持向量机系列(一)——线性可分情形下的SVM

    Linear Support Vector Machines in the Linearly Separable Case Problem De...

  • Resize,w 360,h 240
    神经网络简介

    BP神经网络结构 我们知道单层感知机(perceptron)的局限性:它无法解决异或(XOR)问题,或者其它线性不可分问题。考虑下图的数据集的分...

  • 动态规划简介

    动态规划(Dynamic Programming, DP)算法采用递归的方式,将较复杂的原问题分解为较为简单的子问题,以求解原问题。 适用情况 ...

  • LightGBM简介

    LightGBM LightGBM(Light Gradient Boosting Machine)是一款基于决策树算法的分布式梯度提升框架。为...

  • XGBoost简介

    XGBoost Extreme Gradient Boosting(XGBoost)是由华盛顿大学(University of Washingt...

  • Resize,w 360,h 240
    Logistic Regression与Logistic Loss简介

    Logistic Regression 在线性回归中,我们寻找的连续型随机变量和的函数关系式为:,其中为待估参数(包含截距项,即,),为随机误差...