Jaydu - 简书

Jaydu

IP属地：广东

强化学习中on-policy和off-policy方法
什么是策略？一个确定性策略定义了一个从行动空间到状态空间的函数。在实际应用中，一个策略的输出常常是一个概率分布，表示在状态下采取每一个动作的概...

0.1 1822 0 1
强化学习中的model-free和model-based算法
Model-based强化学习通过一个代理（agent）来尝试理解环境，并且建立模型来表示这个代理。这个模型希望学习到两个函数：状态转移函数（...

0.1 3029 0 1

Adam优化算法简介
背景介绍在机器学习中，对每一个数据点，我们通过最小化经验风险来从数据中学习，其中是模型的参数。对整个训练集，目标函数即为对应的梯度为然而，当很...

0.1 5035 0 2
支持向量机系列（一）——线性可分情形下的SVM
Linear Support Vector Machines in the Linearly Separable Case Problem De...

0.3 489 0 1
神经网络简介
BP神经网络结构我们知道单层感知机（perceptron）的局限性：它无法解决异或（XOR）问题，或者其它线性不可分问题。考虑下图的数据集的分...

0.3 1182 0 1
动态规划简介
动态规划（Dynamic Programming， DP）算法采用递归的方式，将较复杂的原问题分解为较为简单的子问题，以求解原问题。适用情况 ...

0.5 674 0 3
LightGBM简介
LightGBM LightGBM（Light Gradient Boosting Machine）是一款基于决策树算法的分布式梯度提升框架。为...

0.3 17304 0 2

XGBoost简介
XGBoost Extreme Gradient Boosting(XGBoost)是由华盛顿大学（University of Washingt...

0.3 3847 0 2
Logistic Regression与Logistic Loss简介
Logistic Regression 在线性回归中，我们寻找的连续型随机变量和的函数关系式为：，其中为待估参数（包含截距项，即，），为随机误差...

1.1 6805 1 5