不规则张量 RaggedTensor[https://www.tensorflow.org/api_docs/python/tf/RaggedT...
广义线性模型与逻辑回归 广义线性模型的原理 首先,广义线性模型是基于指数分布族的,而指数分布族的原型如下 其中 为自然参数,它可能是一个向量,...
数据预处理 1. 去除唯一属性 唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以简单地删除这些属性即可。 2. 处理缺失值...
参数估计 最小二乘法估计构造误差平方和函数,对其求偏导,让误差平方和函数取得最小值的参数就是模型参数。 极大似然估计(MLE)是似然函数。 最大...
Kmeans 先从样本集中随机选取 k 个样本作为簇中心,并计算所有样本与这 k 个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“...
决策树 1. 各种公式 信息熵 条件熵 信息增益 信息增益比 基尼指数 2. 决策树的生成算法 ID3: 选择信息增益最大的特征最为节点的特征 ...
AdaBoost 1. 前向分步加法 2. 损失函数 指数损失形式: 损失函数 3. 推导 计算在强分类器中所占的权重Loss 对 求导 得...
各种集成方法比较 1. AdaBoost和RF AdaBoost改变了训练数据的权值,即样本的概率分布,减少上一轮被正确分类的样本权值,提高被错...
优化方法 1. 梯度下降 1.1. 缺点及解决办法 缺点:每一步走的距离在极值点附近非常重要,如果走的步子过大,容易在极值点附近震荡而无法收敛。...
文集作者