特征选择的好处 便于理解和可视化数据,降低计算及存储压力,对抗维数灾难提高准确率,增加模型泛化能力; 总结一 三大主流方法:过滤式,包裹式,嵌入式; 过滤式:对特征重要性(方...
特征选择的好处 便于理解和可视化数据,降低计算及存储压力,对抗维数灾难提高准确率,增加模型泛化能力; 总结一 三大主流方法:过滤式,包裹式,嵌入式; 过滤式:对特征重要性(方...
聊聊机器学习中的损失函数 机器学习中的损失函数 平方损失(线性回归) 对数损失(交叉熵损失 softmax, logstic) 最大熵原理(引出softmax, logsti...
简书:决策树会有哪些特性?知乎:决策树是如何处理不完整数据的? 1. 连续值如何划分? C4.5:Information Gain (Ratio) based Thresho...
如何解决类别不平衡问题? 对大类欠采样,或者对小类过采样; 设置不同的学习率,大类权值小,小类权值大; 使用一些对样本分布不敏感的评价指标,F1,ROC等 尝试不同的算法,尤...
博客:http://liuchengxu.org/blog-cn/posts/bias-variance/ 误差一般包含偏差,方差和噪声 偏差:偏差度量了学习算法的期望预测与...
过拟合的原因 数据方面,比如数据不规范,数据量少,还有可能是数据穿越(统计特征用到了未来的信息或者标签信息); 算法方面,模型过于复杂; 防止过拟合方法 进行数据规范化,处理...
最大似然估计 似然函数:这个函数反应的是在不同的参数θ取值下,取得当前这个样本集的可能性,因此称为参数θ相对于样本集X的似然函数。 最大似然估计:现在已经拿到了很多个样本(你...
知乎问题:https://www.zhihu.com/question/31989952 为什么LR需要归一化或者取对数? 归一化:可以提高收敛速度,提高收敛的精度; 为什么...
博客:http://blog.csdn.net/zouxy09/article/details/24971995博客:http://blog.csdn.net/jinping...
数据ETL: 数据挖掘一般过程: 数据探索: 数据预处理
博客CSDN: 从最大似然到EM算法浅解知乎:隐变量是什么? 隐变量:主要就是指“不能被直接观察到,但是对系统的状态和能观察到的输出存在影响的一种东西”。 1. 算法步骤 2...
博客CSDN:深入浅出K-Means算法博客:机器学习算法-K-means聚类分布式:MapReduce实现并行化:kmeans算法并行化的mpi程序 1. K-Means算...
迭代器 迭代器是有一个next()方法的对象,在全部元素取出后,会引发StopIteration异常; 使用return返回结果,一般是将结果保存至列表,return 列表;...
pandas读取 df = pd.read_csv("../input/*.csv", encoding="gb2312") pandas导出 df.to_csv("../s...
Ubuntu安装Numix主题和图标 使用 Numix 的官方 PPA 来进行安装,先打开 终端 使用如下命令安装 Numix 主题和图标: 使用 unity tweak t...
第一次遇到 在vim插入模式下,习惯使用Ctrl+s保存一下(在windows下的习惯),但是之后终端会卡死; 解决办法 原因是在终端下“CTRL+S”代表锁定屏幕显示,使用...
sudo apt-get autoclean 清理旧版本的软件缓存sudo apt-get clean ...
传统的字符串分割,只是支持一个分隔符 通过借助正则表达式,可以完成多个字符分割;
1.内存的分配方式有几种? 从静态存储区域分配。内存在程序编译的时候就已经分配好,这块内存在程序的整个运行期间都存在。例如全局变量。2 在栈上创建。在执行函数时,函数内局部变...