交叉验证是一种非常常用的对于模型泛化能力进行评估 方法,交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。常用的交叉验证方法有:简单交叉验证(HoldOu...
二维数组转为一维数组 1.列表推导式 2. itertools 3.sum小技巧 4. operator 列表推导式参:《Python列表推导式和嵌套的列表推导式》[http...
一、哑变量 关于哑变量,这篇博文写的很好,相关概念可以参阅:《机器学习总结之——Dummy Coding(哑变量)》[https://blog.csdn.net/weixin...
分类是算法基于已有标签的数据进行学习并对新数据进行分类,而聚类则是在完全没有标签的情况下,有算法“猜测”哪些数据像是应该“堆”在一起的,并且让算法给不同的“堆”里的数据贴上一...
主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。PCA可...
使用 make_blobs 生成数据集,指定样本数据量 n_samples=40,分类 centers=2,随机状态 random_state=50,标准差 cluster_...
引言 使用现成的 MNIST 数据集训练图像识别,包含 70000 个手写数字图像,其中 60000 个是训练数据,另外 10000 个是测试数据。每个样本有 784 个特征...
引言 MLP算法,也叫前馈神经网络或多层感知器。关于MLP网上有很多,可以参考,比如《神经网络基础-多层感知器(MLP)》[https://blog.csdn.net/wei...
引言 采用波士顿房价数据,因为SVM算法对数据预处理 要求较高,房价数据特征量级差异大,因此需要进行预处理 代码 执行结果 注释: 《Sklearn之数据预处理——Stand...
引言 SVM的基本概念 分隔超平面:将数据集分割开来的直线叫做分隔超平面。超平面:如果数据集是N维的,那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面,也就是分类...
引言 随机森林的原理网上有一大堆,作为入门小白,下面来根据教材敲两个随机森林的代码。随机森林有两个比较重要的参数:max_features 和 n_estimators。m...
引言 朴决策树的原理可以参考我的另一篇<决策树是什么东东?>[https://www.jianshu.com/p/433e2de1785d] 采用红酒的数据进行建模,并绘制...
引言 使用威斯康星乳腺肿瘤数据,用高斯朴素贝叶斯进行建模。数据集包括569个兵力的数据样本,每个样本有30个特征值,样本分为两类:恶性(Malignant)和良性(Benig...
引言 在scikit-learn中,朴素贝叶斯有三种方法:贝努利朴素贝叶斯(BernoulliNB)、高斯朴素贝叶斯(GaussianNB)和多项式朴素贝叶斯(Multin...
一、线性模型基本概念 线性模型不是指某一个模型,而是一类模型。在机器学习领域,常用的线性模型包括,线性回归、岭回归、套索回归、逻辑回归和线性SVC等。 1.线性模型的图形表...
一、概述 数据集:数据集来自 scikit-learn 内置的红酒数据集,包括数据 'data', 目标分类 'target', 目标分类名'target_names', 数...
一、K最近邻算法的原理 原理部分直接看我另一篇《KNN是什么东东?》,本文主要针对如何应用。 K这个字母的含义就是最近邻的个数。在scikit-learn中,K最近邻算法的K...
引言 一、概念 1.贝叶斯定理关于[随机]事件A和B的[条件概率](或[边缘概率])的一则定理,为了解决一个“逆概率”的问题。贝叶斯公式是在条件概率和全概率公式的基础上得来的...
小白自学路上的备忘记录。。。 参考:决策树(分类树、回归树)决策树:这个博客的图真好看,通俗易懂。哈哈决策树详解 引言 决策树(Decision Tree)是一种有监督学习...