算法如下:1.决策树 2.随机森林算法 3.逻辑回归 4.SVM 5.朴素贝叶斯 6.k近邻算法 7.k均值算法 8.Adaboost 9.神经网络 10.马尔科夫
1.决策树
根据数据某一特征进行分类,每一个节点提一个问题,通过判断将数据分为两类。问题通过已有数据学习得到。
2.随机森林
通过源数据建立S矩阵,矩阵前几列为数据特征,最后一列为数据所在类别。通过S矩阵随机生成M个子矩阵,再由M个子矩阵得到M个决策树,将新数据投入到这M个树中去,统计数据被预测为哪一类的数目最多,就将此类定为最后的预测结果。
3.逻辑回归
用于构建值域为0至1之间的模型。算法采用绝对值、平方值等方法保证大于等于0,并通过除法将自己设为分子,分母是自身加1保证小于1,最后做一下变型,得到逻辑回归模型。
4.SVM
目的是找到一个超平面将两类数据分开,最优超平面即是超平面离两侧数据最近一点的距离最大化
5.朴素贝叶斯
应用场景:情感分析
判断一段文字是积极还是消极,可以只统计这段文字中一些关键词的出现频率,通过这些关键词分别出现在积极或是消极语句中的概率来判断这段文字是积极还是消极。
6.k近邻
给出一个新数据时,计算离它最近的k个数据。这k个数据中哪种类别最多,就将新数据判定为该类。
7.k均值
若想将一组数据分为n类,先进行初始化,选取n个数据分别作为n个类的初始值。之后,剩余数据依次计算与这n个初始点的距离,并归类到最近的初始点。分好类后,计算每个类的平均值,再讲此作为新一轮的中心点。当几轮过后,分组不再产生变化就结束分类。
8.Adaboost
把若干个分类效果并不好的分类器综合起来考虑,得到一个效果比较好的分类器。
9.神经网络
神经网络存在若干层神经元,第一层为输入层,中间层为隐含层,最后一层为输出层。数据由输入层输入然后通过隐含层经过不同的权重因子计算得到分类结果。
10.马尔科夫
即马尔科夫链,以一句话为例,将一句话中的每一个单词设定成一个状态,然后计算状态间的转换概率。通过彼此状态间的转换概率计算出这一句话出现的概率。