1以下几种模型方法属于判别式模型(Discriminative Model)的有( )
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
A 2,3 B 3,4 C1,4 D1,2
2、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()
A各类别的先验概率P(C)是相等的
B以0为均值,sqr(2)/2为标准差的正态分布
C特征变量X的各个维度是类别条件独立随机变量
D P(X|C)是高斯分布
3、关于支持向量机SVM,下列说法错误的是()
A L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力
B Hinge损失函数,作用是最小化经验分类错误
C分类间隔为1/||w||,||w||代表向量的模
D当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习
4、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()
A EM算法
B维特比算法
C前向后向算法
D极大似然估计
5、在Logistic Regression 中,如果同时加入L1和L2范数,不会产生什么效果()
A以做特征选择,并在一定程度上防止过拟合
B能解决维度灾难问题
C能加快计算速度
D可以获得更准确的结果
6、机器学习中L1正则化和L2正则化的区别是?
A使用L1可以得到稀疏的权值
B使用L1可以得到平滑的权值
C使用L2可以得到稀疏的权值
7、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的()
A后验概率
B先验概率
C类概率密度
D类概率密度与先验概率的和
8、隐马尔可夫模型三个基本问题以及相应的算法说法错误的是( )
A评估—前向后向算法
B解码—维特比算法
C学习—Baum-Welch算法
D学习—前向后向算法
9、在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题?
A增加训练集量
B减少神经网络隐藏层节点数
C删除稀疏的特征
DSVM算法中使用高斯核/RBF核代替线性核
10、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测。
A AR模型
B MA模型
C ARMA模型 D GARCH模型
1正确答案是:A,您的选择是: B
解析:
常见的判别式模型有:
Logistic regression(logistical 回归)
Linear discriminant analysis(线性判别分析)
Supportvector machines(支持向量机)
Boosting(集成学习)
Conditional random fields(条件随机场)
Linear regression(线性回归)
Neural networks(神经网络)
常见的生成式模型有:
Gaussian mixture model and othertypes of mixture model(高斯混合及其他类型混合模型)
Hidden Markov model(隐马尔可夫)
NaiveBayes(朴素贝叶斯)
AODE(平均单依赖估计)
Latent Dirichlet allocation(LDA主题模型)
Restricted Boltzmann Machine(限制波兹曼机)
生成式模型是根据概率乘出结果,而判别式模型是给出输入,计算出结果。
2正确答案是:C,解析:
朴素贝叶斯的条件就是每个变量相互独立。
3正确答案是:C,解析:
A正确。考虑加入正则化项的原因:想象一个完美的数据集,y>1是正类,y<-1是负类,决策面y=0,加入一个y=-30的正类噪声样本,那么决策面将会变“歪”很多,分类间隔变小,泛化能力减小。加入正则项之后,对噪声样本的容错能力增强,前面提到的例子里面,决策面就会没那么“歪”了,使得分类间隔变大,提高了泛化能力。
B正确。
C错误。间隔应该是2/||w||才对,后半句应该没错,向量的模通常指的就是其二范数。
D正确。考虑软间隔的时候,C对优化问题的影响就在于把a的范围从[0,+inf]限制到了[0,C]。C越小,那么a就会越小,目标函数拉格朗日函数导数为0可以求出w=求和ai∗yi∗xi,a变小使得w变小,因此间隔2/||w||变大
4正确答案是:D,解析:
EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
维特比算法:用动态规划解决HMM的预测问题,不是参数估计
前向后向算法:用来算概率
极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数
注意的是在给定观测序列和对应的状态序列估计模型参数,可以利用极大似然发估计。如果给定观测序列,没有对应的状态序列,才用EM,将状态序列看不不可测的隐数据。
5 正确答案是:D,解析:
之前的解析有些问题,特完善如下。
L1范数是向量中各个元素的绝对值之和,又叫稀疏规则算子。L1正则化通过向代价函数中添加权重向量的L1范数(即正则化项),使得优化后的模型中无用特征对应的权值变为0,相当于减少了特征维数,实现了特征的自动选择,所以LR中加入L1范数可以进行特征选择、解决维度灾难问题、加快计算速度;
L2范数是向量中各个元素平方和的1/2次方。L2正则化通过向代价函数中添加权重向量的L2范数,使得优化后的模型中所有的权值w尽可能趋于0但不为0,通过L2范数,可以实现对模型空间的限制,从而在一定程度上避免了过拟合;
过拟合的时候,拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大,在某些小区间里,函数值的变化很大,也就是w非常大。所以LR中加入L2范数可以在一定程度上防止过拟合;
在LR中同时加入L1和L2范数不会产生结果更准确的效果。
6正确答案是:A,解析:
L1正则化偏向于稀疏,它会自动进行特征选择,去掉一些没用的特征,也就是将这些特征对应的权重置为0.
L2主要功能是为了防止过拟合,当要求参数越小时,说明模型越简单,而模型越简单则,越趋向于平滑,从而防止过拟合。
L1正则化/Lasso
L1正则化将系数w的l1范数作为惩罚项加到损失函数上,由于正则项非零,这就迫使那些弱的特征所对应的系数变成0。因此L1正则化往往会使学到的模型很稀疏(系数w经常为0),这个特性使得L1正则化成为一种很好的特征选择方法。
L2正则化/Ridge regression
L2正则化将系数向量的L2范数添加到了损失函数中。由于L2惩罚项中系数是二次方的,这使得L2和L1有着诸多差异,最明显的一点就是,L2正则化会让系数的取值变得平均。
对于关联特征,这意味着他们能够获得更相近的对应系数。还是以Y=X1+X2为例,假设X1和X2具有很强的关联,如果用L1正则化,不论学到的模型是Y=X1+X2还是Y=2X1,惩罚都是一样的,都是2alpha。但是对于L2来说,第一个模型的惩罚项是2alpha,但第二个模型的是4*alpha。可以看出,系数之和为常数时,各系数相等时惩罚是最小的,所以才有了L2会让各个系数趋于相同的特点。
可以看出,L2正则化对于特征选择来说一种稳定的模型,不像L1正则化那样,系数会因为细微的数据变化而波动。所以L2正则化和L1正则化提供的价值是不同的,L2正则化对于特征理解来说更加有用:表示能力强的特征对应的系数是非零。
因此,一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。
7 A
8 正确答案是:D,解析:
之前的解析不够完善,特完善如下。
隐马尔科夫模型有三个基本问题:
1概率计算问题:给定模型和观测序列,计算在模型下观测序列出现的概率。
2学习问题:已知观测序列,估计模型中的参数,使得在该模型下观测序列概率最大,即用极大似然估计的方法估计参数。
3预测问题:也称解码问题,已知模型和观测序列,给定观测序列,求最可能的对应的状态序列。
解决隐马尔科夫模型三个基本问题的算法:
概率计算算法:前向算法、后向算法
学习算法:Baum-Welch算法
预测算法:近似算法、维特比算法
评估问题就是概率计算问题,相应的算法是前向算法和后向算法,A正确;解码问题就是预测问题,相应的算法是维特比算法,B正确。学习问题相应的算法是Baum-Welch算法,C正确;前向算法和后向算法对应评估问题,D错误。
9 正确答案是:D,解析:
一般情况下,越复杂的系统,过拟合的可能性就越高,一般模型相对简单的话泛化能力会更好一点。
B.一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向, svm高斯核函数比线性核函数模型更复杂,容易过拟合
D.径向基(RBF)核函数/高斯核函数的说明,这个核函数可以将原始空间映射到无穷维空间。对于参数 ,如果选的很大,高次特征上的权重实际上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调整参数 ,高斯核实际上具有相当高的灵活性,也是 使用最广泛的核函数 之一。
10 正确答案是:D,您的选择是:C
解析:
AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点),所以其本质类似于插值。
MA模型(moving average model)滑动平均模型,其中使用趋势移动平均法建立直线趋势的预测模型。
ARMA模型(auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能,但其参数估算比较繁琐。
GARCH模型称为广义ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)发展起来的。它是ARCH模型的推广。GARCH(p,0)模型,相当于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订做的回归模型,除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测,这样的分析对投资者的决策能起到非常重要的指导性作用,其意义很多时候超过了对数值本身的分析和预测。