BAT 机器学习笔试题目

1以下几种模型方法属于判别式模型(Discriminative Model)的有( )

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

A 2,3 B 3,4 C1,4 D1,2

2、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()

A各类别的先验概率P(C)是相等的

B以0为均值，sqr(2)/2为标准差的正态分布

C特征变量X的各个维度是类别条件独立随机变量

D P(X|C)是高斯分布

3、关于支持向量机SVM,下列说法错误的是（）

A L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力

B Hinge损失函数，作用是最小化经验分类错误

C分类间隔为1/||w||，||w||代表向量的模

D当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习

4、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()

A EM算法

B维特比算法

C前向后向算法

D极大似然估计

5、在Logistic Regression 中,如果同时加入L1和L2范数,不会产生什么效果()

A以做特征选择,并在一定程度上防止过拟合

B能解决维度灾难问题

C能加快计算速度

D可以获得更准确的结果

6、机器学习中L1正则化和L2正则化的区别是？

A使用L1可以得到稀疏的权值

B使用L1可以得到平滑的权值

C使用L2可以得到稀疏的权值

7、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的()

A后验概率

B先验概率

C类概率密度

D类概率密度与先验概率的和

8、隐马尔可夫模型三个基本问题以及相应的算法说法错误的是（）

A评估—前向后向算法

B解码—维特比算法

C学习—Baum-Welch算法

D学习—前向后向算法

9、在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题？

A增加训练集量

B减少神经网络隐藏层节点数

C删除稀疏的特征

DSVM算法中使用高斯核/RBF核代替线性核

10、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测。

A AR模型

B MA模型

C ARMA模型 D GARCH模型

1正确答案是：A，您的选择是： B

解析：

常见的判别式模型有：

Logistic regression（logistical 回归）

Linear discriminant analysis（线性判别分析）

Supportvector machines（支持向量机）

Boosting（集成学习）

Conditional random fields（条件随机场）

Linear regression（线性回归）

Neural networks（神经网络）

常见的生成式模型有:

Gaussian mixture model and othertypes of mixture model（高斯混合及其他类型混合模型）

Hidden Markov model（隐马尔可夫）

NaiveBayes（朴素贝叶斯）

AODE（平均单依赖估计）

Latent Dirichlet allocation（LDA主题模型）

Restricted Boltzmann Machine（限制波兹曼机）

生成式模型是根据概率乘出结果，而判别式模型是给出输入，计算出结果。

2正确答案是：C，解析：

朴素贝叶斯的条件就是每个变量相互独立。

3正确答案是：C，解析：

A正确。考虑加入正则化项的原因：想象一个完美的数据集，y>1是正类，y<-1是负类，决策面y=0，加入一个y=-30的正类噪声样本，那么决策面将会变“歪”很多，分类间隔变小，泛化能力减小。加入正则项之后，对噪声样本的容错能力增强，前面提到的例子里面，决策面就会没那么“歪”了，使得分类间隔变大，提高了泛化能力。

B正确。

C错误。间隔应该是2/||w||才对，后半句应该没错，向量的模通常指的就是其二范数。

D正确。考虑软间隔的时候，C对优化问题的影响就在于把a的范围从[0，+inf]限制到了[0,C]。C越小，那么a就会越小，目标函数拉格朗日函数导数为0可以求出w=求和ai∗yi∗xi，a变小使得w变小，因此间隔2/||w||变大

4正确答案是：D，解析：

EM算法：只有观测序列，无状态序列时来学习模型参数，即Baum-Welch算法

维特比算法：用动态规划解决HMM的预测问题，不是参数估计

前向后向算法：用来算概率

极大似然估计：即观测序列和相应的状态序列都存在时的监督学习算法，用来估计参数

注意的是在给定观测序列和对应的状态序列估计模型参数，可以利用极大似然发估计。如果给定观测序列，没有对应的状态序列，才用EM，将状态序列看不不可测的隐数据。

5 正确答案是：D，解析：

之前的解析有些问题，特完善如下。

L1范数是向量中各个元素的绝对值之和，又叫稀疏规则算子。L1正则化通过向代价函数中添加权重向量的L1范数（即正则化项），使得优化后的模型中无用特征对应的权值变为0，相当于减少了特征维数，实现了特征的自动选择，所以LR中加入L1范数可以进行特征选择、解决维度灾难问题、加快计算速度；

L2范数是向量中各个元素平方和的1/2次方。L2正则化通过向代价函数中添加权重向量的L2范数，使得优化后的模型中所有的权值w尽可能趋于0但不为0，通过L2范数，可以实现对模型空间的限制，从而在一定程度上避免了过拟合；

过拟合的时候，拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大，在某些小区间里，函数值的变化很大，也就是w非常大。所以LR中加入L2范数可以在一定程度上防止过拟合；

在LR中同时加入L1和L2范数不会产生结果更准确的效果。

6正确答案是：A，解析：

L1正则化偏向于稀疏，它会自动进行特征选择，去掉一些没用的特征，也就是将这些特征对应的权重置为0.

L2主要功能是为了防止过拟合，当要求参数越小时，说明模型越简单，而模型越简单则，越趋向于平滑，从而防止过拟合。

L1正则化/Lasso

L1正则化将系数w的l1范数作为惩罚项加到损失函数上，由于正则项非零，这就迫使那些弱的特征所对应的系数变成0。因此L1正则化往往会使学到的模型很稀疏（系数w经常为0），这个特性使得L1正则化成为一种很好的特征选择方法。

L2正则化/Ridge regression

L2正则化将系数向量的L2范数添加到了损失函数中。由于L2惩罚项中系数是二次方的，这使得L2和L1有着诸多差异，最明显的一点就是，L2正则化会让系数的取值变得平均。

对于关联特征，这意味着他们能够获得更相近的对应系数。还是以Y=X1+X2为例，假设X1和X2具有很强的关联，如果用L1正则化，不论学到的模型是Y=X1+X2还是Y=2X1，惩罚都是一样的，都是2alpha。但是对于L2来说，第一个模型的惩罚项是2alpha，但第二个模型的是4*alpha。可以看出，系数之和为常数时，各系数相等时惩罚是最小的，所以才有了L2会让各个系数趋于相同的特点。

可以看出，L2正则化对于特征选择来说一种稳定的模型，不像L1正则化那样，系数会因为细微的数据变化而波动。所以L2正则化和L1正则化提供的价值是不同的，L2正则化对于特征理解来说更加有用：表示能力强的特征对应的系数是非零。

因此，一句话总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。

7 A

8 正确答案是：D，解析：

之前的解析不够完善，特完善如下。

隐马尔科夫模型有三个基本问题：

1概率计算问题：给定模型和观测序列，计算在模型下观测序列出现的概率。

2学习问题：已知观测序列，估计模型中的参数，使得在该模型下观测序列概率最大，即用极大似然估计的方法估计参数。

3预测问题：也称解码问题，已知模型和观测序列，给定观测序列，求最可能的对应的状态序列。

解决隐马尔科夫模型三个基本问题的算法：

概率计算算法：前向算法、后向算法

学习算法：Baum-Welch算法

预测算法：近似算法、维特比算法

评估问题就是概率计算问题，相应的算法是前向算法和后向算法，A正确；解码问题就是预测问题，相应的算法是维特比算法，B正确。学习问题相应的算法是Baum-Welch算法，C正确；前向算法和后向算法对应评估问题，D错误。

9 正确答案是：D，解析：

一般情况下，越复杂的系统，过拟合的可能性就越高，一般模型相对简单的话泛化能力会更好一点。

B.一般认为，增加隐层数可以降低网络误差（也有文献认为不一定能有效降低），提高精度，但也使网络复杂化，从而增加了网络的训练时间和出现“过拟合”的倾向， svm高斯核函数比线性核函数模型更复杂，容易过拟合

D.径向基(RBF)核函数/高斯核函数的说明,这个核函数可以将原始空间映射到无穷维空间。对于参数，如果选的很大，高次特征上的权重实际上衰减得非常快，实际上（数值上近似一下）相当于一个低维的子空间；反过来，如果选得很小，则可以将任意的数据映射为线性可分——当然，这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。不过，总的来说，通过调整参数，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。

10 正确答案是：D，您的选择是：C

解析：

AR模型是一种线性预测，即已知N个数据，可由模型推出第N点前面或后面的数据（设推出P点），所以其本质类似于插值。

MA模型(moving average model)滑动平均模型，其中使用趋势移动平均法建立直线趋势的预测模型。

ARMA模型(auto regressive moving average model)自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能，但其参数估算比较繁琐。

GARCH模型称为广义ARCH模型，是ARCH模型的拓展，由Bollerslev(1986)发展起来的。它是ARCH模型的推广。GARCH(p,0)模型，相当于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订做的回归模型，除去和普通回归模型相同的之处，GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测，这样的分析对投资者的决策能起到非常重要的指导性作用，其意义很多时候超过了对数值本身的分析和预测。

最后编辑于：2019.10.11 10:05:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342

BAT 机器学习笔试题目

推荐阅读更多精彩内容