机器学习中为什么要把数据集划分成这么三个部分?我们可以这么做个比喻来帮助我们理解。我们在数据集上训练模型的过程就相当于我们为了考试考出好成绩刷题的过程,我们的最终目标是在高考中(测试集)取得最高分数,那么我们就要在平时疯狂的刷题(训练集),怎样检测平时的学习成果呢?一般都会有学校组织的模拟测试(交叉验证集),一般在几次模拟考试下来成绩好的话,高考也不会差到哪里去。其实设立模拟考试(交叉验证),另一方面是要保证你每个知识点都掌握全了,万一你刷的都是几何题,遇到几何题你都可以完美简答(过拟合),但是模拟考试中(交叉验证集)还有你完全没做过的导数题,概率题,而且分值都很大,那你可能就要重新调整学习计划,把原来大量刷几何题的时间均匀分配给导数题,概率题,如此虽然不能保证你每一道几何题都能简答出了,但总体上,知识点都掌握了,就能取得最高的分数!
对于机器学习中训练集(train set)、验证集(cross vaildation set)和测试集(test set)的理解
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念 姓名:钟航 转载自:http://mp.weixin.qq....