作者:HaigLee
https://www.jianshu.com/u/67ec21fb270d
本文由 HaigLee 发布。未经许可,禁止转载。
特征工程
特征工程发生在训练模型之前的样本预处理环节。
在数值分析任务中不同样本具有不同的字段属性,如名字、年龄、电话等,这些信息是以不同形式存在的。如果想要使用算法或者模型进行分析,则需要将样本中的信息转化成模型能够处理的数据——浮点型数据。这便是特征工程主要做的事情。
特征工程的作用
在特征工程中,为了降低模型拟合难度,除需要对字段属性做数值转化外,还需要根据任务本身做属性的增减。这相当于用人的理解力对数据做一次加工,帮助神经网络更好地理解数据。特征工程做得越好,数据的表现能力就会越强。
在训练模型环节,表现能力强的样本会给神经网络一个明显的指导信号,使模型更容易学到样本中的潜在规则,表现出更好的预测效果。
特征工程的方法
特征工程可以理解为数据科学的一种,包含了许多数据分析的知识和技巧,让初学者很难入门。不过随着深度学习的发展,越来越多的解决方案倾向于通过拟合能力更强的机器学习算法来降低人工干预度,减小对特征工程的依赖程度。这使得特征工程的作用越来越接近于单纯的数值转化。所以,我们只需要掌握一些特征工程的方法即可,不再需要将更多的精力放在特征工程算法上。
在特征工程中,常用的特征提取方法有以下三种:
- 单纯对特征的选择操作。
- 通过特征之间的运算,构造出新的特征。(比如两个特征x1,x2,通过计算x1 + x2 来生成一个新的特征。)
- 通过某些算法来生成新的特征(比如主成分分析算法,或先经过深度学习神经网络算出一部分特征值。)
这3种方法在使用时,只有相关的指导思想,没有固定的使用模式。除依靠个人经验外,还可以用机器学习算法进行筛选,但用机器学习算法进行筛选的过程会需要大量的算力作为支撑。
作者:HaigLee
https://www.jianshu.com/u/67ec21fb270d
本文由 HaigLee 发布。未经许可,禁止转载。