https://developers.google.cn/machine-learning/crash-course/representation/feature-engineering
将数据映射到实用特征的过程。
传统编程的关注点是代码。在机器学习项目中,关注点变成了表示。
也就是说,开发者通过添加和改善特征来调整模型。
机器学习模型不能直接看到、听到或感知输入样本。
您必须创建数据表示,为模型提供有用的信号来了解数据的关键特性。
也就是说,为了训练模型,您必须选择最能代表数据的特征集。
特征工程
One-Hot Encoding即 One-Hot 编码,也称独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。
良好特征的特点
避免很少使用的离散特征值
最好具有清晰明确的含义
不要将“神奇”的值与实际数据混为一谈
清理数据
缩放特征值
处理极端离群值
分箱
清查
了解数据
编程练习
https://colab.research.google.com/notebooks/mlcc/feature_sets.ipynb?hl=zh-cn