线性模型
基本介绍
真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。这在古典统计学中被称为统计建模
一类相关性分析试图通过其他变量预测单独的属性值,如线性回归
另一类用一些潜在变量来代表整个数据,如主成分分析
需要明确的是, 这里有两个重要的假设:
假设一: 近似线性相关假设。 线性相关假设是使用两种模型进行异常检测的重要理论基础。
假设二: 子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。
基于这两点假设,在异常检测的第一阶段,为了确定特定的模型是否适合特定的数据集, 对数据进行探索性和可视化分析是非常关键的。
探索可视化分析相关
seaborn库
import seaborn as sns
sns.heatmap()
sns.FacetGrid()
sns.pairplot()
#t-SNE用于数据降维可视化
from sklearn.manifold import TSNE