A 数据挖掘方法分类
1.描述性(没有被解释变量,无监督学习),分析具有多个属性的数据集,找出潜在的模式,没有因变量
场景:观察个体之间的相似程度,例如根据年龄、性别、收入等多因素进行客户细分,根据客户对多个产品的购买,发现产品之间的相关性
主要算法:聚类、关联分析、因子分析、主成分分析、社交网络分析
2.预测性(有被解释变量,有监督学习,分类模型),用一个或者多个自变量预测因变量的值,即以历史数据为训练资料,从中学习并建立模型,将此模型运用到当前的数据上,推测未来的结果。
场景:客户是否会违约时一个因变量,可以根据客户的性别、年龄、收入、职位、经济情况、历史信用状况等因素进行预测
Y值类别:训练数据由自变量(X)和因变量(Y)组成,Y是连续值——回归,Y是分类值——分类
主要算法:决策树、线性回归、Logistic回归、支持向量机、神经网络、判别分析、。。。
B.分类模型示例
预测类型 | 方法 | 适用场景 | 举例 |
---|---|---|---|
估计 | 线性回归/回归树/神经网络 | 这类问题绝大多数下被解释变量为连续变量 | 消费额度预测/违约损失预测 |
排序 | 逻辑回归/决策树/神经网络 | 不存在稳定的可辨识的分类结果,比如流失经常是一个人为定义,而很少存在真实流失的情况 | 信用评分/流失预测/营销响应 |
决策 | 贝叶斯网络/KNN/SVM/深度学习 | 存在可以直接辨识的分类结果,比如人脸图像是被,是可以直接知道是否为某个人的脸 | 声音识别/图像识别/欺诈识别/违约推断 |
标注 | 隐马尔可夫条件随机场 | 存在明确的分类分类,和决策的不同在于决策为二分类,标准为多分类 | 信息抽取/自然语言处理/欺诈识别 |
在分类变量Y中,如果Y是二分类,如果是确定的,天生就有的,就是决策类模型,如果Y是人为定义的或者说是根本不存在,只是强硬的分开的,就叫做排序类模型
参考资料:CDA《信用风险建模》微专业