数据基本处理
下面列一些关键词:
数据源
数据抽样
数据类型
缺失值
异常值
粗分类
卡方检验
WOE预测
一般而言分两类,回归与分类
回归
- 线性回归
- 随机森林
- 神经网络
- 以及各种机器学习方法
- 时间序列预测
分类
- 逻辑回归
- 决策树
- SVM
- 随机森林
- xgboost
等等
识别模式
聚类分析
关联规则
- 生存分析
生存分析一开始是用于判断生物体什么时候会死。其衍生开来可以用于判断某一事情什么时候会发生。可以使用的场景包括,预测客户流失时间,预测客户下次购买时间,预测客户违约事件,预测客户下次访问网站的时间。
第一类生存分析是卡普兰.梅尔分析,用于估计不同时间的总体生存率。
参数法生存分析:假设事件的发生时间服从某种分布规律。
比例风险回归模型,生存分析模型的扩展:把随时间而变化的变量纳入模型。
生存分析模型的评估:首要考虑点是模型整体和单个协变量的预测力的统计显著性。
- 社交网络分析
社交网络的现实场景:以超链接方式连接在一起的网页,人与人之间的电子邮件网络,因引用而建立连接关系的论文,通信运营商的客户之间的电话呼叫,通过流动性依赖而连接在一起的银行,疾病在病人之间的传播等等。
社交网络的度量,社交网络的学习,关系邻近分类器,概率关系邻近分类器,关系逻辑回归,共同模式推断,自中心网络,偶图/二分图
- 案例
- 信用风险建模:信贷领域A卡,或者其他预测风险的模型
- 欺诈检测:其实有的时候去识别欺诈模式,更多的靠的是数据分析,靠业务经验,而不是靠模型。
- 营销响应模型:本质上也是二分类模型,用于预测客户对于营销活动是否会有反应
- 流失预测:生存分析可以用于这个方面,并且生存分析模型在这个领域应用也比较少
- 推荐系统:基于内容,基于用户
- a/b测试,本质上是统计上的假设检验
- 情感分析:这个属于文本挖掘一大类,我有一门关于文本挖掘的课程,感兴趣可以去学习。https://study.163.com/course/introduction.htm?utm_u=1149547966&utm_campaign=share&utm_medium=iphoneShare&share=2&shareId=480000001874407&courseId=1209305807&utm_source=weixinMoment