数据挖掘实战课程
章节1 课时2
定义
Data mining, DM
大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的、且有价值的信息和知识的过程。
案例:啤酒与尿布
可视化
算法
数据库
机器学习
统计学
市场营销
其他学科
数据挖掘工程师往往是熟悉和理解业务的人
数据挖掘 VS 数据分析
- 分析重统计,挖掘偏预测
- 分析[现状、原因、预测]
- 挖掘[分类、聚类、关联、预测]
- 分析[对比、分组、交叉、回归]
- 挖掘[决策树、审计网络、关联规则、聚类分析]
- 分析[指标统计量]
- 挖掘[输出模型或规则]
模型VS规则
- 模型:Y=f(X)
- 规则:Y={y|age>30 & income>10000}
算法则是求解模型的步骤与方法
章节1 课时3
常见问题
商业角度的问题->数据挖掘
- 用户流失,促销活动 -> 分类
- 目标市场 -> 聚类
- 交叉销售 -> 关联
- 未来销量 -> 预测
各方法特点
- 分类:有监督学习,已知目标分类的样本训练
- 决策树、贝叶斯、KNN等
- 用户流失,促销响应等
- 聚类:无监督,物以类聚的思想
- 层次、网格、密度等
- 目标市场细分、现有客户细分等
- 关联:无监督,别称购物篮分析,识别频繁发生的模式
- Aprior、Carma、序列
- 交叉销售
- 预测:有监督学习
- 线性回归、时间序列
- 气温、GDP、收入、用户数预测等
章节1 课时4
CISP-DM
1. 商业理解
- 确定商业目标:商业背景,成功标准
- 确定挖掘目标:口径,数据,维度,成功标志
- 制定项目方案:算法,时间安排
2. 数据理解
- 收集
- 描述
- 探索
- 质量描述
3. 数据准备
- 导入、抽取、清洗、合并、变量计算
4. 模型构建
- 训练集,验证集
- 建模技术
- 建立模型
- 模型对比
5. 模型评估
- 技术层面:设计对照组比较;评估指标要设计合理[命中率、覆盖率、提升度]
- 业务经验
6. 模型部署
- 营销过程跟踪
- 观察模型衰退变化
- 引入新的特征优化模型
- 程序固化
章节2 课时5
文本挖掘
案例
常用词汇统计
语料库
待分析文档的集合
- 通过循环将路径全部读入
filePaths = []
for root, dirs, files in os.walk(
"D:\\PDM\\2.1\\SogouC.mini\\Sample"
):
for name in files:
filePaths.append(os.path.join(root, name))
章节2 课时6
中文分词
- jieba
利用命令行pip install jieba即可
- jieba.cut('我在用文本分析')
- jieba.add_word('文本分析')
增加自定义分词,词库构建
- jieba.load_userdict()
章节2 课时7
词频统计
- 词频:Term Frequency
dataframe.groupby()
- 词云
- 无效词语的过滤
- 最终统计剔除~isin(stopwords)
- 分词时直接剔除
章节2 课时8
词云绘制
- 词云:图形化表达词频
- word cloud
章节2 课时9
词云梅花
- 词云配合形状
- 准备好词频数据
wordcloud
mask
- 调整图片质量,尺寸
章节2 课时10
关键词提取
jieba.analyse.extract_tags(content, topK)
章节2 课时11
关键词提取原理
TF-IDF原理
- 词频TF
- 逆文档频率(权重),log(文档综述/(包含该词的文档数+1) IDF
- TF-IDF = TF * IDF
文档向量化
- d_m 文档
- w_n 分词
- f_{ij}: 第i篇文章,分词j出现的次数
正则表达式
import re
re.complile(u'[\u400-u9fa5]+')
章节2 课时12
sklearn
scikit-learn, bsd-开源许可
- 利用空格人工先做分词,仿照英文
- 保留最短长度:中文单字可成词
- sort by TF-IDF方法
- 向量化:sklearn.feature_extraction.text.CountVectorizer
- TF-IDF计算:sklearn.feature_extraction.text.TfidfTransformer
章节2 课时13
相似文章推荐
推荐
- 好的人+事物,相似推荐+协同过滤推荐
- 相似推荐:用户表现出对某人/物的兴趣,为它推荐类似的人/物--人以群分,物以类聚
- 协同过滤:已有用户群历史的行为与偏好,预测当前用户的偏好
理论依据:余弦相似度
- pairwise_distance
章节2 课时14
自动摘要
短文,全面准确反映
- 原理:类似余弦定理
- 算法:
- 获取到需要摘要的文章
- 对该文章进行词频统计
- 对该文章进行分句(跟进标点)
- 计算分句与文章之间的余弦相似度
- 取相似度最高的分句,作为文章的摘要
章节3 课时15
- 相关系数
关联程度的基本测度之一
- 相关分析基本特征
- 方向:正、负相关
- 量级:低度(0,0.3) 中度 [0.3,0.8) [0.8,1]
numpy.corrcoef(X,Y)