#Python3组数据挖掘实战总结 6、7章#

数据挖掘实战

特征工程

数据处理

Data vs Feature

  • 列:特征

从原始数据中提取特征供算法和模型使用

  • 特征越好,灵活性越强
  • 特征越好,模型越简单
  • 特征越好,性能越出色

特征工程:

  • 数据处理
  • 统一量纲:标准化,归一化
  • 虚拟变量
  • 缺失值填充
  • 特征选择
  • 维度压缩

0-1标准化

线性变化,$\frac{x-min}{max-min}$

Z标准化

均值和标准差进行数据的标准化,$\frac{x-\overline{x}}{\Sigma_i(x_i-\overline{x})^2}$

Normalizer归一化

单位范数,$\frac{x}{\Sigma_i(x_i)^2}$

虚拟变量

哑变量转换,get_dummies

缺失值

原因

  • 无法获取
  • 遗漏
  • 处理错误

解决办法

  • 数据补齐
  • 删除缺失行
  • 不处理

特征选择

  • 是否发散

即看变量是否有区分度,通过方差选择。[选择方差大于阈值]

  • 是否相关

考察特征值与目标值的相关系数

  • 递归特征消除法

进行多轮训练,保留指定的特征数

  • 模型选择法 (有待深入了解原理)

建好的模型对象传入选择器,根据建好的模型,自动选择最好的特征值

维度压缩

  • 主成分分析 Principal Components Analysis

PCA API

from sklearn.decomposition import PCA

聚类

  • 聚类分析:无监督学习,无分类目标变量

按照个体特征进行分类,同一类别的个体之间具有较高的相似度

指标

  • Q型聚类,样本、聚类

距离:欧氏距离,欧式平方距离,马氏距离etc

  • R型聚类,指标、变量

相似系数:皮尔逊相关系数、夹角余弦、指数相似系数etc

常用方法

  • K-Means
  • DBSCAN密度
  • 层次聚类

K-Means

利用均值把数据分成K类

  • K类
  • Means均值

目标:把N个样本点划分到K类中,是的每个点都属于它最近的质心对应的类

sklearn.cluster.Kmeans(n_clusters=8)
fit(data)
preict(data)#课程中未介绍,后续加深了解

DBSCAN密度

Density-Based Spatial Clustering of Application with Noise

  • 密度
  • 领域(指相邻的点?)
  • 核心点
  • 边界点
  • 噪声点
model=sklearn.cluster.DBSCAN(eps, min_samples)
model.fit_predict(data)

层次聚类

Hierarchical Clustering
树聚类,层次架构反复聚合

linkage = scipy.cluster.hierarchy.linkage(data,method='single')
# single/complete/centroid
scipy.cluster.hierarchy.dendrogram(linkage)
scipy.cluster.hierarchy.fcluster(linkage,n,criterion='maxclust')
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容