机器学习笔记（19）：特征选择与转换

本文来自之前在Udacity上自学机器学习的系列笔记。这是第19篇，介绍了数据前处理的方法—特征选择和特征转换。

为什么需要特征选择
特征选择之所以重要，有两个原因，一个源自我们的认知，另一个是维度灾难。因为在我们的认知中，我们需要考虑数据的哪些特征是起决定性作用的。有时候我们可以找到成百上千种特征，但其中发挥作用的仅有几个到十几个。维度灾难指出训练所需数据量会随着特征维度的增加而呈指数型增加，即 $2^N$ 。所以，在学习模型时，需要对特征进行筛选，选出数量不大且发挥主要作用的特征，也就是所谓的降维的方法。

特征选择的两种方法
为了解决特征选择问题，我们可以使用两种方法，一种是过滤（Filtering），另一种是封装（Wrapping）。

过滤就是将特征输入到一个搜索算法里面，然后通过最大化某种标准，输出一部分的特征到学习模型中进行训练。以前学习过的模型当中，决策树模型可看成是过滤方法中的搜索算法，其中信息增益就是最大化的标准。通过寻求可以使得信息增益最大化的特征，我们得到学习模型所需要的特征。除了信息增益，还有其他一些标准可供选择，例如方差、熵、非冗余或者说独立的特征等；

封装则是将特征输入到搜索算法后，算法筛选出一部分的特征子集并进一步输入到学习模型中进行训练（搜索算法和学习模型封装在一起），训练结果反馈到搜索算法并对特征子集进行更新。搜索算法有爬山算法、随机、前向和后向搜索算法等；

过滤的优点是速度快，但是它不考虑学习模型；封装的优点是它考虑了模型的偏差和学习的过程，但是速度非常慢。

两个概念：相关性和有用性
相关性（Relevant）
特征 $x_i$ 是强相关的，如果去除该特征将降低BOC（Bayes Optimal Classifer）。特征 $x_i$ 是软相关的，如果它不是强相关的，但存在一个子集，当 $x_i$ 加入到该子集后将提高BOC。

有用性（Usefulness）
给定一个特定的模型，有用性的概念是用来衡量某个特征对该模型的效果的。

特征转换
特征转换是数据前处理的操作，将一组特征转换为一组新的特征，同时尽可能多地保留原始特征的信息。新的一组特征个数通常少于原来的特征数，而且可以用原始特征的一个线性表达式表示出来。特征选择属于特征转换的一个特例，经特征选择后新的特征数变少。

为什么需要执行特征转换呢？这里以信息检索为例子。信息检索中有一类叫做Ad Hoc（即席查询），比如说百度搜索，输入“机器学习”这个词，可以得到包含这个关键词的文章。这个搜索过程比表面上所看起来要复杂，因为机器不能提前知道你想要输入的关键词是什么，也就不能提前做好一些准备工作来找出存储相关文章的最佳位置（当然，目前百度已经有非常成熟的技术来根据用户的输入快速地返回结果给用户）。我们再从特征角度来思考。将每个单词作为一个特征来思考的话，会存在“同义词”和“多义词”的问题。因为有很多单词可以表达同一个意思，例如“机器学习”和“数据挖掘”，虽然词语不一样，但有可能在讨论同一个问题；或者一个单词表达多种意思，例如“Apple”，可以是一个表达水果，也可能是一家科技公司。“同义词”可能带来“去真”，而“多义词”可能带来“纳伪”。

为了解决上面的问题，一个直观的想法是，我们可以通过组合一些“同义词”来解决“去真”，比如说，我们搜索“car”关键词，想了解一些关于汽车相关的文章，为了避免搜索到关于Lisp语言的内容，我们可以组合一些单词，例如“Automobile”、“Tesla”等。

主成分分析（PCA，Principal Component Analysis）
给定数据点，PCA将旧坐标系统通过转化和轮换的方式获得新坐标系统，其中，新坐标系统中，坐标原点处于数据中心， $x$ 轴的方向是方差最大化的方向，将 $y$ 轴移动与 $x$ 轴正交的方向。

主成分分析可以实现降维，即将较多的特征降低到较少的特征。

方差在统计学上，描述数据分布的范围，如果数据沿着某个方向的分布越分散，表示这个方向的方差越大。数据中的最大主成分方向就是方差最大的方向。这么做的原因是可以保留原始数据最大程度的信息。

image.png

人脸识别案例：https://scikit-learn.org/stable/auto_examples/applications/plot_face_recognition.html

sklearn的PCA库：https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA

独立成分分析（ICA，Independent Component Analysis）
前文所介绍的PCA是其中一种特征转换的方法，它主要研究的是特征的关联性，并通过最大化方差来得到。ICA则是最大程度地提高特征的独立性，通过将特征空间线性转换到一个新特征空间，且新特征空间的每个特征之间相互独立。

盲源分离问题（Blind Source Separation），又称鸡尾酒会问题，可以用来解释ICA。假设小明、小强、小红在一个鸡尾酒会上，他们都带着一个麦克风，每个人的麦克风会录下每个人说话的声音。最终三个麦克风都录有来自三个独立来源的声音的混合。盲源分离问题就是根据这三个混合声音样本，将每个人的声音分离出来。

每一个麦克风采样就是一个特征，这个特征由连续的时间步所录下的声音频率组成。通过将这三个特征转换为新的三个特征，其中每个特征都对应于每个人的声音，从而解决声音分离问题。

随机成分分析（RCA，Random Component Analysis）
RCA与PCA不同的是，它将旧坐标系统转换为新的坐标系统，其中新的系统的坐标轴方向是随机的。数据点投影到这个新的坐标系统，在数学上，相当于我们随机挑选了一个投影矩阵 $P$ ，然后计算 $P^Tx$

线性判别分析（LDA，Linear Discriminent Analysis）
LDA与PCA相同的是，也是基于某个线性坐标变换来将数据点投影到一个新的坐标系统，但不同的是，LDA是监督降维方法，即它会根据数据点的类别标签进行投影。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

机器学习笔记（19）：特征选择与转换

推荐阅读更多精彩内容