如果用带正则化的逻辑斯蒂回归来做特征选择,就必须对数据做标准化操作,否则选择出来的变量会受到量纲的影响。通常会用逻辑回归所得到的系数来衡量特征对目标变量的影响,系数的绝对值越大,说明影响越大,这个特征也就越重要,但是不同的特征维度往往具有不同的量纲。假设我们有一个机器学习任务要根据一个人的的身高体重来预测他的性别,模型根据训练数据拟合出了2个参数w1和w2,身高这个数据可以用CM或者M来度量,当用CM来度量的时候,只需要将系数乘以10就可以得到用M来度量的时候的结果,这时候最终的损失并没有改变,但是如果用系数来衡量特征的大小,用CM的时候,身高所对应的权重更大,这将会对最终的特征排名产生影响。
量纲对正则化的影响
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- //我所经历的大数据平台发展史(三):互联网时代 • 上篇http://www.infoq.com/cn/arti...
- 特征选择 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们...
- 结合Scikit-learn介绍几种常用的特征选择方法 作者:Edwin Jarvis 特征选择(排序)对于数据科...
- 0 关于本文 主要内容和结构框架由@jasonfreak--使用sklearn做单机特征工程提供,其中夹杂...