大数据:“人工特征工程+线性模型”的尽头 | 36大数据
http://www.36dsj.com/archives/15621
由此可以看出,特征工程建立在不断的深入理解问题和获取额外的数据源上。但问题是,通常根据数据人能抽象出来的特征总类很有限。例如,广告点击预测,这个被广告投放公司做得最透彻的问题,目前能抽象出来的特征完全可以写在一张幻灯片里。好理解的、方便拿来用的、干净的数据源也不会很多,对于广告无外乎是广告本身信息(标题、正文、样式),广告主信息(行业、地理位置、声望),和用户信息(性别、年龄、收入等个人信息,cookie、session等点击信息)。KDDCUP2013腾讯提供了广告点击预测的数据,就包含了其中很多。所以最终能得到的特征类数上限也就是数百。另外一个例子是,google使用的数据集里每个样本含有的特征数平均不超过100,可以推断他们的特征类数最多也只是数百。
三种技术的融合 - taowen - SegmentFault
https://segmentfault.com/a/1190000002967413
融合
这三个技术各自有独自看重的内在实现方式
- 搜索引擎:重点是inverted index,索引的压缩存储和高效检索
- 分析数据库:重点是column oriented storage,利用列式存储快速地在查询时暴力扫描
- 分布式计算引擎:从一开始就是map reduce,关注的是分区和分布式执行
实际上三家是从不同的角度切入了同一个问题。不过这已经不是一招鲜的时代了。一个好的搜索引擎需要inverted index/column oriented storage/map reduce,三者都要。一个好的OLAP也是inverted index/column oriented storage/map reduce三个都要的。
广告点击率预测 [离线部分] - quweiprotoss的日志 - 网易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral
有时候和别人交流的时候说LR模型是线性模型,别人很疑惑的说sigmoid函数明显不是线性函数呀?我给一下图就明白了,图中的decision boundary是一条直线。为什么是直线?因为weight向量和特征向量x线性关系。
广告点击率预测 [离线部分] - quweiprotoss的日志 - 网易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral
Norm和Binarize是对数据进行一定的变换,这是由我们将要使用的Logistic Regression算法决定的,其实很多算法都逃不了这两步的,所以不用担心会做无用功。
广告点击率预测 [离线部分] - quweiprotoss的日志 - 网易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral
Andrew Ng(吴恩达)
说过:你应该最短的时候,比如一天的时候,完全一个粗糙的版本,看它有什么问题,再去解决。不要担心太粗糙太快速。
广告的本质只是在变现流量 - 今日头条(TouTiao.org)
http://www.toutiao.com/i6312222135427269121/
本文为IT桔子·阿里云系列沙龙第1期:多屏数据时代,数字营销的现状及发展趋势主题沙龙中,TUNA创始人徐慎的现场分享内容,略有删减。
HBase高性能复杂条件查询引擎 - 远方的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/u014774781/article/details/52397120
——索引的实质是另一种编排形式的数据冗余,高效的检索源自于面向查询特别设计的编排形式,如果再辅以分布式的计算框架,就可以支撑起高性能的大数据查询。