从Hadoop Summit 2016看大数据行业与Hadoop的发展

前言：

好吧我承认已经有四年多没有更新博客了。。。。

在这四年中发生了很多事情，换了工作，换了工作的方向。在工作的第一年的时候接触机器学习，从那之后的一年非常狂热的学习机器学习的相关技术，也写了一些自己的理解和感悟。今天大概看了一下这个博客的总体阅读人数已经有70多万了，印象中之前还只有十多二十万。很高兴这些文章能够帮助你更好的理解一些机器学习相关的基础知识，非常感谢各位读者和爬虫机器人(:-p)的支持！

后来个人选择将工作的方向从机器学习换到了Hadoop相关领域，中间有很多感悟我想之后再单独写一写。好吧不废话了正文开始:

注：

这篇正文是我对知乎问题（https://www.zhihu.com/question/48135832, 怎么看待Hadoop Summit 2016 和 Spark summit 2016?) 的回答，发布在此博客的时候稍有修改。

正文:

上周参加了在硅谷圣何塞举行的的Hadoop Summit 2016 (Hadoop 峰会），说说自己的感受（跟我的雇主无关，仅代表个人观点）。

链接：今年Hadoop Summit的日程表：http://hadoopsummit.org/san-jose/agenda/，目前官方还没有把PPT和录像更新出来。

另外今年的Summit庆祝了Hadoop项目成立十周年。从参会人数来说，今年达到了创纪录的5000人，对比去年的4000人增长了25%，这对于一个已经十年的项目来说非常不容易。

看到的一些行业趋势：

1）Hadoop及其生态圈（包括Spark等等）在各行各业落地并且得到广泛的应用。

目前在美国，无论行业是IT，金融相关（包括银行保险)，电信，制造业，还是餐饮，百货零售都已经广泛的用上了Hadoop。看了一些有意思的演讲，比如说

Progressive（美国最大的车保公司之一）通过实时采集用户驾驶的数据（比如说加、减速行为；车辆经过的路线等等）来决定是否需要改变用户的车保价格。可以参考一篇老一点的文章：http://www.zdnet.com/article/how-auto-insurer-progressive-collected-10-billion-miles-of-driving-data-from-its-customers/

福特公司也有一个类似的演讲，通过采集汽车里面的设置的传感器，实时反馈给服务端来优化驾驶的体验。

对于这些非IT企业，利用Hadoop生态圈里面的套件能够实现超大的数据处理规模（比如说福特汽车总共产生的数据可以达到一天TB级别），实时性（信用卡反欺诈需要在秒以内返回结果），丰富的分析手段（SQL、机器学习等）。这些新的数据分析的手段能够实实在在的产生商业价值，比如说只要保险公司能够降低1%的风险，产生的利润就非常可观了。

2）物联网 (IOT) + 实时（Realtime） + 机器学习是今年最火的话题

相对于去年来说，这三个话题的曝光率大大提高。今年总共有160多场演讲，其中物联网就有近20场演讲，机器学习有10多场演讲，实时有近10场演讲。

这三个话题其实互相关联，比如说物联网通过传感器采集了N多的数据（飞机引擎能够每小时产生35TB的数据，还有比如上面提到的福特汽车），这些数据需要立刻决定保留或者丢弃，对于保留的那部分的数据也要能够很快的做出决定。实时起到了很大的作用。在这次的某一个演讲中（忘了是哪家公司了），需要采集飞机上的雷达数据来预测天气是否危险，如果不能做到实时那几乎就是草菅人命了。

对于这种大规模的数据只用传统的SQL进行数据处理是远远不够的，特别是一些非结构化的数据（比如说雷达云图）。那么很多的机器学习的方法就能够排上用场了。这三个方向一定会在未来更火的。

关于Hadoop(YARN/HDFS)项目的趋势

对于Hadoop项目本身是个人工作也是我关注得最多的方向，这里也总结一下。

继续往易用方向发展

关于易用主要是两个方面，a. 方便安装部署, b. 方便运维。对于安装部署来说这几年的一些工具已经可以把问题解决得很好了，比如说Apache Ambari。对于运维来说则在今年涌现了很多的新的亮点，比如说来自Hortonworks的Service Asembly，Service Asembly也就是服务的组合，举个例子来说一个数据服务需要安装ZooKeeper、Kafka、HBase、Spark，并且需要让他们工作在一起。传统的方式是分别部署这些项目并且手动的把他们互相配置起来。现在可以通过Docker container加上预先写好的配置文件模板让这些服务一次性的在YARN上面启动和关闭。

YARN更好的支持长时间服务(Long running service, LRS)

相对于普通的mapreduce、spark程序，长时间服务需要跑几天甚至几个月，YARN对于LRS的支持在近一年内有很大的进展。一些新完成、正在开发中的功能有类似于

DNS（每个container有自己的地址, YARN-4757)

Container自动重启(YARN-4725)

Container重复利用（allocation reuse, YARN-4726)

还有我做的/正在做的几个功能:

动态改变运行中Container的资源（Resizing running container, YARN-1197）

方便的让程序在每个节点上跑一份（Affinity/Anti-affinity, YARN-1042)

以及资源抢占的一些改进 (YARN-4108/YARN-4390)

这些功能会大大的帮助在YARN上面跑LRS。

更大更快更强

Hadoop从来没有停止过性能上的优化，今年一些相关的改进:

YARN RM Federation: 支持超大的YARN集群，据称微软已经通过这个支持了5万节点的YARN集群

下一代的YARN Timeline server (YARN-2928), 这个可以很好的把YARN集群里面的各种信息以及应用程序的信息存储、关联起来。

HDFS Tiered Storage: 更好的在HDFS中支持管理不同的文件系统（比如说内存、SSD、本地磁盘、云存储）

YARN resource overcommmitment (YARN-1011), 这个可以根据资源的实际使用情况来觉得是否可以多分配一些container来得到更好的资源利用率。

（杂）总结和建议

一些个人的建议希望对你有帮助：

如果你的公司的足够多的数据，看看能不能用Hadoop生态圈的项目（不管是Hive还是Spark）进行优化，传统行业会一个一个被大数据公司占据掉，比如说阿里占据了零售业、金融业，赶不上这趟车就晚了!

如果你是初学者并且希望学大数据相关的技术，流行的开源项目是很好的选择。如果你想学Hadoop的话记得要学新一点的版本比如说2.7.x，1.x已经淘汰了。

如果你对贡献开源项目有兴趣，可以考虑考虑YARN，里面能做的东西还很多，并且社区很友好。

标签: Hadoop

好文要顶关注我收藏该文

LeftNotEasy

关注 - 16

粉丝 - 1108

+加关注

24 0

« 上一篇：hadoop杂记-为什么会有Map-reduce v2 (Yarn)

» 下一篇：程序员的选择

posted @ 2016-07-05 07:50 LeftNotEasy 阅读(5461) 评论(12) 编辑收藏

最后编辑于：2017.12.05 01:05:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342

从Hadoop Summit 2016看大数据行业与Hadoop的发展

推荐阅读更多精彩内容