为什么软件工程师都应该懂大数据技术?
软件编程技术出现已经半个多世纪了,核心价值就是把现实世界的业务操作搬到计算机上,通过计算机软件和网络进行业务和数据处理。
人类拥有了更为高效的存储,更快速的信息传递网络和计算设备。
举例说明一下
让你一个月在家里呆着不出门,然后可以衣食无忧。
吃喝:美团,饿了吗,京东到家,跑腿
玩乐:游戏,抖音,奈非,直播
人们与现实世界的连接会越来越少。
大数据技术和机器学习技术,也就是后来我们都耳熟能详的人工智能 AI 技术。
Google的AlphaGo,大数据 + 机器学习
他们并不管工程师叫工程师,而是叫“僧侣”;也不管核电站叫核电站,而是叫“圣殿”;维修也不是叫维修,而是叫“祈祷”。
用阿西莫夫的《基地》中的情节来得出“你看,科学和宗教并不是互斥的,科学也可以成为宗教,当人们面对自己不懂的东西的时候,会倾向于用宗教的原理去解释。”有点不合适,《基地》中的情节是想象出来的,不是事实。
必须能够发掘出用户自己都没有发现的需求,必须洞悉用户自己都不了解的自己。
数据会越来越成为公司的核心资产和主要竞争力,公司的业务展开和产品进化也越来越朝着如何利用好数据价值的方向发展。
同理,数据会成为每个人的核心竞争力。处理数据,并得出有价值的结论会让你的过去的积累更为值钱。
如果未来是面向AI编程的,希望软件工程师不要把AI 当做什么万能的东西。
大数据技术发展史:大数据的前世今生
今天我们常说的大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。
GFS
https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/gfs-sosp2003.pdf
MapReduce
MapReduce: Simplified Data Processing on Large Clusters – Google AI
BigTable
Bigtable: A Distributed Storage System for Structured Data – Google AI
我们所开发的软件价值点在哪里?
阿里巴巴的TFS
https://github.com/alibaba/tfs
大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用 Hive、Spark SQL 等 SQL 引擎完成;数据挖掘与机器学习则有专门的机器学习框架 TensorFlow、Mahout 以及 MLlib 等,内置了主要的机器学习和数据挖掘算法。
思考题
你从大数据生态的发展史中,能得出什么样的结论?又有怎样的思考?
欢迎你写下自己的思考或疑问,与我和其他同学一起讨论。
大数据生态的发展史?
这让我想到陶器和瓷器的发展
瓷器没有出来之前,人们都是试用陶器作为盛器,陶器制作过程比较简单,将黏土,陶器是黏土在温度下烧制而成,在没有发现高岭土和炉温达到1200度之前,一直是使用的是陶器。
在未来处理数据的速度就像炉温,每当处理速度上升了一个新的量级,就会产生完全不同的东西出来。
互联网运营数据指标与可视化监控
数据驱动运营
大数据包括的内容
技术和工具
熟悉Hadoop、Hbase、 Kudu、Hive、 Spark、
MapReduce、Kafka、 Storm、 Flink或Jstorm、
ETL等相关技术或者工具至少3个以上精通Java、Python, 了 解数据挖掘、机器学
习、并行计算相关理论模型构建
熟悉数据库原理,对数据处理和数据质量有较深
认识,有NoSQL数据库数据处理和数据处理性能
优化经验;