文/泰阁志
【作者曰:两周前的新生大学《我眼中的大数据》分享会后有个答疑环节,现将其中具有代表性的问题和个人回答重新编辑后集结成篇,合为此文。写给对通往大数据路上的人们,也包括我自己。】
1. 前端工程师想往大数据方向转型,有什么建议吗?
程序员往大数据方向转型的最大优势就是自带的程序开发能力,但转型时需要学习的技能则由具体的工作角色决定:
数据工程师:
需要补Hadoop/Hive/Spark/Java/C++等技能数据分析师:
业务知识 + 数据库(如Sql/NoSql)+ 脚本编程(如Python/R/Bash shell)+ 常用工具(如Excel/SAS/Tableau)数据挖掘师:
除了业务知识和数据库外,首先要补数理统计等相关数学知识;此外要熟悉和能用实现常用数据挖掘算法,能使用流行语言算法包,如Python的SciKit-learn/C++的MeTA数据产品经理:
了解以上三个领域且必须擅长数据分析,同时还须具备产品经理的基本技能(如精通业务/原型设计/需求文档等)
** 2.** 数据分析有什么书籍推荐吗?
数据分析的书籍实在太多,泛泛推荐没有意义,从入门角度而言如下教程可以考虑:
谁说菜鸟不会数据分析(工具篇):
https://book.douban.com/subject/24715620/深入浅出数据分析:
https://book.douban.com/subject/5257905/
在如下帖子里也有相关内容:
https://zhuanlan.zhihu.com/p/22001341?refer=tigerchi
3. 电网/自动化工厂/建筑设计/美容美发软件行业怎么用大数据?
所有这些行业要用大数据的前提是先得有数据,我们国家的传统行业之前非常缺乏“数据意识”,现在刚刚苏醒,所以各行各业在试图数据化时碰到的最大问题是数据沉淀不足和“数据孤岛”现象严重。
如何沉淀数据呢?大致来说,在你的行业里面,将每个产品/服务/流程/环节/结果分解到可以量化的指标,为他们量身定做地设计一个报表体系,同时需要建立对应的数据仓库来存储。
首先得有数据,其次得有完整的数据。
有了之后,就可以利用现有的数据分析方法论、工具及算法了。此时谈大数据分析/大数据驱动,乃至商业智能(BI)才比较现实。
这套数据驱动方法其实很简单,只有如下三个步骤,它们环环相扣,不断循环迭代:
- 第一步:数据沉淀
- 第二步:数据分析
- 第三步:依据分析的商业决策
4. 大数据的未来会是怎样的,我们是不是都在“裸奔”了?
这个问题反映了人类对大数据技术的恐惧。
实际上,哪怕是大数据时代还没到来前的早期互联网时代,我们都已经在“裸奔”了。对于那些顶级个人黑客或黑客组织来说,但凡是联上互联网的电脑/网站/数据库,他们都能有办法去侵入和取得数据。
至于这些数据(个人隐私和商业机密)的用途,就看这帮黑客的操守如何了。
对于大多数人,我们只能力所能及地保护好自己,首先要建立起数据隐私和个人数据资产重要性的意识。
5. 对于非专业人员,如何能将大数据运用在自己的工作和生活中?是否必须用太专业的工具?
这个其实是数据分析的方法论,基本的数据分析人人都能掌握,并不要高深的专业知识和技能。实际上,新生大学的许多社群成员都在践行这一点。他们用各种工具去个人的时间管理或理财,也不需要太专业的。这个层面的数据管理和分析,Excel都有点牛刀小试了,理财App如Wally,时间管理App如aTimeLogger。
6. 日后的人工智能会让 “基层”程序员下岗吗?比如说,机器写代码。
人工智能(AI)确实在日常生活中有越来越多的应用,今年早些时候,韩国的殿堂级棋手李世石都被AlphaGo干翻了。所以,基层程序员下岗的可能性不能排除。
从更高的层面来看,这是人类工业革命的另一次浪潮,只不过,这次革命的武器是大数据。
在人工智能的冲击下,人类在基础的机械记忆、流程化这些肯定不是对手,因此各行各业最简单机械的那些职能肯定要被替代掉。
但也没什么好怕的,上帝关上一扇门,肯定会给你打开一扇窗子。对此,我们可以发挥和进一步提升人类所擅长的且机器和代码在一定时间周期内无法赶超的能力,如情感、艺术、抽象思维等。
7. 数据分析软件具体有哪些?可以推荐两款吗?
数据分析软件一般都是对应不同的细分领域,各有所长,无法泛泛推荐。如果说常见的数据分析或统计分析软件,如下几个可供参考:
Excel/Matlab/Mathematica/SAS/SPSS
在帖子 https://zhuanlan.zhihu.com/p/22001341?refer=tigerchi 里也有对应的总结。
8. 如何将大数据应用在医疗保险领域?
已经有不少公司在做这方面的探索或应用了,这个方向可能美国比较领先。
如Dignity Health在致力于开发基于云的大数据平台,从而实现如预防性疾病管理、预测特定疾病风险、改善医药成本和产出。
又如United Healthcare使用医疗大数据(如:成员信息、索赔、医院、医疗提供方、临床等)去改善临床医疗、监控保险欺诈和滥用等。
9. 数据分析这个职位的前景怎么样?
个人觉得未来10-20年内都会长盛不衰,因为我们进入了数据爆炸的时代,所有的东西都将是量化的,否则无法提炼和分析其价值,因而高级数据分析的职能不可或缺。
10. 大数据不能做什么?
大数据更多是给你一种宏观的、趋势性的、概率层面的判断和分析,相对而言,目前还不擅长对个体行为作出特别精准的预判。
11. 国内做专门做大数据的服务性公司多吗?好像只是大公司在用大数据。
不完全是这样的,只能说巨头在这个方向比较有优势罢了。除了那些巨头,也有很多公司致力于大数据服务,但他们大多针对企业推出大数据解决方案和服务,很少直接为个人服务。目前国内的个人消费者尚未形成为数据买单的消费习惯,同时使用场景和诉求也相对缺少。为避嫌,这里不列出相关公司名单,有兴趣请自行Google。
12. 大数据是不是更强调的是数据的收集和处理,在数据处理完成后建模、可视化其实只是数据分析的过程了吧?
个人理解不完全是这样。只要处理数据的数量级够大,对应的建模、挖掘、可视化等操作都要纳入大数据的范畴。
13. 给大家推荐本书吧,讲大数据和智能革命的。
如果一定要推荐,KK的《失控》虽然只字未提大数据,但其中的思想精髓早已覆盖了大数据和人工智能的范畴。国内大数据的原创科普书籍精品貌似不多,涂子培所著《数据之巅》反响似乎不错。
14. 文科生可以学习大数据嘛?
当然可以,人人都能用数据。
大数据本身就是比较跨界的领域,之前提到的数据可视化里,就有很多感性的思维存在,并不都是理性和逻辑,如果你的专业是心理学,在数据可视化方向会有加分。
即便是逻辑类的知识技能,如Python等脚本语言,其学习门槛都很平易近人。
基本上,学习数据分析这件事仅仅取决于你入门的决心和驱动力;至于能学到什么程度,只能说因人而异。
15. 大数据可以预测股市涨跌吗?
国外金融市场这方面的例子不少。像华尔街那帮高频交易程序员和量化分析师们天天都在做各种不同的大数据模型和算法去预测股市行情,然后做交易。举例如下:
基金公司Derwent Capital Markets在2012年通过分析Twitter上几亿条用户的推文去将用户情绪提炼出一套金融规则,以此为据预测股市行情。当用户冷静时,道琼斯工业指数呈现上扬趋势,而当用户情绪激动时,股指下跌明显。
16. 数据的一体化流程,包括收集、处理、建模和可视化,是不是都要学会?
这倒不见得。能做全栈数据大神当然很爽,但哪怕精通某一个环节也足以让你人见人爱了。开始入门的时候不要想太多,贪多嚼不烂,Excel也好、Python也好,找些资料和例子用起来最重要,抱着玩的态度上手,而不是一开始就给自己很大的压力。
17. 您觉得大数据时代真正意义上到来还有多少时间?
未来已来,我们早就进入了大数据时代,现在可能还是人工智能的早期阶段吧。建议每个人都早点从心态和行动上准备起来,一起迎接这个伟大的数据时代。
18. 简单谈谈大数据和人工智能之间的关系吧?
大数据和人工智能其实是一体两面。
人工智能不是很新的事物,半个多世纪前就有了,计算机之父图灵就早已研究了这个问题,可以说,人工智能是伴随着计算机而生的,计算机诞生的意义之一也就是为了应对人工智能是否可以实现的挑战。
而大数据的如火如荼是因为我们碰到了这个海量数据井喷的时代。1997年IBM的超级计算机深蓝击败了国际象棋冠军,就就是人工智能,但它当时的性能还无法解决围棋的复杂度问题。
现在大家所熟知的这些数据挖掘和机器学习算法,很多在几十年前就已经提出来了,比如人工神经网络。只不过巧妇难为无米之炊,当时没有现在的移动互联网所带来的海量数据给这些模型和算法做训练。如今像Google这样的互联网巨头每时每刻产生的海量数据给这些模型的提供了优良的训练环境,在大规模的样本训练中逼近它们的性能极限。
可以说,海量数据的存在(巨大的训练样本)大大优化了人工智能的性能,人工智能的发展又反过来提升了大数据的价值,两者相辅相成,一体两面。
19. 在大量数据被BAT和Google等公司垄断的情况下,对于一个细分行业的数据,采集数据有没有合适的方法论?
这个视行业而定。具体到不同行业而言,采集数据的方法不一而足,对于互联网行业,爬虫是采集大数据的有力武器。再者,也并不是所有的数据都掌握在线上的互联网巨头手里,这也是一个物联网时代,海量的传感器们每时每刻在都在采集、存储、上传甚至处理着大数据。
20. 国内互联网公司对隐私的重视程度如何?
这个问题其实不能局限到某个行业层面。中国的公司目前普遍对用户的人身隐私的重视程度不够,一般而言欧美在个人数据和隐私的保护机制更加健全,有很多相关的立法。
个人数据既是隐私也是资产,希望大家尽早建立这样的意识,保护个人数据,尊重他人隐私和数据资产。
21. 大公司数据分析的核心技术是不是算法?
我理解的核心技术是指核心竞争力,它包括算法,但不限于算法。首先,获得海量数据和用户本身就是巨大的壁垒;其次,底层的数据仓库和基础架构也是很重要的技术,如阿里云和OceanBase(分布式数据库)同样是阿里在大数据方向的核心竞争力。
22. 云计算和大数据这两个概念的区别在哪?
简单来说,云计算是硬件资源的虚拟化,而大数据则是海量数据的高效处理。从产业链关系来看,云计算作为计算资源的底层,支撑着顶层的大数据处理。大数据离不开云计算,但两者的着眼点和应用不太一样。
题图作者:William Stitt
图片授权基于:CC0协议