大数据是一场以数据为基础的,改造各种行业的一场革命。真正意义上的大数据要符合三种特征,大量的,多维度的(相关的数据模型),完备性。当同事满足这三种状态,通过各种设备终端大量采集的数据,构建机器学习的模型,在某个特定的领域可以实现更智能,比如翻译,adwords广告,自动驾驶(自动驾驶其实是在采集过的道路上行驶时没有问题的,但是在没有采集的路段是无法行驶的)等。
机器学习
已google搜索为例子:
- 第一:根据网页确定哪些用户在谷歌未过的复杂问题,可以回答那些回答不了,我们大约涨到了70%到80%的问题,在谷歌第一页都能找到正确答案。
- 第二,把位体和网页中的每一句话做一匹配,消除那些可能是男的片段,至于怎么调就是机器学习的东西了。
- 第三,就是利用自然语言处理技术,把答案的片段合成一个完整的段落。
在智能机器,它背后是数据中心强大的服务器集群,从数据中学习信息和知识,这次技术革命的特点是机器的智能化,我们称之为智能革命。因为有了大量的数据,机器智能就从量变到质变到学习变成了可能。
思维的革命
在无法确定因果时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性而数据之间的相关联,而数据之间的相关联性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这边是大数据思维的核心。
所谓的机械思维就是,从确定中推导一切,有一定的因果关系。正因为过去两百年之间的,牛顿、爱斯坦推等科学家了世界,时间,空间,地球运动等都是有规律的,所以人们的思维固定在,所有的事物都会有规律的,有因果关系上。牛顿通过自己伟大的成就,宣告科技科学时代的来临,作为思想家,他让人类相信,世界万物的运动规律是可以被认识的,他告诉认为世界万物是运动的,而且这些运动规律,有着确定性的规律,这些规律又是可以被认识的。
牛顿的方法论可以概括为机械思维,其核心思想可概括为以下三个方面:
- 因世界变化的规律是确定的。
- 因为有确定性做保障,因此规律不仅可以被认识,也可以通过简单的公式或者语言描述清楚
- 这些规律应该是放之四海而皆谁的,可以用到各种未知的领域做指导。
这些其实是机械思维中积极的本质。
整个历史进程起是:理论,规律,发明,实践,爆发。也提醒我们,在一个行业里面的经验规律,其实可以应用到其他行业的。
世界发展到今天,大的东西被我们发现的差不多的时候,当印因果关系不能解决,我们身边中很多其他的问题时候,对一个事物了解的越多越细致就会发现,梦想世界的变量其实非常多,不能通过简单的办法,或者公式来计算出来,人们把他们归为不确定的一类。当不确定的问题无法解决的时候大数据,大数据就提供了我们一种思路。其实想想中医以后就可以通过大数据来查找那些药品,对我们人类是一个很有益处的。中医往往可以治得了某些人病,但是某些人却吃不了,其中,肯定会有某个药物对人类卵细胞是一次有规律的,如果通过大数据到计算能力,而不是通过人来,相信中医会有一个更好的发展。
不需要知道为什么只需要知道怎么办就好。
科学方法论的思想 : 大胆假设,小心求证
。包括整个说服科学,行为科学,都是建立在大量的,实验对比,验证的,实践基础上,总结出来的规律。
香农理论(最初是用在信息类的上面,他把世界的不确定性和信息联系了起来。)
- 我们对某件事情一无所知的时候,就需要大量的信息
- 如果我们对某件事情已经有足够多的了解,那么就不需要太多的信息,我们就能把它搞清楚。
信息的度量就等于不确定性的多少,这样香浓就把熵和信息量联系了起来,要想去除系统中的不确定性,就要引入大量信息。信息论是完全建立在不确定性的基础之上。
信息时代的方法论,谁掌握了信息就谁就能获得财富。
就像在工业时代,谁掌握了资本,谁就获取了财富。
大数据的特征,量大,多维度,完备性。数据的完备性的重要,当两个数据源完全一致时。他们的交叉熵等于0,当它们相差较大时,它们的交叉熵也很大。所有采用数据驱动的方法,建立模型作用的数据和使用模型的数据之间需要一致的,否则这种方法就会失效,而交叉熵,就是对这种代表性或者一致性的一种精确的量化度量。从而避免出现黑天鹅效应(以前没有到澳大利亚之前,都是白天鹅,但是到澳大利亚之后就有了,黑天鹅,这之前的猜测都是错的)。
所以大数据源的量大其实是为了消除信息的不确定性。
从因果关系到强关联关系,从机械思维到大数据思维
比如谷歌的,adwords点击模型。搜索排序占70%到80%的权重,英关系已经变成相关联性的。所以后面的商业逻辑都是围绕了,建立获取相关性而展开。
总结:
机械思维和大数据思维并非对立的,如果我们能找到,确定性和因果关系,机械思维依然是最好的结果。如果我们想消除信息中的不确定性,数据之间的 相关性在某种特殊程度上可以取代原来的因果关系,帮助我们得到我们想要的答案,这便是大数据思维,后者更多是对前者的补充,在新的时代,一定要有新的方法论,也一定会产生新的方法论。
大数据与商业
总的思想是在新的居住环境下把那些人,过去不确定性,不好解决的,用大数据的思维解决掉。李子这里讲了一个美国偷税漏税的例子,查看用电量就可以知道,和种植毒品的例子。
巨大的商业利好相关性,时效性,个性化的重要性
商品直接盖章推介商品,推荐新闻,个性化是笑话,最重要的一个例子就是一个父亲不知道一个少女怀孕的例子。
很多产业都可以通过一个,IFID芯片,来搜集数据,从而来获得数据,改善用户体验。
穷举法依靠大量的数据,来无限逼近事实的真相,从而解决我们生活中的问题。
这里有一个谷歌汽车的例子,无人驾驶,其实整个道路都被扫描了一遍数据,其中一个例子啊,只是道路上多了一个黑色状物,谷歌汽车却不知道怎么走了,其实就是在之前的扫描数据之前没有个东西,从而不知道该如何处理。如果说是技术不达标,其实不如说是数据缺失的问题。
大数据智能革命的挑战。
从技术存储,接收,处理,时时,还有很多机器学习的算法,比如人工神经网络算法,最大熵模型,逻辑自回归。
机器学习的过程是一个不断迭代,不断进步的过程,只要事先制定出一个学习的目标,这样双方就会不断的优化模型,让它越来越接近真实的情况,可以说机器学习学的算法迭代次数越多,学习的越深入,得到数据模型就越好。
- 数据量大,采用比较简单的模型,而比较少的地段成熟,也就是说用大量的数据做一个虔诚的机器学习,
- 数据量小,就采用比较复杂的模型,而且经过很多迭代次数,训练出准确的模型参数。
未来的智能化产业
未来的农业
以色列的沙漠种植的例子,将滴水管线直接送水和肥料到植物的根系,节约了大量的水和肥料。
未来的体育业
你如果风险投资人好工程师,男队勇士队,打法,从24英尺外的,三分线投篮。通过数据分析,和统计,最有效的进攻是眼花缭乱的传球和准确的投篮,而不是彰显个人能力,勇士队队员苦练投篮神器。
未来的制造业
个人定制化,c2b的过程。把自己作为一个,利用大数据给客户提供个性化服务的定位。
未来的医疗
根据不同人的基因,不同人的身体素质,用不同的药,而且对人体进行监控,把疾病那个杀在摇篮中。
未来的媒体。
对于简单的,股票类的新闻都可以达到机器来自动编写。
智能社会
这是最好的时代,也是最好的时代,这是英国文豪狄更斯在著名的《双城记》开篇的一句话。智能革命无疑将给我们带来一个更美好的社会,它是智能的,精细化的,人性化的。同时社会资源的利用率极大提高,就要做到社会的精细化。
区块链技术
区块链是我们每一笔交易都会被追踪它无法被伪造,是一串由随机算法产生的随机数,被存储在区块中。
从标准化服务到个性化服务
最切合实际的就是用医疗资源为每个人做病人服务,一方面一个人都积累了完整的你自己健康状况相关的数据,另一方面医院有,完备的数据。
关于隐私
很多隐私其实都是我们自己泄露的,建立在,别人的善意上,根本靠不住。如果保险公司能获取到每个人都得了什么病,从而拒绝,给其提供保险,那将是很可怕的。
机器抢掉人的饭碗
从前三次的工业革命有一个共同特点,它会对社会,产生了巨大冲击,它需要经过大约半个世纪甚至更长的时间,才能背会消化掉。我们这代人要经过几个时期,婴儿需要,我们必须有快速的学习能力才能生存。
智能革命的冲击
智能革命对社会的冲击是巨大的,它会影响到上至国家,中到企业,下至个人的命运。
- 首先信息革命本身带来的影响还没有消化完。
- 其次,今天和两百年前已经不同,消化掉技术革命的影响要比工业革命来得多
- 最后也是最重要的一点,智能革命所要期待的是人类最值得自豪的部分--大脑。
到了智能革命后,任何简单的脑力工作都会消失,甚至那些现在从事所谓高大上的职业也会失去工作。
争当2%的人
在历次技术革命中,一个人,一家企业,甚至一个国家,可以选择的道路,只有两条,要么进入前2%的行列,要么被淘汰,抱怨是没有用的。
大家要接受一个新的,所谓方式,利用好大数据和机器智能,首先受益的是和那些产业相关的善于利用新技术的人。
思路例子:
在电子商品上加电商的入口功能,从而就变成了一家服务的企业(冰箱上增加购物的入口,或者在内部装一个检测器,需要什么东西)。
卖茶叶,从而记录每天进来多少人?没来过的什么茶?什么时候来?什么时候完成交易?你是否有回头客?他们是谁?如果顾客买了一次不来了?我是为什么常年客每年消费多少茶叶?男人经常消费的是哪种茶叶价位多少?店面外每天的人流情况是如何?你所要做的事,就是找到他们经常买茶叶的人,和他们建立长期的供货需求,这样就会有一个稳定的收入,而且渠道成本很低。
写在最後
在智能革命到来之际,每个人都有两种选择,要么观望徘徊,最后被淘汰,要么加入,到这2%的人,做愿意吃螃蟹的人,成为这2%的收益者。