作者,浪荡游侠,哆嗒数学网群友。
前面对基础统计学的讨论比较简单,看官可能已经昏昏欲睡了,那么现在就来点有难度的。尽管在我看来“大数据时代”与“互联网时代”是两个不相同的概念,但是大数据并非炒作。所谓的大数据并不仅仅是数据量的增多,更是体现在数据的维数增大,数据的复杂度增高。所谓的统计不再是求个均值,而是利用一切数据的关联,从微弱的信号中提取信息。
1、大数据与统计模型
大数据是还海量信息与噪声的混杂。噪声与信息本是同根生,只不过信息具有一定的模式。信息的模式至关重要。当金子混在沙子里时,你可以将其分离,但沙子混在沙子里,就不可能分离了。模式便是区别沙子和金子的试金石,它决定着信息与噪声能否分离,用何种方式分离,能分离到什么程度。这种模式往往是从信息的物理规律推出,或者脑洞大开猜出。一些常见的模式我们将在下一节中进行总结。但是不论如何,你必须要对这种模式有信仰。比如你认为股市好和星座运势有关,从数学上来讲,这并没有什么问题,这也是为什么统计学用到如此之多的数学方法,却永远成为不了一门严谨的科学。
在很多问题中,我们希望从相关数据得到某方面的信息。在数学上,最理想的就是求条件期望(可以证明条件期望在最小均方误差原则下总是最优的)。但是条件期望在绝大多数情况下并不能求得,因为我们不知道这些数据内部的机制到底是什么样的。我们只能猜测这些机制具有什么特性。可如果我们猜得太多就和主观臆断没有什么区别了。所以我们往往退而求其次,假定一些可能模式,然后统计推断出一个大致结果。
2、机器学习的启发
对于大数据的绝大多数问题,如商品推荐、金融预测、基因定位、信号处理,我们所面临的维数都是巨大的,而且数据的形式记为复杂,事实上,我们是在一个极大的向量空间乃至函数空间寻找一个真值。在如此大的空间内,即使大如大数据的数据量也显得捉襟见肘。这时聪明人会选择“尽力”而非“尽善尽美”。
为了阐述下面的统计哲学,我们先来看一下误差的构成:
总误差=模型内部误差+模型逼近现实误差
对于模型内部误差,往往可以通过数学的方法精确分析并优化,但是模型能从多大程度上逼近现实就难说了。所谓的模型就是我们不知道现实而“猜”出来的,我们不但无法减小其误差,甚至量化分析也做不到。对于线性回归,就是人们干脆放弃治疗,索性不去管逼近误差。可不得不说傻人有傻福,这个方法在多数情况下还挺管用。然而有一点是可以肯定的,模型越复杂越能更好地逼近现实。可是,如果我们构造一个非常非常复杂的模型,那么需要估计的参数空间又变得非常大。对于数据量一定的情况下,我们不能盲目地扩张模型,如果消耗数据的幅度大于模型逼近现实的幅度,这个扩张就是失败的。
我们要找到恰如其分的模式来构建模型,使模型既能很好地逼近现实又不至于令参数空间过于庞大。这句话说起来容易做起来可就难了。机器学习为我们提供了一条新思路。计算机界的高富帅基佬们可不关心理论性质,他们处理这类问题一般将模型放得很复杂,然后通过极富启发式的方法来进行估计。他们的出发点并非假设,而是根据主观经验直接构造算法。这类算法有一定的适用空间,他们不知道空间具体是什么,但是经验使得他们对这些空间的某些性质有了模糊的把握,所以这类方法往往能在现实中取得较好的效果。于是在借鉴他们算法的同时,也需要一批统计学者来给他们擦屁股,将算法适用空间中隐藏的模式明确出来。
3、估计的界限——知止不殆
从大数据中提取信息的基础是我们相信数据中或多或少含有某类信息,尽管不多,但当我们把它们聚集起来时,还是足以给我们一定的启发。这么想其实是非常有道理的,毕竟狗屎里也有少量的金原子。但是如果你想要从狗屎里炼金,那么只能说你too young, too simple, sometimes naive.
数据中含有的信息量是有限的。我曾见过很多人利用过往的金融数据企图准确预测下一天的价格。他们或摆弄不同模型,或尝试不同算法,偶尔能蒙中一两次,但最终一败涂地。诚然,如果你告诉我所有信息,大致公司财务,小至每个投资者的心情,准确预测股市不是不可能。但是仅仅利用过往交易数据,那么预测准确度至多只能达到差强人意的地步。人们的交易习惯是含有一定规律的,这是人性使然,但是第二天价格的大多数信息绝不包含在过往数据中。金融定价中多采取“鞅”模型,在该模型下不可能通过建立在过往数据上的策略赚钱(Martingale Representation Theorem)。鞅模型取得巨大成功本身就说明过往数据中并不含有很多信息。当然,通过高频交易还是能使得这些微量信息起到一些作用。
言归正传,在我们进行统计推断时,我们要清楚统计推断的界限。当无法改进结果时,我们就不必浪费精力在上面了。在统计学内部也有一整套框架来刻画这个界限,最著名的属Minimax理论(统计决策)和复杂度理论(machine learning)。老子云,知止不殆,当达到山的顶峰时,再爬就是往下了。正如某位大牛经常说的一样:不是我的方法不好,是这个问题太难。