统计,以信仰之名:(四)高维统计之殇

统计,以信仰之名:(四)高维统计之殇

作者,浪荡游侠,哆嗒数学网群友。

前面对基础统计学的讨论比较简单,看官可能已经昏昏欲睡了,那么现在就来点有难度的。尽管在我看来“大数据时代”与“互联网时代”是两个不相同的概念,但是大数据并非炒作。所谓的大数据并不仅仅是数据量的增多,更是体现在数据的维数增大,数据的复杂度增高。所谓的统计不再是求个均值,而是利用一切数据的关联,从微弱的信号中提取信息。

1、大数据与统计模型

大数据是还海量信息与噪声的混杂。噪声与信息本是同根生,只不过信息具有一定的模式。信息的模式至关重要。当金子混在沙子里时,你可以将其分离,但沙子混在沙子里,就不可能分离了。模式便是区别沙子和金子的试金石,它决定着信息与噪声能否分离,用何种方式分离,能分离到什么程度。这种模式往往是从信息的物理规律推出,或者脑洞大开猜出。一些常见的模式我们将在下一节中进行总结。但是不论如何,你必须要对这种模式有信仰。比如你认为股市好和星座运势有关,从数学上来讲,这并没有什么问题,这也是为什么统计学用到如此之多的数学方法,却永远成为不了一门严谨的科学。

在很多问题中,我们希望从相关数据得到某方面的信息。在数学上,最理想的就是求条件期望(可以证明条件期望在最小均方误差原则下总是最优的)。但是条件期望在绝大多数情况下并不能求得,因为我们不知道这些数据内部的机制到底是什么样的。我们只能猜测这些机制具有什么特性。可如果我们猜得太多就和主观臆断没有什么区别了。所以我们往往退而求其次,假定一些可能模式,然后统计推断出一个大致结果。

2、机器学习的启发

对于大数据的绝大多数问题,如商品推荐、金融预测、基因定位、信号处理,我们所面临的维数都是巨大的,而且数据的形式记为复杂,事实上,我们是在一个极大的向量空间乃至函数空间寻找一个真值。在如此大的空间内,即使大如大数据的数据量也显得捉襟见肘。这时聪明人会选择“尽力”而非“尽善尽美”。

为了阐述下面的统计哲学,我们先来看一下误差的构成:

总误差=模型内部误差+模型逼近现实误差

对于模型内部误差,往往可以通过数学的方法精确分析并优化,但是模型能从多大程度上逼近现实就难说了。所谓的模型就是我们不知道现实而“猜”出来的,我们不但无法减小其误差,甚至量化分析也做不到。对于线性回归,就是人们干脆放弃治疗,索性不去管逼近误差。可不得不说傻人有傻福,这个方法在多数情况下还挺管用。然而有一点是可以肯定的,模型越复杂越能更好地逼近现实。可是,如果我们构造一个非常非常复杂的模型,那么需要估计的参数空间又变得非常大。对于数据量一定的情况下,我们不能盲目地扩张模型,如果消耗数据的幅度大于模型逼近现实的幅度,这个扩张就是失败的。

我们要找到恰如其分的模式来构建模型,使模型既能很好地逼近现实又不至于令参数空间过于庞大。这句话说起来容易做起来可就难了。机器学习为我们提供了一条新思路。计算机界的高富帅基佬们可不关心理论性质,他们处理这类问题一般将模型放得很复杂,然后通过极富启发式的方法来进行估计。他们的出发点并非假设,而是根据主观经验直接构造算法。这类算法有一定的适用空间,他们不知道空间具体是什么,但是经验使得他们对这些空间的某些性质有了模糊的把握,所以这类方法往往能在现实中取得较好的效果。于是在借鉴他们算法的同时,也需要一批统计学者来给他们擦屁股,将算法适用空间中隐藏的模式明确出来。

3、估计的界限——知止不殆

从大数据中提取信息的基础是我们相信数据中或多或少含有某类信息,尽管不多,但当我们把它们聚集起来时,还是足以给我们一定的启发。这么想其实是非常有道理的,毕竟狗屎里也有少量的金原子。但是如果你想要从狗屎里炼金,那么只能说你too young, too simple, sometimes naive.

数据中含有的信息量是有限的。我曾见过很多人利用过往的金融数据企图准确预测下一天的价格。他们或摆弄不同模型,或尝试不同算法,偶尔能蒙中一两次,但最终一败涂地。诚然,如果你告诉我所有信息,大致公司财务,小至每个投资者的心情,准确预测股市不是不可能。但是仅仅利用过往交易数据,那么预测准确度至多只能达到差强人意的地步。人们的交易习惯是含有一定规律的,这是人性使然,但是第二天价格的大多数信息绝不包含在过往数据中。金融定价中多采取“鞅”模型,在该模型下不可能通过建立在过往数据上的策略赚钱(Martingale Representation Theorem)。鞅模型取得巨大成功本身就说明过往数据中并不含有很多信息。当然,通过高频交易还是能使得这些微量信息起到一些作用。

言归正传,在我们进行统计推断时,我们要清楚统计推断的界限。当无法改进结果时,我们就不必浪费精力在上面了。在统计学内部也有一整套框架来刻画这个界限,最著名的属Minimax理论(统计决策)和复杂度理论(machine learning)。老子云,知止不殆,当达到山的顶峰时,再爬就是往下了。正如某位大牛经常说的一样:不是我的方法不好,是这个问题太难。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容