1. 什么是互信息,互信息vs相关性的关系
吴军老师讲的概念本身不难,信息之间是有相关性的,互信息是度量相关性的尺子。简单的理解,互信息越高,相关性也越高。
相关系数 vs 互信息:
- 线性相关系数,从统计学出发度量信息A、B的关系,范围在-1到1,即有正相关和负相关。0表示相关
- 互信息,从联合概率的角度计算,可以理解为A出现的时候B出现的概率,概率范围是从0到1,即完全不确定到完全确定
2. 稳定的强相关性才值得关注
大数据的维度非常多,例如个人信息包括:籍贯、学历、工作、房产、收入、身高、体重等等,分别计算这些数据与财富水平的互信息。显然学历和收入会是强相关,但体重数据和财富水平的互信息也不会是0,例如0.1,这样的相关性我们要不要关注呢?通过体重判断一个人的财富显然是不合理的。
数据和指标都不缺,值得关注的是强相关性,而且要稳定。一些时灵时不灵的指标,实际上是噪音,信贷机构的风控模型需要定时更新,因为指标的有效性会改变。例如,淘宝按一个人支付的频率判断是不是刷单,商家发现这样的规则之后,可能找更多的人分布刷单,那么原来的指标就不灵了。
3. 利用互信息,就是寻找代理变量
互信息的利用,就是要用容易获取的数据,推断难以观测的数据。用廉价的数据作为代理变量,推断更有价值的信息。
例如,宏观经济的走势对于资产配置很重要,但难以直接获取,香帅老师提出用社融、PPI、固定投资等公开数据来推断宏观走势。更进一步,等到央行数据公开,信息就会反映在价格中,所以很多金融机构会用其他信息(房产交易量、汽车销售量)等信息去推断社融的增速,因此往往在官方数据公布之前,市场价格就会发生变化。
总结:寻找强相关性,挖掘代理变量,利用信息获利。