以多因子选股模型为例,先介绍峰度系数和偏度系数的含义。
峰度(Kurtosis)是衡量离群数据离群度的指标,与随机分布的四阶中心距对应,是数据序列的四阶中心距与标准差的四次幂之比。正态分布的峰度值为 3 ,称作常峰态,对应 I (beta=0);峰度值大于 3 被称作尖峰态,对应 II (beta>0);峰度值小于 3 被称作低峰态,对应 III (beta<0)。峰度系数越大,数据越集中。
一般来说,不希望峰度过大或过小,主要考虑因子的区分度和稳定性。峰度过大,观察值很集中,尾部短且薄,两端股票波动大,不稳定;峰度过小,类似均匀分布,缺少区分度。
偏度(skewness)是衡量数据偏斜方向和程度的度量,即非对称程度,是三阶中心距与标准差的三次幂之比。偏度为 0 时,概率密度函数左右对称;偏度为正,对应分布正偏/左偏;偏度为负,对应分布负偏/右偏。偏度系数的绝对值越大,数据偏离度越大,中位数和平均值显著偏离。
可以借助偏度去理解一个因子的一些特性。比如新闻类的情绪因子,可能会发现该类因子会往正向偏离,它隐含的信息是,新闻的主要作用是传播正能量。理解好因子的特性后,在相应地构建投资信号的时候,也需要做适当的调整,比如给正负向权重配比的时候就不适合等权分配。
目前用到的 -skew+反转因子 构建量价数据alpha的方法除了可以通过非线性的手段显著降低alpha的correlation,其背后应该还有深层次的内在逻辑。
参考
《金融工程主题报告:偏度和峰度对未来收益率的预测性》—安信证券