1.概述
ARIMA模型的全称叫做自回归移动平均模型,全称是(Autoregressive Integrated Moving Average Model)。
也记作ARIMA(p,d,q),是统计模型(statistic model)中最常见的一种用来进行时间序列预测的模型。
采用ARIMA模型预测时序数据,必须是稳定的(平稳性),如果不稳定的数据,是无法捕捉到规律的。
比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。
2.平稳性
2.1概念
平稳性就是要求经由样本时间序列所得到的拟合曲线在未来一段时间内仍能顺着现有的形态惯性地延续下去。
平稳性要求序列的均值、方差和协方差不发生明显变化,通常从三个方面分析:
1)均值
均值不应该是关于时间t的函数,而应该是一个常数。
2)方差
方差不应该是时间的函数,即方差需要有:同方差性
3)协方差
i时刻与i+m时刻协方差不应该是时间的函数:
2.2平稳性检验
可以通过看图检验平稳性,也可以通过单位根(unit root)检验。单位根检验是指检验序列中是否存在单位根,因为
存在单位根就是非平稳时间序列了。单位根就是指单位根过程,可以证明,序列中存在单位根过程就不平稳,会使回
归分析中存在伪回归。而扩展迪基-福勒检验(Augmented Dickey-Fuller test可以测试一个自回归模型是否存在单位根。
通过ADF检测的ADF值和p_value值看是否满足平稳性要求。
1)ADF值判断平稳性需要根据1%、%5、%10不同程度拒绝原假设的统计值:1%:严格拒绝假设;5%:拒绝原假设;
10%类推。ADF值越小那么越拒绝原假设,越说明序列不存在单位根,那么时间序列越平稳。
2)p_value值要小于一个显著值,时间序列就是平稳的。一般以0.01为显著值。
2.3差分
当序列不平稳时可以通过差分使时间序列变平稳,如图:
很明显差分阶数越大序列越平稳,一般一阶差分即可。除了看图,也可通过ADF检验去检验平稳性。
3.ARIMA模型原理
3.1AR
描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测
自回归模型必须满足平稳性的要求
p阶自回归过程的公式定义:
yt是当前值 u是常数项 P是阶数 ri是自相关系数 et是误差
自回归模型的限制
1、自回归模型是用自身的数据进行预测
2、必须具有平稳性
3、必须具有相关性,如果自相关系数(φi)小于0.5,则不宜采用
4、自回归只适用于预测与自身前期相关的现象
3.2MA
移动平均模型关注的是自回归模型中的误差项的累加
q阶自回归过程的公式定义:
移动平均法能有效地消除预测中的随机波动
3.3ARMA
ARMA是自回归模型和移动平均模型的结合
3.4ARIMA
I是差分模型,ARIMA是经过差分后的ARMA模型,保证了数据的稳定性。
4.ARIMA模型参数
4.1参数解释
ARIMA模型含有三个参数:p,d,q。
p--代表预测模型中采用的时序数据本身的滞后数(lags) ,也叫做AR/Auto-Regressive项
d--代表时序数据需要进行几阶差分化,才是稳定的,也叫Integrated项。
q--代表预测模型中采用的预测误差的滞后数(lags),也叫做MA/Moving Average项
4.2参数d的确认
d就是差分的阶数,首先通过ADF检验,看原时间序列的平稳性,如果原时间序列是平稳的,那么d=0;
如果原数据不平稳,那么做差分,通过ADF检验直到时间序列平稳。一般差分次数不超过2次。
4.3参数p、q的确认
通常在时间序列分析中,采用自相关函数(ACF)、偏自相关函数(PACF)来判别ARMA(p,q)模型的系数和
阶数。自相关函数(ACF)描述时间序列观测值与其过去的观测值之间的线性相关性。偏自相关函数(PACF)描述在
给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性。
具体判别过程如下面的表格所示。p由显著不为0的偏自相关系数的数目决定,此时序列的偏自相关函数表现为
拖尾性,即当k>p时,偏自相关系数的值都在置信区间以内;q由显著不为0的自相关系数的数目决定,此时序列的
自相关函数表现为截尾性,即当k>p时,自相关系数的值都在置信区间内。这里的拖尾是指以指数率单调或振荡衰
减,截尾是指从某个开始非常小(不显著非零)。在平稳时间序列中,应用自相关函数和偏自相关函数在初步判断
ARMA模型的阶数p和q的基础上,然后通过最小信息准则AIC进行定阶。ARMA模型中p和q的的最佳估计可以通过
AIC准则给出,AIC比较适合在被观察样本数据较少的情况下使用。
下图是一个均值为0的时间序列
做出上面时间序列的ACF和PACF,图中横线为0±两倍标准差,可以判断ACF和PACF是否显著非零。
可以看出ACF呈拖尾状,PACF第2个后截尾,可初步断定序列适合AR(2)模型。