【手把手教你】使用Python玩转金融时间序列模型

01 引言

上一篇推文【Python量化基础】时间序列的自相关性与平稳性着重介绍了时间序列的一些基础概念,包括自相关性、偏自相关性、白噪声和平稳性,以及Python的简单实现。本文在此基础上,以沪深300指数收益率数据为例,探讨如何使用Python对平稳时间序列进行建模和预测分析。时间序列经典模型主要有自回归模型AR,移动回归模型MA,移动自回归模型ARMA,以及差分移动自回归模型ARIMA,今天主要介绍这四种模型的基本原理以及Python的实现步骤。

为了阅读体验效果更好,请阅读公众号原文:https://mp.weixin.qq.com/s/vLuvBXpF96HzPX6mdf7x8w

02 AR模型

AR模型全称为Autoregressive Models,即自回归模型,用于刻画因变量能由它的多个滞后项表示。p阶自回归模型可以写成:

下面模拟一个AR(1)模型。

importpandasaspd

importnumpyasnp

importstatsmodels.tsa.apiassmt

#tsa为Time Series analysis缩写

importstatsmodels.apiassm

importscipy.statsasscs

fromarchimportarch_model

#画图

importmatplotlib.pyplotasplt

importmatplotlibasmpl

%matplotlib inline

#正常显示画图时出现的中文和负号

frompylabimportmpl

mpl.rcParams['font.sans-serif']=['SimHei']

mpl.rcParams['axes.unicode_minus']=False

#先定义一个画图函数,后面都会用到

defts_plot(data, lags=None,title=''):

ifnotisinstance(data, pd.Series):

data = pd.Series(data)

#matplotlib官方提供了五种不同的图形风格,

#包括bmh、ggplot、dark_background、fivethirtyeight和grayscale

withplt.style.context('ggplot'):

fig = plt.figure(figsize=(10,8))

layout = (3,2)

ts_ax = plt.subplot2grid(layout, (0,0), colspan=2)

acf_ax = plt.subplot2grid(layout, (1,0))

pacf_ax = plt.subplot2grid(layout, (1,1))

qq_ax = plt.subplot2grid(layout, (2,0))

pp_ax = plt.subplot2grid(layout, (2,1))

data.plot(ax=ts_ax)

ts_ax.set_title(title+'时序图')

smt.graphics.plot_acf(data, lags=lags, ax=acf_ax, alpha=0.5)

acf_ax.set_title('自相关系数')

smt.graphics.plot_pacf(data, lags=lags, ax=pacf_ax, alpha=0.5)

pacf_ax.set_title('偏自相关系数')

sm.qqplot(data, line='s', ax=qq_ax)

qq_ax.set_title('QQ 图')

scs.probplot(data, sparams=(data.mean(),

data.std()), plot=pp_ax)

pp_ax.set_title('PP 图')

plt.tight_layout()

return

# 模拟AR(1) 过程 

#设置随机种子(括号里数字无意义)

np.random.seed(1)

#模拟次数

n=5000

#AR模型的参数

a =0.8

#扰动项为正态分布

x = w = np.random.normal(size=n)

fortinrange(1,n):

x[t] = a*x[t-1] + w[t]

#画图

ts_plot(x, lags=30)

模拟的AR(1)模型是正态的。自相关系数图(ACF)显示滞后值之间存在显著的序列相关性,偏自相关系数图(PACF)则显示在滞后1期时截尾(迅速降为0)。下面使用statsmodels构建AR(p)模型,先用AR模型拟合上述模拟的数据,并返回估计的系数参数),然后选择最佳滞后阶数,最后与原模型设置对比看是否选择了正确的滞后项。假如AR模型是正确的,那估计的系数参数将很接近真实的系数0.8,选择的阶数也会等于1。

#估计数据的AR模型参数和滞后阶数

defsimu_ar(data,a,maxlag=30,true_order =1):

'''data:要拟合的数据;a为参数,可以为列表;maxlag:最大滞后阶数'''

# 拟合AR(p)模型

result = smt.AR(data).fit(maxlag=maxlag, ic='aic', trend='nc')

#选择滞后阶数

est_order = smt.AR(data).select_order(maxlag=maxlag,

ic='aic', trend='nc')

#参数选择标准ic : 有四个选择 {‘aic’,’bic’,’hqic’,’t-stat’}

#趋势项:trend:c是指包含常数项,nc为不含常数项

#打印结果

print(f'参数估计值:{result.params.round(2)},

估计的滞后阶数:{est_order}'

)

print(f'真实参数值:{a},真实滞后阶数{true_order}')

simu_ar(x,a=0.8)

参数估计值:[0.8],估计的滞后阶数:1

真实参数值:0.8,真实滞后阶数 1

看下如何用AR(p)模型来拟合沪深300的对数收益

# Select best lag order for hs300 returns

importtushareasts

token='输入token'

pro=ts.pro_api(token)

df=pro.index_daily(ts_code='000300.SH')

df.index=pd.to_datetime(df.trade_date)

deldf.index.name

df=df.sort_index()

df['ret']=np.log(df.close/df.close.shift(1))

max_lag =30

Y=df.ret.dropna()

ts_plot(Y,lags=max_lag,title='沪深300')

result = smt.AR(Y.values).fit(maxlag=max_lag, ic='aic', trend='nc')

est_order = smt.AR(Y.values).select_order(maxlag=max_lag,

ic='aic', trend='nc')

print(f'沪深300拟合AR模型的参数:{result.params.round(2)}')

print(f'沪深300拟合AR模型的最佳滞后阶数{est_order}')

沪深300拟合AR模型的参数:[ 0.03 -0.03  ...]

沪深300拟合AR模型的最佳滞后阶数 15

最好的阶数选择是15或者说有15个参数!任何模型有这么多参数在实际中不可能有用。显然有比这个模型更好的模型可以解释沪深300收益率走势。

03 MA模型

MA(q)模型与AR(p)模型非常相似。不同之处在于,MA(q)模型是对过去的白噪声误差项的线性组合,而不是过去观测的线性组合。MA模型的动机是我们可以直接通过拟合误差项的模型来观察误差过程中的“冲击”。在一个AR(p)模型中,通过在一系列过去的观察中使用ACF间接观察到这些冲击。MA(q)模型的公式是:

下面使用Python模拟MA(1) 过程。

#这里使用arma模型进行模拟,设定ar阶数为0,即得到ma模型

alphas = np.array([0.])

betas = np.array([0.6])

ar = np.r_[1, -alphas]

ma = np.r_[1, betas]

#模拟MA的样本数据

ma_sample = smt.arma_generate_sample(ar=ar, ma=ma, nsample=1000)

ts_plot(ma_sample, lags=30,title='MA(1)模型')

ACF函数显示滞后1阶系数显著异于0,表明MA(1)模型适合拟合的数据。

# 对上述模拟数据进行ARMA模型拟合

max_lag =30

result = smt.ARMA(ma1, order=(0,1)).fit(maxlag=max_lag,

method='mle', trend='nc')

print(result.summary())

模型估计d 滞后系数为0.6277,与真实值0.6比较接近。注意到,95%置信区间确实包含该真实值。

下面尝试用MA(3)模型去拟合沪深300股价的对数收益,但这次并不知道真实的参数值。结果显示,拟合的残差自相关系数和偏自相关系数比较符合白噪声过程,但由于存在厚尾,MA模型并不是预测沪深300未来回报的最佳模型。

max_lag =30

result=smt.ARMA(Y.values,order(0,3)).fit(maxlag=max_lag,

method='mle', trend='nc')

print(result.summary())

resid=pd.Series(result.resid,index=Y.index)

ts_plot(resid, lags=max_lag,title='沪深300指数MA拟合残差')

04 ARMA模型

ARMA模型全称为自回归移动平均模型Autoregressive Moving Average Models - ARMA(p, q),是AR(p)和MA(q)模型之间的结合,从金融的角度理解,AR和MA模型的理论意义在于:AR(p)模型试图捕捉(解释)交易市场中经常观察到的动量和均值回复效应。MA(q)模型尝试捕捉(解释)在白噪声条件下观察到的冲击效应。这些冲击效应可以被认为是影响观察过程的意外事件。ARMA模型的弱点在于忽视了大多数金融时间序列中的波动聚集效应。模型的公式可以表示为:

print(result.summary())

# 下面使用ARMA(2, 2) 模型进行模拟分析

max_lag =30

n =5000

burn = int(n/10)

alphas = np.array([0.5,-0.25])

betas = np.array([0.5,-0.3])

#注意ar模型1代表0阶(自身),然后在其他系数前加负号

ar = np.r_[1, -alphas]

ma = np.r_[1, betas]

arma22 = smt.arma_generate_sample(ar=ar, ma=ma, nsample=n, burnin=burn)

_ = ts_plot(arma22, lags=max_lag)

result = smt.ARMA(arma22, order=(2,2)).fit(maxlag=max_lag,

method='mle', trend='nc', burnin=burn)

结果显示模型估计的参数与真实参数基本上吻合。下面使用ARMA模型来拟合沪深300的收益数据。ACF和PACF没有显示出明显的自相关性。QQ和概率图显示残差大致为正态分布但厚尾。总体而言,这个模型的残差看起来不像白噪声,说明模型还是没有很好的拟合其波动性特性。

#不事先确定滞后阶数,而是通过信息准则选择最佳的滞后阶数

#先将初始值设置为无穷大

best_aic = np.inf

best_order =None

best_mdl =None

rng = range(5)

foriinrng:

forjinrng:

try:

tmp_mdl = smt.ARMA(Y.values, order=(i,j))

.fit(method='mle', trend='nc')

tmp_aic = tmp_mdl.aic

iftmp_aic < best_aic:

best_aic = tmp_aic

best_order = (i, j)

best_mdl = tmp_mdl

except:continue

print(f'最佳滞后阶数:{best_order}')

print(best_mdl.summary())

resid=pd.Series(best_mdl.resid,index=Y.index)

ts_plot(resid, lags=30,title='沪深300指数ARMA拟合残差')

最佳滞后阶数:(4, 4)

05

ARIMA模型

ARIMA模型全称是差分移动自回归模型(Autoregressive Integrated Moving Average Models),是ARMA模型的拓展。由于现实中很多时间序列不是平稳的,但可以通过差分来实现平稳,即通过一阶差分可以将非平稳机游走其转化为平稳的白噪声。由于前三个模型都有时间序列平稳的假设在,如果时间序列存在明显的上升或者下降趋势,模型预测的效果大大折扣。对于有明显下降或者上升趋势的数据集,可以使用差分的方式将其转化为平稳序列,然后使用ARMA模型进行拟合。假设模型经过d次差分通过了时间序列平稳的检验,ARMA的系数为p,q,ARIMA模型为ARIMA(p,d,q)。  

下面通过迭代(p,d,q)的不同组合,找到拟合沪深300收益率数据的最佳ARIMA模型。通过AIC信息准则来评估每个模型,最后选取AIC最小的。

#原理与拟合ARMA模型类似

best_aic = np.inf

best_order =None

best_mdl =None

#假定最多滞后4阶

pq_rng = range(5)

#假定最多差分一次

d_rng = range(2)

foriinpq_rng:

fordind_rng:

forjinpq_rng:

try:

tmp_mdl = smt.ARIMA(Y.values, order=(i,d,j))

.fit(method='mle', trend='nc')

tmp_aic = tmp_mdl.aic

iftmp_aic < best_aic:

best_aic = tmp_aic

best_order = (i, d, j)

best_mdl = tmp_mdl

except:continue

print(f'ARIMA模型最佳阶数选择:{best_order}')

# 对拟合残差进行可视化

print(best_mdl.summary())

resid=pd.Series(best_mdl.resid,index=Y.index)

_ = ts_plot(resid, lags=30,title='沪深300指数ARIMA残差')

ARIMA模型最佳阶数选择:(4, 0, 4)

最好的模型是差分为0,因为我们使用的是收益率数据,相对于已经采用了第一次对数差分来计算股票收益率。模型残差图结果与上面使用的ARMA模型基本相同。显然,ARIMA模型同样无法解释时间序列中的条件波动性。到这一步,时间序列的基本模型和建模步骤基本上大家已经熟知,下面利用模型的forecast()方法进行预测。

# 对沪深300收益率未来20天进行预测

n_steps =20

#分别设置95%和99%的置信度

f, err95, ci95 = best_mdl.forecast(steps=n_steps)

_, err99, ci99 = best_mdl.forecast(steps=n_steps, alpha=0.01)

date=(df.index[-1]).strftime('%Y%m%d')

cal=pro.trade_cal(exchange='', start_date=date)

idx = cal[cal.is_open==1][:20]['cal_date'].values

fc_95 = pd.DataFrame(np.column_stack([f, ci95]),

index=idx,columns=['forecast','lower_ci_95','upper_ci_95'])

fc_99 = pd.DataFrame(np.column_stack([ci99]),

index=idx, columns=['lower_ci_99','upper_ci_99'])

fc_all = fc_95.combine_first(fc_99)

#fc_all.head()

# 对预测的20日收益率数据进行可视化

plt.style.use('ggplot')

fig = plt.figure(figsize=(12,7))

ax = plt.gca()

ts = df['ret'][-500:].copy()

ts.plot(ax=ax, label='HS300收益率')

# 样本内预测

pred=best_mdl.predict(np.arange(len(ts)) [0], np.arange(len(ts))[-1])

pf=pd.Series(pred,index=ts.index)

pf.plot(ax=ax, style='r-', label='样本内预测')

fc_all.index=pd.to_datetime(fc_all.index)

fc_all.plot(ax=ax)

plt.fill_between(fc_all.index, fc_all.lower_ci_95,

fc_all.upper_ci_95, color='gray', alpha=0.7)

plt.fill_between(fc_all.index, fc_all.lower_ci_99,

fc_all.upper_ci_99, color='gray', alpha=0.2)

plt.title('{} 天HS300收益率预测\nARIMA{}'.format(n_steps,

best_order))

plt.legend(loc='best', fontsize=10)

plt.show()

06 结语

本文主要以沪深300指数收益率数据为例,简要介绍了时间序列四大经典模型的基本原理和Python的简单应用,不难发现,这些模型在拟合和预测沪深300指数收益率上显得力不从心。实际上,这些模型有一个潜在假设是干扰项的方差是固定不变的,但是研究者发现金融经济数据(如股票收益率)大都存在异方差现象,因此传统的时间序列模型无法获得可靠的估计结果。为了解决金融资产收益率序列波动聚集的难题,学者们提出了ARCH、GARCH以及协整模型,后续推文将会对这一方面的应用进行详细介绍。

参考资料:

1. statsmodels官方文档

2. Time Series Analysis (TSA) in Python - Linear Models to GARCH

关于Python金融量化

专注于分享Python在金融量化领域的应用。加入知识星球,可以免费获取量化投资视频资料、量化金融相关PDF资料、公众号文章Python完整源码、量化投资前沿分析框架,与博主直接交流、结识圈内朋友等。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容