------从零开始学量化------
简书:量化目录传送门
知乎:量化目录传送门
1. 技术框架选择
python + mongodb(HDF5备选) + tensorflow
2. 为什么选择这一套技术框架
2.1 为什么是python
在其他领域,语言的选择可能不是一个重要的问题,但在量化方向,我相信语言的选择是一个很重要的问题,语言将直接决定你的生产率。why???
- python在数据分析、量化建模、量化回测方向,有许多优秀的开源框架,你不用自己去造这些轮子!!!
- python在数据分析、量化建模、量化回测方向,有许多优秀的开源框架,你不用自己去造这些轮子!!!
- python在数据分析、量化建模、量化回测方向,有许多优秀的开源框架,你不用自己去造这些轮子!!!
重要的事情说3遍!!!
下面我们看一下github上star数排在前列的量化开源框架,清一色的python,这最具有说服力,(列表中的统计时间为2018-06-27)。
排名 | 开源项目 | Star数量 | 开发语言 | 项目用途 |
---|---|---|---|---|
1 | zipline | 7.2k | python | 量化回测框架 |
2 | tushare | 5.9k | python | 财经数据接口包 |
3 | vn.py | 5.9k | python | 交易平台开发框架 |
4 | rqalpha | 2.7k | python | 量化交易框架 |
5 | abu | 5.3k | python | 量化交易框架 |
6 | easytrader | 2.2k | python | 交易平台开发框架 |
我曾经尝试用java去写量化,但java的量化开源框架实在太少,金融指标都要自己实现,在做量化的时候,慢慢地发现,我根本不是在做量化,而是在写框架代码。90%的时间去造轮子,只有10%时间去做量化,根本没有一点生产力。最终完全放弃java,对我3年java职业生涯说再见,一切从新开始。
2.2 为什么选择mongodb
金融数据主要有两个特点:
- 金融数据是典型的时间序列数据。数据存入数据库后就很少再需要修改了,最主要的操作是查询。
- 数据量级大,tick级的数据很容易上tb级别。
因此存储金融数据,可以选择:
- 关系型数据库(mysql, sqlserver等)
- 非关系型数据库(mongodb, redis等)
关系型数据库,我在工作中用的比较多,也很熟悉,用的最多的是mycat + mysql的组合。实际操作中,如果选用mysql,数据库engin选择myisam,存储数据采用行转列,当数据量达到亿级别,数据库性能会出现明显下降。如果采用分片分表,对于个人来说,会增加硬件成本和维护成本,得不偿失。不过关系型数据库用来记录交易流水等业务,是个不错的选择,可以很方便的使用事务。
非关系型数据库,待更新。。。。
数据库的选择,知乎上有一个问答,推荐使用hdf5,具体详情,可以查看传送门。
一次线下和雪山讨论的时候,他向我推荐了mongodb,因为mongdb在3.0版本已经支持数据压缩,所以存储tick级别的数据已经不是什么问题。他也提到可以选择hdf5,但是hdf5在并行写的时候,可能会存在性能的瓶颈。所以此处,我听从老司机的建议,优先选择mongodb。
2.3 为什么选择tensorflow
机器学习选择google的tensorflow,主要是因为:
- google的研发实力。
- 商业化的产品必然优于学院派,这是资本驱动的力量。
而框架中加入tensorflow,是因为我一直坚信,机器学习是未来的方向,现在的机器学习就像萌芽中的互联网,当他走向成熟之后,他迸发出的能量将横扫众多传统领域。
金融与机器学习的结合将是未来的趋势,而这两个领域的结合,也堪称完美。一边是金融,不会使得自己囊中羞涩。一边是机器学习,紧跟时代的步伐,走在趋势的前沿。(至于金融是如何帮助我们实现财务自由,我安利一本周金涛的涛动周期论,当我在阅读这本书的时候,我被作者的金融大局观深深折服。书中提到2019年将是85后人生中的第一次机会,2019年将是资产的低点,让我们拭目以待。)
对于计算机专业,想转量化的同学,我觉得机器学习是我们的一个突破口。因为从计算机跨领域到金融,意味着一切从零开始,在起跑线上暂时输给了职业量化者。但是机器学习的学习壁垒高,我们可以扬长避短,用机器学习作为突破口,从程序员转型成一个宽客。
3. 量化中使用的Python开源框架
- tushare
- pandas
- ta-lib
- seaborn
- zipline
- vnpy
其中:
tushare用于获取股票历史数据,在量化系统中,作为量化数据的来源。
pandas提供了大量金融数据分析的工具,在量化系统中,作为量化数据的存储结构。
ta-lib提供了金融指标的实现方法,在量化系统中,作为金融技术指标的计算库。
seaborn提供了数据可视化的接口,在量化系统中,作为量化结果的可视化展示库。
zipline提供了量化交易回测的框架,在量化系统中,作为量化回测引擎。
vnpy提供了交易和数据的接口,基本覆盖了国内外常规交易品种(证券、期货、期权、外汇、CFD),在量化系统中,作为实盘自动化交易的框架。
后面的章节,将一步一步使用以上框架,开始量化之旅。
如果你对我的文章有兴趣,可以关注一下我的简书和知乎,后期会在简书和知乎上定期更新,传送门在下方:
简书:潇潇夜雨归何处
知乎:潇潇夜雨
我相信,有趣的灵魂总会相遇!!!
你的关注,是我前进的动力!!!