1. 说明
股票数据无需每次都从网上下载,像日线级别的历史数据会常常用到,使用多线程下载一般也需要几个小时,最好存储到本地,除了已有的特征值,还有清洗后的数据,和计算出的新特征值,以及需要与其它程序共享数据。相对于数据文件,使用数据库更合适。
本文介绍pandas(数据结构支持)通过sqlalchemy与数据库连接,存储tushare下载的日线数据,用一套代码操作不同数据库(Mysql/sqlite)。
2. 安装数据库
1) Sqlalchemy工具
$ pip install sqlalchemy
2) Mysql数据库
$ sudo apt-get install mysql-server
$ sudo apt-get install mysql-client
$ mysql -u root –p
mysql> create database stock # 建立名为stock的数据库,之后程序中会用到
mysql> show databases; # 显示已有的数据库
3) Sqlite数据库
$ sudo apt install sqlite3
$ sqlite stock.db # stock.db是数据库文件,将在运行示例程序时生成
sqlite > .tables # 查看数据表
sqlite > select * from s002230; # 遍历表s002230中的数据
(也可使用图形界面工具sqliteman查看数据库)
3. 程序
# -*- coding: utf-8 -*-
import tushare as ts
from sqlalchemy import create_engine
import pandas as pd
#ADDR = 'mysql://root:1234@localhost:3306/stock?charset=utf8' # 使用mysql,用户名root,密码1234,库名为stock,端口3306为mysql默认端口
ADDR = 'sqlite:///stock.db' # 使用sqlite,当前目录的stock.db作为数据库文件
engine = create_engine(ADDR)
stocklist = ['002230','601318']
def save(code):
print "save code:",code
try:
df = ts.get_h_data(code, start='1990-01-01', retry_count = 5)
df = df.sort_index(ascending=True)
name = 's'+code
df.to_sql(name, engine, if_exists='fail')
except:
print code, " save failed"
for i in range(0, len(stocklist)):
save(stocklist[i])
4. 其它
1) 运行SQL语句
sqlalchemy也支持直接运行SQL语句,形如:
result = engine.execute(‘select * from stock’)
使用sqlalchemy后,除了方便与pandas中的数据对接以外,也基本屏蔽了不同数据库之间的差异,换库时无需大量调整代码,十分方便。
2) 多线程下载
历史日线数据量较大,可使用python中的multiprocessing.dummy.Pool多线程下载。
3) 从数据库中读出数据
和to_sql相对的是read_sql,它可以从数据库中读出数据,并转换成DataFrame的格式。具体使用形如:
stocklist = pd.read_sql('table1',engine) # 其中stocklist是DataFrame格式数据,pd是import pandas as pd,table1是库名,engine同上例一样,指向数据库。