numpy和pandas的作用
numpy简单来说,就是用来做矩阵运算的python包,pandas是基于numpy进一步封装的包
1.numpy基础
# numpy运行速度很快[注:%time是jupyter的写法,ipython环境不支持]
# 普通数组
normal_list = range(10000)
%timeit [i**2 for i in normal_list]
#numpy数组 运算速度快了一个量级
import numpy as np
np_list = np.arange(10000)
%timeit np_list**2
# numpy 是将*3 应用到每一个元素上
np_list = np.ones(5)
np_list*3
# 初始化操作
np.zeros(5)
# 3*2的 0矩阵
print(np.zeros((3,2)))
# 5*5的 1矩阵
print(np.ones((5,5)))
# 6*6的 对角矩阵
print(np.eye(6))
# 普通转numpy
normal_array = [[1,2,3],[4,5,6]]
np_array = np.array(normal_array)
print(np_array)
# linspace 等间距生成数
np.linspace(0,1,10)
2.numpy的复杂应用
- 生成模拟股票的数据 200只股票,两年交易日 252*2
- 对股票数据进行统计分析
# 生成服从正态分布的模拟数据,这里指的是涨跌数据
stock_cnt = 200
view_days = 504
stock_day_change = np.random.standard_normal((stock_cnt,view_days))
print(stock_day_change)
# 获取矩阵的宽高
print(stock_day_change.shape)
# 打印出前两只股票前五天的涨跌情况
print(stock_day_change[0:2,:5])
# 打印最后两只股票的最后五天涨跌情况
print(stock_day_change[-2:,-5:])
# 交换 上面的两组数据,必须使用copy,拷贝源数据,numpy是引用类型的
tmp = stock_day_change[:2,:5].copy()
stock_day_change[:2,:5] = stock_day_change[-2:,-5:]
stock_day_change[-2:,-5:] = tmp
print(stock_day_change[:2,:5])
print(stock_day_change[-2:,-5:])
print('类型转换,小数转int')
print(stock_day_change[-2:,-5:].astype(int))
print('保留两位小数:')
print(np.around(stock_day_change[-2:,-5:],2))
# numpy 中 np.nan代表空
test = stock_day_change[0:2,:5].copy()
test[0][0] = np.nan
print(test)
print('获取每只股票前10个交易日最大涨幅 axis=1 代表扫描x轴 axis=0代表扫描y轴')
print(np.max(stock_day_change[:5,:10],axis=1))
print()
print('如果要获取前10个交易日中每天 5只股票中的最大涨幅,axis=0')
m1 = np.max(stock_day_change[:5,:10],axis=0)
print(m1)
print('获取10个交易日中每天 5只股票中的最大涨幅的是哪一只股票,使用argmax函数,axis=0')
m2 = np.argmax(stock_day_change[:5,:10],axis=0)
print(m2)
print("第2天下标为{}的股票涨幅最大,为:{}".format(m2[1],m1[1]))
print('求期望,标准差,方差')
tmp = stock_day_change[:5,:10].copy()
print('平均值:',np.mean(tmp,axis=1))
print('标准差:',np.std(tmp,axis=1))
print('方差:',np.var(tmp,axis=1))
3.pandas基础
简单说明:pandas是基于numpy的封装
import pandas as pd
frame = pd.DataFrame(stock_day_change)
# 显示前五只股票的数据
frame.head(5)
# 显示后五只股票的数据
frame.tail(5)
# 先来看一段精简版的代码,代码段 1
stock_symbols = ['股票'+str(x) for x in range(stock_day_change.shape[0])]
# stock_symbols
# 这段代码是的意思如下, 代码段2
stock_symbols_tmp = range(stock_day_change.shape[0])
res = []
for i in stock_symbols_tmp:
res.append('股票'+str(i))
print(res)
# 上面代码段1的写法叫链表推导式
# 生成从2017-1-1 后504天的日期
days = pd.date_range('2017-1-1',periods=stock_day_change.shape[1],freq='1d')
# 把数据的列名改成对应的日期
frame = pd.DataFrame(stock_day_change,index=res,columns=days)
frame.head(3)
# 换个维度看数据 转置操作
frame_t = frame.T
frame_t.head(3)
# 采样 每21天求平均值
frame_21 = frame_t.resample('21d').mean()
frame_21.head(5)
# 获取某一只股票的数据
stock0 = frame_t['股票0']
stock0.head(5)
%matplotlib inline
# 想要绘制图片在jupyter(现在这个编辑器叫jupyter)显示,需要加上%matplotlib inline
# 绘制股票涨跌,首先要将 举个栗子:第一天 涨了0.5 第二天跌了0.3 绘制时 第一天绘制0.5 第二天绘制0.2(0.5-0.3)
# 因此需要将单只股票做 前一天加法
stock0.cumsum().plot()
学会股票类相关的操作,其他的数据就so easy啦
接下来介绍一个获取真实股票数据的包 tushare
import tushare as ts
# 获取所有的股票列表
all_stock = ts.get_stock_basics()
# 取前五个,第一列code就是股票代码
all_stock.head(5)
%matplotlib inline
# 获取黑牛食品(002387)的数据,并取开盘价,绘图
ts.get_k_data('002387')['open'].plot()
# 这个数据就介绍到这里,之后会进行时间序列数据分析预测还会用到