首先贴个链接吧,Matplotlib的官方文档。Matplotlib在数据科学中是一个很重要的可视化库,下面让我们一起来走近它。
接下来简单说一下数据集(点此下载)的组成:第一列为日期,第二列为美国的失业率;统计的是美国每年每月的失业率 。
简单折线图的绘制
- 首先进行的是数据读取,这里采用pandas库的read_csv函数,并且把首列的日期转成标准的日期格式,如:1948-01-01;然后显示前12行。
import pandas as pd
unrate = pd.read_csv('Unrate.csv')
unrate['DATE'] = pd.to_datetime(unrate['DATE'])
print(unrate.head(12))
--------------------------------------------------------
DATE VALUE
0 1948-01-01 3.4
1 1948-02-01 3.8
2 1948-03-01 4.0
3 1948-04-01 3.9
4 1948-05-01 3.5
5 1948-06-01 3.6
6 1948-07-01 3.6
7 1948-08-01 3.9
8 1948-09-01 3.8
9 1948-10-01 3.7
10 1948-11-01 3.8
11 1948-12-01 4.0
- 导入画图操作面板,此时只是一个空的画图板
import matplotlib.pyplot as plt
#%matplotlib inline
#Using the different pyplot functions, we can create, customize, and display a plot. For example, we can use 2 functions to :
plt.plot()
plt.show()
- 取数据集的前12行,指定日期为x轴,值为y轴,绘制折线图
first_twelve = unrate[0:12]
plt.plot(first_twelve['DATE'], first_twelve['VALUE'])
plt.show()
这样就会发现横坐标的显示有互相压盖的现象,解决方式如下:
- 旋转横/纵坐标,调用xticks函数,rotation为指定的旋转角度
#While the y-axis looks fine, the x-axis tick labels are too close together and are unreadable
#We can rotate the x-axis tick labels by 90 degrees so they don't overlap
#We can specify degrees of rotation using a float or integer value.
plt.plot(first_twelve['DATE'], first_twelve['VALUE'])
plt.xticks(rotation=45)
#print help(plt.xticks)
plt.show()
经此修复的折线图如下:
- 单独看上一步产生的折线图我们并不能看出这是个什么玩意儿,此时我们需要做的就是插入图的标题,横、纵坐标(xlable,ylable,title)
#xlabel(): accepts a string value, which gets set as the x-axis label.
#ylabel(): accepts a string value, which is set as the y-axis label.
#title(): accepts a string value, which is set as the plot title.
plt.plot(first_twelve['DATE'], first_twelve['VALUE'])
plt.xticks(rotation=90)
plt.xlabel('Month')
plt.ylabel('Unemployment Rate')
plt.title('Monthly Unemployment Trends, 1948')
plt.show()
此时得到的图如下:
子图 fig.add_subbplot(x,y,index)
子图是在同一个画图区同时展示多幅图的一个函数
- 子图的生成及布局
#add_subplot(first,second,index) first means number of Row,second means number of Column.
import matplotlib.pyplot as plt
fig = plt.figure()
ax1 = fig.add_subplot(3,2,1)
ax2 = fig.add_subplot(3,2,2)
ax2 = fig.add_subplot(3,2,6)
plt.show()
运行结果如图2:
- 子图的画图域大小的指定
import numpy as np
fig = plt.figure()
fig = plt.figure(figsize=(6, 5)) #指定图画域的长宽
ax1 = fig.add_subplot(2,1,1)
ax2 = fig.add_subplot(2,1,2)
ax1.plot(np.random.randint(1,5,5), np.arange(5)) #x,y坐标由random函数随机生成
ax2.plot(np.arange(10)*3, np.arange(10))
plt.show()
- 用不同的颜色画出两条线
unrate['MONTH'] = unrate['DATE'].dt.month #取出月份
unrate['MONTH'] = unrate['DATE'].dt.month
fig = plt.figure(figsize=(6,3))
plt.plot(unrate[0:12]['MONTH'], unrate[0:12]['VALUE'], c='red')
plt.plot(unrate[12:24]['MONTH'], unrate[12:24]['VALUE'], c='blue')
plt.show()
- 用不同的颜色画出五条线
fig = plt.figure(figsize=(10,6))
colors = ['red', 'blue', 'green', 'orange', 'black']
for i in range(5):
start_index = i*12
end_index = (i+1)*12
subset = unrate[start_index:end_index]
plt.plot(subset['MONTH'], subset['VALUE'], c=colors[i])
plt.show()
- 插入图例
fig = plt.figure(figsize=(10,6))
colors = ['red', 'blue', 'green', 'orange', 'black']
for i in range(5):
start_index = i*12
end_index = (i+1)*12
subset = unrate[start_index:end_index]
label = str(1948 + i)
plt.plot(subset['MONTH'], subset['VALUE'], c=colors[i], label=label)
plt.legend(loc='best') #图例插入位置 ,自适应
#plt.legend(loc='upper left')#插入到左上角
plt.xlabel('Month, Integer')
plt.ylabel('Unemployment Rate, Percent')
plt.title('Monthly Unemployment Trends, 1948-1952')
plt.show()