<a name="" >为什么进行数据可视化:在我看来就是减少大脑的运算。</a>
可视化是什么:将抽象的科学或者商业数据.用图像表示出来.帮助理解数据的意义的过程。它通常会在进行数据分析(data analysis)的过程中大量的使用。
直方图)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
weight_data=pd.read_table('weight.txt')
weight_data.shape
(80, 1)
这里可以看出有80个数,如果事先看了原始数据的话心理大概就有谱了
操作数据时应该先大概看下原始数据(事先并没有看,只想只完成任务,没有思考)
下回应该先看看原始数据的结构
平均值
weight_data['weight'].mean()
50.700000000000003
求"方差"(标准差的平方根是方差)(每个数偏差平方的和是标准差)(偏差是一个数离平均值的距离)
方差的优势:波动值合理;单位和原始数据一致
weight_data['weight'].var()
39.275949367088607
直方图
fig=plt.figure()
x=weight_data['weight']
ax=fig.add_subplot(111)
numBins=15
ax.hist(x,numBins,color='red',alpha=0.8,rwidth=0.5)
plt.title(u'weight')
plt.show()
结果分析
一:(1)共有体重80条记录;(2)平均值是50.7;(3)方差是39.275。
二:(1)50.7-39.275=11.425; 平均波动范围在20%
三:(1)数据集中在45·55中间
四:有3个偏差较大值,(1)体重接近70和体重4时频数最小
(2)在体重48的人数最多
cav文件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
passengers_data = pd.read_csv('AirPassengers.csv')
#read_csv 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
passengers_data.shape
(144, 2)
144个数 两列
求NumPassengers这列数的平均数
passengers_data['NumPassengers'].mean()
280.29861111111109
求NumPassengers这列数的方差
passengers_data['NumPassengers'].var()
14391.917200854699
求NumPassengers这列数的中位数
passengers_data['NumPassengers'].mean()
280.29861111111109
fig = plt.figure(figsize = (6, 3), dpi = 100)
x = passengers_data['NumPassengers']
ax = fig.add_subplot(111)
ax.hist(x , bins = 50, color = 'red', alpha = 0.8, rwidth = 0.9, normed = False)
plt.grid(True)
plt.title('passenger')
plt.show()
用plt的figure函数新建绘图,并定义为fig。
定义X为weight_data中weight列的数据。
用fig画图,并名为ax,(111)就是显示在矩阵块的1行1列的第1块,也就是1块白板吧。
定义柱子有15根。
用hist函数显示ax绘图,x是横轴数据,15根蓝色柱子,宽度为0.9。
plt命名为weight。
用show函数显示结果
var是方差,std 是偏差
结果分析
数据集的平均值是280;方差是14391波动性很大;
数据集字啊100~200较为稳定;200之后波动性很大
400之后呈促步下降的趋势
偏差较大的地方为:(1)没有<100的次数;
(2)>600的数据;(3)在230时频数最大
[参考小春玉子-有详细的注释](http://www.jianshu.com/p/cc3b5d76c587)
[点社群-共创课程系列](http://www.jianshu.com/c/9b4685b6357c)