python简单应用

一、准备数据
导入 pandas 库，读取 elsx 文件数据
import pandas as pd
import numpy as np
df = pd.read_excel("score.xlsx")
df.head()
姓名语文数学英语
0 张三 78 99 77
1 李四 68 89 67
2 王五 87 78 90
3 阿大 85 70 98
4 李云龙 98 68 79
5 乔峰 69 45 82
6 毛毛 77 80 60
7 阿牛 69 76 69
8 小红 99 80 88
9 小白 87 88 69
二、计算
1、众数：众数是在一组数据中,出现次数最多的数据。
score=df['数学']
counts = np.bincount(score)
np.argmax(counts)
80
2、中位数：中位数是按顺序排列的一组数据中居于中间位置
的数，即在这组数据中，有一半的数据比他大，有一半的数据比
他小。
np.median(score)
79.0
3、算术平均数：是指在一组数据中所有数据之和再除以数据
的个数。
np.average(score)
77.3
4、加权平均数：将各数值乘以相应的权数，然后加总求和得
到总体值，再除以总的单位数。
per=np.sum(df,axis=1)/3
np.average(score,weights=per)
77.93077247783876
5、几何平均数：n 个观察值连乘积的 n 次方根就是几何平均
数。
pow(np.prod(score),1/len(score))
75.84754894472177
6、分位数：是指将一个随机变量的概率分布范围分为几个等
份的数值点，常用的有中位数（即二分位数）、四分位数、百分
位数等。分位数是将总体的全部数据按大小顺序排列后，处于各
等分位置的变量值。如果将全部数据分成相等的两部分，它就是
中位数；如果分成四等分，就是四分位数；
np.percentile(score, (25, 50, 75), interpolation='midpoint')
array([73., 79., 84.])
7、方差：是每个样本值与全体样本值的平均数之差的平方值
的平均数。
np.var(score)
192.20999999999998
8、标准差：总体各单位标准值与其平均数离差平方的算术平
均数的平方根。
np.std(score)
13.863982111933064
9、极差：最大值与最小值之间的差距，即最大值减最小值后
所得之数据。
np.max(score)-np.min(score)
54
10、四分位差：是上四分位数（Q3，即位于 75%）与下四分位
数（Q1，即位于 25%）的差。
sts.quantile(score,p=0.75)-sts.quantile(score,p=0.25)
18
11、相对离散程度
离散系数：是概率分布离散程度的一个归一化量度，其定义
为标准差与平均值之比。
np.std(score)/np.mean(score)
0.1793529380586425
12、偏态系数：以平均值与中位数之差对标准差之比率来衡
量偏斜的程度，用 SK 表示偏斜系数:偏态系数小于 0，因为平均
数在众数之左，是一种左偏的分布，又称为负偏。偏态系数大于
0，因为均值在众数之右，是一种右偏的分布，又称为正偏。
score.skew()
-0.9705239079765925
13、峰态系数：
表征概率密度分布曲线在平均值处峰值高低的特征数。直观
看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较
而言统计量，如果峰度大于三，峰的形状比较尖，比正态分布峰
要陡峭。反之亦然。
score.kurtosis()
2.1324712701649906

最后编辑于：2019.07.28 11:29:15