一、准备数据
导入 pandas 库,读取 elsx 文件数据
import pandas as pd
import numpy as np
df = pd.read_excel("score.xlsx")
df.head()
姓名 语文 数学 英语
0 张三 78 99 77
1 李四 68 89 67
2 王五 87 78 90
3 阿大 85 70 98
4 李云龙 98 68 79
5 乔峰 69 45 82
6 毛毛 77 80 60
7 阿牛 69 76 69
8 小红 99 80 88
9 小白 87 88 69
二、计算
1、众数:众数是在一组数据中,出现次数最多的数据。
score=df['数学']
counts = np.bincount(score)
np.argmax(counts)
80
2、中位数:中位数是按顺序排列的一组数据中居于中间位置
的数,即在这组数据中,有一半的数据比他大,有一半的数据比
他小。
np.median(score)
79.0
3、算术平均数:是指在一组数据中所有数据之和再除以数据
的个数。
np.average(score)
77.3
4、加权平均数:将各数值乘以相应的权数,然后加总求和得
到总体值,再除以总的单位数。
per=np.sum(df,axis=1)/3
np.average(score,weights=per)
77.93077247783876
5、几何平均数:n 个观察值连乘积的 n 次方根就是几何平均
数。
pow(np.prod(score),1/len(score))
75.84754894472177
6、分位数:是指将一个随机变量的概率分布范围分为几个等
份的数值点,常用的有中位数(即二分位数)、四分位数、百分
位数等。分位数是将总体的全部数据按大小顺序排列后,处于各
等分位置的变量值。如果将全部数据分成相等的两部分,它就是
中位数;如果分成四等分,就是四分位数;
np.percentile(score, (25, 50, 75), interpolation='midpoint')
array([73., 79., 84.])
7、方差:是每个样本值与全体样本值的平均数之差的平方值
的平均数。
np.var(score)
192.20999999999998
8、标准差:总体各单位标准值与其平均数离差平方的算术平
均数的平方根。
np.std(score)
13.863982111933064
9、极差:最大值与最小值之间的差距,即最大值减最小值后
所得之数据。
np.max(score)-np.min(score)
54
10、四分位差:是上四分位数(Q3,即位于 75%)与下四分位
数(Q1,即位于 25%)的差。
sts.quantile(score,p=0.75)-sts.quantile(score,p=0.25)
18
11、相对离散程度
离散系数:是概率分布离散程度的一个归一化量度,其定义
为标准差与平均值之比。
np.std(score)/np.mean(score)
0.1793529380586425
12、偏态系数:以平均值与中位数之差对标准差之比率来衡
量偏斜的程度,用 SK 表示偏斜系数:偏态系数小于 0,因为平均
数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于
0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
score.skew()
-0.9705239079765925
13、峰态系数:
表征概率密度分布曲线在平均值处峰值高低的特征数。直观
看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较
而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰
要陡峭。反之亦然。
score.kurtosis()
2.1324712701649906
python简单应用
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...