分析分析:是指根据分析的目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法。如收入分布,年龄分析。
例子,简书用户(简书签约作者)的文章篇数分析
步骤:
1、定义分组的数组,如年龄分段。要包含最小值和最大值的数据
r = pd.read_csv(path)
bins = [min(r.articles)-1,50,100,200,300,max(r.articles)+1]
2、定义分组的标签
labels=['23-50篇','50-100篇','100-200篇','200-300篇','300篇+']
3、使用pandas.cut()方法,根据分组和标签进行划分
import pandas
articles_cut=pandas.cut(r.articles, bins,labels=labels)
r['articels-cut']=articles_cut
4、统计汇总 groupby
r.groupby(by=['articels-cut'])['author'].agg({'total':numpy.size})
问题:如果日期列进行分布分析,采用to_datetime()进行数据转换后,也无法进行分布处理。之前采用的方式是对注册日期列(regtime)采用字任串截取slice,保留年-月,再分类统计。