为帮助学习pandas,特意从和鲸社区中提炼出120道经典数据处理常见操作例题,从基础入门到进阶来更快速、更专业的角度理解pandas。主要包括:
- Pandas基础
- Pandas进阶
- 金融数据处理
- NumPy科学计算
- 一些补充
(https://www.heywhale.com/mw/project/5ef96ce863975d002c95fd8a/content)
正文:
将字典创建为DataFrame
data_dict={
"Grammer":["python","C","Java","GO",np.nan,"SQL","PHP","python"],
"Score":[1,2,np.nan,4,5,6,7,10]
}
data = pd.DataFrame(data_dict)
data
[图片上传失败...(image-bc992f-1623504000376)]
需求分析:
根据题目分析:需要统计每种编程语言出现的次数
数据理解:
1.首先确定列名,是Grammer;
2.统计次数,浏览发现python重复两次,其他均是一次,则最终结果同样如此。
代码实现:
方法一:利用value_counts()实现次数统计。
data['Grammer'].value_counts()
[图片上传失败...(image-d73f67-1623504000376)]
方法二:利用groupby()实现次数统计
data.groupby('Grammer')['Grammer'].count()
[图片上传失败...(image-937c21-1623504000376)]
总结:通过以上两种方法均能实现统计次数这个功能,但有没发现问题呢?NaN值并没有打印出来,而是智能过滤掉,这是什么原因呢?