pandas是机器学习中最常用的数据处理库,那么一些高级技巧你是否了解呢?
apply函数
pandas中的lambda函数可以说是最有用的功能之一,也是我的最爱。自由度很高,你可以对自己的数据进行各种操作了。该函数如下:
DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)
一般来说我们只使用前面的几个参数,func传入你想要对数据实施的函数,axis=0表示对行操作,axis=1表示对列操作,举一个用法:
df['size_num'] = df.apply(lambda x:int(x['size']), axis=1) #将size转化为int类型
上面的代码通过传入lambda函数对整列数据进行操作,你可以随意定义你的函数来实现各种功能。
按照条件筛选
pandas具有强大的筛选功能,组合使用可以快速得到你想要的数据
df[df['size_num']>22.0] #单条件筛选
df[(df['size_num']>22.0) & (df['size_num]<50)] #多条件筛选
保存格式的选择
pandas的保存相信大家都不陌生,但是事实上保存操作中有很多参数是可以配置的,这样可以导出你想要的格式
selected_data.to_csv('selected_data.csv', index=False, header=False)
一个常用参数是index,pandas在导出表格时会默认在前面加上一列Index,通常我们可以吧它设为False,因为这个index没什么用;另一个常用参数是header, 表示的是是否输出表头,可根据实际情况设置