自己写的一个Pandas增强包,把一些机器学习数据处理中的常用,但是又不能一句话解决的操作打了一个包,本来是课程作业使用,后来修改成了比较general的版本,以后还会逐渐扩充。
名字是Popanda,取自功夫熊猫的主角Po+panda
CS转学生,技术含量可能并不高,希望大家给出一些意见和建议,如果再能给点个star就更好了。
Github地址:https://github.com/shawn120/Popanda_Enhance_of_Pandas
函数介绍:
1 拆分数据集的x(feature)和y(prediction,class),返回两个dataframe
split_xy(df, NameOfY)
2 将数据集中某一value m,全部替换成n(特别对y)
resetYvalue(y, m, n)
3 将目标feature挤压到最后一列
squeeze(df, target_name)
4 resize一个dataframe,也就是取出他的前size行
resize_df(df, size)
5 merge两个dataframe,并且只取出想要的前size行,索引会自动重制
mergeAndresize_df(df1,df2,size)