基于业务浅谈python的数据处理思路【一】

一、背景:

在对运营看板进行数据分析时,发现一个极端异常数据,在同类维度中,未完成量明显高于其他维度,如下图所示。于是通过python对数据作进一步挖掘、处理、分析,找到背后的原因。

【注:下图中红色代表完成量,蓝色代表未完成量,数值9173为异常数据。】
BI看板截图
思路:先连接数据库查询该维度相关数据随时间维度的分布情况,看看是否能找出异常的时间点。
二、本文主要包括如下几方面内容:
  • 用python连接数据库,查询数据
  • 将查询出的数据转变成DataFrame
  • 修改/替换DataFrame中某列的值
  • 修改DataFrame的column值
  • 对DataFrame重置索引
  • 对DataFrame作切片操作
  • 对时间不连续的数据,作连续态处理
  • 利用DataFrame的数据,绘制直方图
三、数据处理
1、导入包,定义数据库连接参数
#导入需要用到的一些包
from pyecharts import Bar
import pymysql
import pandas as pd
import numpy as np
#输入数据库相关参数,连接数据库
conn_test = pymysql.connect(
   host='*********',
   port=3306,
   user='********',
   passwd='********',
   db='*********'
)
cur_test = conn_test.cursor()#使用cursor()方法获取操作游标
2、输入查询语句,获取相关数据
cur_test.execute("select ******************")
data_activity_order = cur_test.fetchall()#获取查询的数据
打印查询的数据结果如下图所示,其中0代表未完成,1代表完成。
3、将数据转换成DataFrame
columnDes = cur_test.description#所有数据的描述
columnNames = [columnDes[i][0] for i in range(len(columnDes))]#通过描述,得到列名称
df_activity_order= pd.DataFrame(list(data_activity_order))#得到的数据data_activity_order是元组,元组要转为list,list再次转为dataframe
df_activity_order.columns = columnNames#修改df_activity_order列名称为数据库里的列名称
4、将列表中状态值为0、1分别替换成未完成、已完成

注释:c_state即为数据表中表示状态的字段名。

df_activity_order.loc[df_activity_order['c_state']==0,'c_state'] = '未完成'#通过df.loc函数,按特定的标签获取数据,并对数据进行替换。
df_activity_order.loc[df_activity_order['c_state']==1,'c_state'] = '已完成'
打印转换后的DataFrame,其中c_state的值已经进行了替换。
5、更改索引为c_state(状态),将列表作拆分
df_activity_order = df_activity_order.set_index(['c_state'],inplace=False)#将索引替换成c_pay_state,进而便于后续对数据进行拆分、重塑操作。
df_activity_order_finish = df_activity_order.loc[df_activity_order.index == '已完成']#通过df.loc函数提取“已完成”的数据,并且存入新的df中。
df_activity_order_unfinish = df_activity_order.loc[df_activity_order.index == '未完成']#通过df.loc函数提取“未完成”的数据,并且存入新的df中。
拆分的“已完成/未完成”的DF,注意其中的时间存在不连续的情况。
6、将拆分后的表更改索引为days(日期),为后面的数据重塑作准备。
df_activity_order_finish = df_activity_order_finish.set_index(['days'],inplace=False)#对df重置索引为日期
df_activity_order_unfinish = df_activity_order_unfinish.set_index(['days'],inplace=False)#同上
df_activity_order_finish.columns = ['amount_finish']#由于查询出来的column都是amount,于是在此将df_activity_order_finish的columns 修改成amount_finish
df_activity_order_unfinish.columns = ['amount_unfinish']#同上
7、构建时间连续、值为0的空列表。
date_list = pd.date_range(start='20181011',end='20190820')#获取起始日期至末尾日期之间的日期序列。
len_date_list =  len(date_list)#获取时间序列的长度,作为后续df的行数
df_date_list_finish = pd.DataFrame(np.zeros((len_date_list,1),dtype=np.int),columns = ['amount_finish'],index=date_list)#利用np.zeros构建全0的array,再用pd.DataFrame转换成df
df_date_list_unfinish = pd.DataFrame(np.zeros((len_date_list,1),dtype=np.int),columns = ['amount_unfinish'],index=date_list)#同上
8、对数据进行重塑,保证时间连续,同时计算完成占当日的比例情况。
df_activity_order_finish_new = (df_date_list_finish + df_activity_order_finish).fillna(0)#将拆分后完成的df与时间连续的df进行合并,缺失值以0补齐。
df_activity_order_unfinish_new = (df_date_list_unfinish + df_activity_order_unfinish).fillna(0)#同上
df_per = pd.concat([df_activity_order_finish_new,df_activity_order_unfinish_new],axis=1, join_axes=[df_activity_order_unfinish_new.index])#将重塑后的已完成、未完成df进行合并。
#计算已完成的数量在当日的占比情况,
with np.errstate(invalid='ignore'):#由于可能存在分母为0的情况,计算过程中会报错,因而需要对此类报错进行忽略。
    df_per['per'] = df_per.apply(lambda x: x['amount_finish'] / (x['amount_unfinish']+x['amount_finish']), axis=1)#计算已完成的数量在当日的占比情况。
    df_per = df_per.fillna(0)#错误值以0补齐。
    df_per = df_per.round(3)#保留三位小数
处理后的df

至此,已经将数据从数据库中提取出来,并已经处理好了,按照日期序列作了重塑,保证时间的连续性,同时也计算了当日完成的数据占当日总数的比例情况。

四、数据可视化
1、对数据结果作可视化处理,便于直观查看数据的分布情况。
bar_df_per = Bar("每日订单情况","")
bar_df_per.add('完成数',df_new.index,df_new.amount_finish,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",is_stack= True)
bar_df_per.add('未完成数',df_new.index,df_new.amount_unfinish,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",is_stack= True)
bar_df_per.add('完成数占当日的比例',df_new.index,df_new.per,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",)
bar_df_per.render()
生成的每日数据图

从上面的数据图,我们可以看出异常的数据来自于05.08日。接下来再从数据库中,对这一天的数据,按照相关的维度进行进一步挖掘、分析,进而找到背后的原因。

写在后面的话:
文中部分操作可能饶了弯路,有可以优化的空间,但是主要是想借着这次业务场景,整理下python的部分数据处理思路、方法。
另外,请忽略不规则的变量命名,毕竟调研得出,大部分人认为编程中最困难的一件事就是给变量命名。o(╯□╰)o

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容