利用 Pandas 分析日志数据

1、简介

app程序在日常运行中会生成多种非结构化的日志数据，由于可读性差通常仅仅用于排错。若能将数据处理成结构化表格信息，则可便于分析各步骤的执行状况例如起止时间、耗时，进而辅助性能与维稳性的优化。此文主要通过非结构化数据日志文件样例，来介绍如何利用Pandas中的技巧，完成数据从非结构化到结构化的过程。

2、获取数据

Demo数据样例

样例数据如下

步骤1 开始

步骤1: : 任务1 : Followed link after success : 开始执行任务 (2019/05/10 02:00:22.177)

步骤1: : 任务1 : [nr=6, errors=0, exit_status=0, result=true] : 任务执行完毕 (2019/05/10 02:00:45.227)

步骤1: : 任务2 : Followed link after success : 开始执行任务 (2019/05/10 02:00:45.227)

步骤1: : 任务2 : [nr=6, errors=0, exit_status=0, result=true] : 任务执行完毕 (2019/05/10 02:09:21.490)

步骤2: : START : Start of job entry : 开始执行任务 (2019/05/10 02:10:26.177)

步骤2: : START : [nr=7, errors=0, exit_status=0, result=true] : 任务执行完毕 (2019/05/10 02:10:26.179)

步骤2: : 任务5 : Followed无条件的链接 : 开始执行任务 (2019/05/10 02:10:26.179)

步骤2: : 任务5 : [nr=7, errors=0, exit_status=0, result=true] : 任务执行完毕 (2019/05/10 02:17:51.991)

如上样例，源日志记录中包含步骤名称、任务名称、执行状态及执行的时间。带有这样信息的数据行才是待提取的数据记录。

提取源数据中的指定记录

通过如上分析，我们只需要提取有效信息，即源日志文件中包含': :''标识的行记录。先将源日志存入列表，再将列表存入dataframe对象的message字段。可参考如下。

lst_log = []

log_dir =r'D:myPCPythonVScodeBookDataSetpj1_日志分析log20190101.txt'

withopen(log_dir, encoding='utf-8')aslog_etl:

forlineinlog_etl:

# 逐行读取数据，只取有效数据

if' : : 'inline:

lst_log.append(line.strip())

df_etllog = pd.DataFrame({'message':lst_log})

df_etllog.head()

数据预览1

预览1-源日志数据入DF

3、数据解析

提取核心字段数据

日志数据的核心内容均以':'标记，可用来作分割符。此处利用pandas的str.split()函数来切分字段，并扩展成多列。另外，通过join将源数据记录也合并入新的数据，便于核查解析的正确性。

df_etllog1 = df_etllog['message'].str.split(' : ',expand =True)

# 重命名列

df_etllog1.columns=['步骤名称','c1','任务项','c2','状态']

df_etllog2 = df_etllog1.join(df_etllog)

数据预览2

预览2-提取核心字段

解析日期字段

观察以上数据得知日期信息并没有被正确分割解析。此处需要单独对该字段进行二次拆分，以'('为标识，并置空')' 字符、更改为日期数据类型

df_etllog3 = df_etllog2['状态'].str.split('(',expand=True)

df_etllog3.columns=['完成状态','时间']

# 去除字符

df_etllog3['时间'] = df_etllog3['时间'].str.replace(')','')

# 转化为时间类型

# df_etllog3['时间'].astype(np.datetime64)

df_etllog3['时间'] = pd.to_datetime(df_etllog3['时间'])

# 索引重命名

df_etllog4 = df_etllog3.join(df_etllog2)[['步骤名称','任务项','完成状态','时间']]

df_etllog4.index.name='执行顺序'

数据预览3

预览3-解析时间字段

分组计算

1、取起止时间，基于如上结构数据，利用groupby按指定列进行分组聚合，得到任务的起止时间，并reset索引，保留分组字段。

df_etllog5 = df_etllog4.groupby(['步骤名称','任务项'])['时间'].agg([np.min, np.max]).rename(columns={'amin':'开始时间','amax':'结束时间'}).reset_index()

2、利用起止时间，作减计算耗时，单位精确到分钟(dt.seconds/60)。

df_etllog5['耗时(分钟)'] = (df_etllog5['结束时间'] - df_etllog5['开始时间']).dt.seconds/60

数据预览4

预览4-解析时间字段

4、简单可视化

到这里，其实已经完成了数据清洗的目标。基于这份结构化的数据，可以很方便分析日常各任务的运行状态及耗时情况。此处提供如下参考，利用条形图按耗时展现TOP 10 任务。

提取耗时超过阈值(例如5分钟)的任务，并降序，作为重点分析对象

df_rs5min = df_etllog5[df_etllog5['耗时(分钟)'] >5].sort_values(['开始时间'], ascending=True)

matplotlib利用条形图可视化

plt.barh(df_rsL5min['任务项'], df_rsL5min['耗时(分钟)'],

height=0.8,

linestyle='--',

alpha=0.8)

plt.show()

5、小结

利用pandas的这些基本功能来解析固定格式的非结构化数据，确实很得心应手。只要日志文件能按统一的规则存储，则仍然能无压力解析。基于结构化的数据，能很方便利用可视化工具完成日常的性能监控报告。欢迎分享、尝试。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342

利用 Pandas 分析日志数据

推荐阅读更多精彩内容