今天聊案例之前,我们先来聊另外一个话题:“黑匣子”。
没错,就是飞机的“黑匣子”。黑匣子是记载飞行数据和驾驶舱通话的设备,它可以记载飞机停止作业前25小时的飞行数据以及30分钟到2小时不等的通讯录音。
世界上所有的空难发生原因都是经过黑匣子分析出来的,埃塞俄比亚航空坠机事件,黑匣子的数据目前已在法国被下载,用于研究此次坠机事件的成因。
因而它就成了空难事故的见证和“前车之鉴”,黑匣子虽然在平常不起眼,可是却是飞机上一个非常重要的部件,也是飞机出事后唯一重要的部件。
在互联网领域也有和“黑匣子”一样,看起来不起眼,但是却非常重要的一种数据。
网络设备、系统及服务程序等,在运作时都会产生一种叫 log 的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。
和黑匣子一样,通过对日志数据的分析,我们可以对系统设备进行故障定位、了解APP和电商网站上的用户行为习惯和消费偏好、对员工的IT操作行为进行内部审计,像之前程序员离职为了泄愤删除公司宝贵数据的行为,可以进行溯源查询...
日志数据价值巨大,而且不同于只能做记录的黑匣子一样,日志数据可以进行实时分析,及时止损,故障预测等保障整体业务稳定运行。
云南农信×云日志EasyLog共同打造日志运维数据分析平台
云南省农村信用社(以下简称云南农信),目前该农信社已经稳居全省金融机构首位,营业网点达到2335个,自助设备有13800余台,同时也有不断推进ATM机具、pos机、自助警银亭,惠农支付服务店等等自助渠道,让客户随时随地享受金融化服务。
随着业务系统的迅速发展,极大地提升省联社业务运营能力的同时,本身的复杂性也大大增加,系统产生的事件及问题不断增多,各项事件和问题的都存在很强的关联性、依赖性。
但是各系统数据孤岛的状态直接导致了运维数据难以关联分析,拉长了解决问题的时间周期,对云南农信自身的运维能力带来新的挑战。
2016年9月,中国银监会印发《银行业金融机构全面风险管理指引》指出:
第四十三条 银行业金融机构应当建立与业务规模、风险状况等相匹配的信息科技基础设施。
第四十四条 银行业金融机构应当建立健全数据质量控制机制,积累真实、准确、连续、完整的内部和外部数据,用于风险识别、计量、评估、监测、报告,以及资本和流动性充足情况的评估。
在这样的背景下,云南农信经过了长期的考察和商讨,最终选择了为多家知名企业搭建运维数据分析平台的智能运维专家——云日志EasyLog团队。
从客户的实际情况出发,云掣日志团队为客户构建了完整的日志平台建设方案,并一起打造运维数据分析平台。
1. 方案设计
在与云南农信深入的沟通和交流中,我们发现当前的运维建设还是比较传统的:主要以IT资源(包括硬件、软件和网络设备等)的管理为核心,资源的信息非常完备,但是对于资源上面支撑的业务应用运行状况的采集和分析相对缺乏。
在银行的业务应用系统中,大量的交易流水、业务流水和交易日志中包含了对于业务运行状况最细节的描述,如果将这些数据收集起来,合理地加以处理和分析,就能实时、准确地反映当前业务执行状况。同时,将该业务涉及的IT资源使用状态也一并收集,并进行关联分析,从而真正了解 IT 资源如何对业务做出贡献, 并能迅速地根据业务问题定位 IT 资源问题。
根据上述深入的调研收获,云日志团队提出了6个建设目标,希望帮助该金融机构搭建自己的集中化运维数据分析平台:
支持多源数据采集的日志数据统一管理中心:整合数据,建设统一采集管理平台,进行数据采集和管理,包括监控系统数(例如网络镜像数据、Tivoli数据等)、日志数据、数据库数据等。
基于流式计算的数据处理分析平台:云日志平台自带高效数据分析能力,挖掘数据中有效信息进行关联分析。
数据可视化:通过可视化大屏,让用户可以实时知悉数据动态变化,提高整体运维速度和质量。
智能报警机制:通过对预警阈值自定义,实现图形、短信、微信等多种方式预警,快速响应。
可扩展、易于管理:运维数据分析平台应具备高效、可扩展、易于管理、维护等特性。
节省运营成本:通过对业务数据的实时监控管理,降低业务运营成本,提高业务运维效率,达到自动化运维效果。
整个运维数据分析平台建设的核心思想在于通过实时采集业务运行数据(如客户交易流水、业务执行流水、日志等),以及实时系统运行数据(包括应用服务器、中间件、数据库和主机等),然后通过一定的数据模型将这些数据关联起来,以业务的角度动态展示,并使用一系列算法进行在线和离线分析,并使系统根据分析结果进行自动化处理,从而达到将企业业务运行状况和IT资源协同监控和管理的目的。
从图中我们可以看到整个系统工作的逻辑过程。
首先是数据采集服务器从业务系统和其对应的IT资源中,实时获取相应的运行状态数据,经过预处理之后,向两个方向发送:
一个方向是监控分析服务器,在其中对数据进行实时处理,主要是报表引擎对数据进行格式化之后,产生动态报表,业务规则引擎判断数据是否具有某种特点从而激活对应的业务规则;
另一个方向是将这些原始数据存储在适合流式数据的数据库中,并结合相应的管理数据,由数据分析引擎进行更为全面和复杂的数据分析。系统提供一个 web 应用界面,使得监控人员、管理人员和数据分析人员能够通过标准的IE 浏览器访问应用。
2. 方案效果
及时掌握业务运转状况,避免误操作
通过实时动态展示业务的运行状况和关键信息,帮助管理人员及时掌握当前业务运行状态,观察业务运行的变化趋势,并快速判断业务是否正常,做好提前应对措施。
IT运行状况可视化
直观地展现为实现某个业务功能/能力,IT资源以何种方式运转。通过以拓扑图展现业务服务、应用和底层IT系统构架部件之间的动态关系,增进对各种IT 元素的掌控和理解,并及时发现业务瓶颈。
从业务角度管理IT资源
帮助IT部门实时了解、掌控业务部门对IT服务的使用体验,方便IT部门根据业务影响和 SLA(Service Level Agreement)来对IT服务进行管理,并及时进行 IT 资源的优化配置。
加快问题解决
主动地帮助你在第一时间发现问题,以便在问题对用户造成不利影响之前,及时得到隔离、诊断和修复,把它们对业务的干扰降到最低。同时支持自动处理能力,提高管理人员效率的同时降低人为操作的风险。
实现业务-服务-资源相互依赖关系的深入分析
通过系统内部的依赖关系,结合业务和IT 资源等大数据,挖掘内部的相互关系,深入分析业务问题的根源,从而实现IT 和业务的全面融合。
3、客户体验
通过为IT 运营部门提供可以全面了解业务/IT运形状况的仪表板和数据可视化大屏,帮助用户主动根据业务影响对IT服务进行管理。
例如,仪表板通过颜色来显示业务/IT资源的健康状况和繁忙层度,当某个业务出现了问题,其状态就会显示红色,对应的健康度指标就会指向相应的区间。
大屏数据指标:现金流向、交易情况、转账情况、交易金额、响应速度、成功率、ATM机交易排名、信贷监控
可以在一个窗口中观察到该业务相关的IT资源的状况,如果对哪个部分感到疑虑,就可以立即点击该资源向下逐层钻取,最终发现问题,然后及时地进行修复,以免问题进一步恶化,而造成服务中断。
整个运维数据的集中,尤其是对日志的整合处理,把以前无序杂乱的日志整合解析,形成完整的交易事件,解决了业务排障的大问题,通过平台提供的搜索功能,业务排障从以前的几个小时缩短到几分钟。
以前由于主机资源的限制,主机上只能保留最近交易日志,其他日志备份到带库。给后续查询带来很大麻烦,如需要恢复环境准备,恢复效率低,查询多日的需要恢复多次,同时数据量大,导致恢复时间长,限制有了大数据存储平台,日志可以长期保留,满足了对柜员操作的审计和对业务分析的回溯。
后续,云掣日志团队将会为云南农信进一步提供智能运维服务,保障金融业务的高效运行和IT运维的智能化进程。