大数据Clouder认证:使用MaxCompute进行数据质量核查

数据质量基本介绍

什么是数据质量?

  • 数据质量顾名思义就是数据的质量
  • 数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障
  • 数据质量是数据分析应用的基础,为了获得可靠的数据,企业必须密切关注数据质量,数据质量将是直接影响系统应用成功的关键

什么是数据质量管理?

  • 数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控预警等一系列管理活动
  • 数据质量管理,不仅包含了对数据质量的改善,同时还包括了对组织的改善。针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容。针对组织的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审判机制、实施改进、评估改善效果等多个环节。

为什么进行数据质量管理?

  • 企业数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力,并在经济动荡时期立于不败之地
  • 大数据时代,如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生不可估量的结果
  • 目前,分析系统中的数据流转和处理环节越来越多,数据越来越复杂,数据质量出错的环节也就越来越多
  • 为保证数据更好的为公司及企业的战略提供正确、有力的支撑,必须就要保证数据质量的准确,进而必须要进行严格的数据质量监控,以保证数据的可靠性、高质量

数据质量影响因素

  • 需求过程引发
    需求过程引发的问题主要指需求设计、开发、测试、上线等过程之引发的数据质量问题
    此类问题的原因主要是因为需求过程中的管理机制和流程不健全导致

  • 数据源引发
    数据源引发的问题是指由于上游数据源不完善或不规范,导致下游系统受到影响,出现数据质量问题
    数据源引发的数据质量问题是分析系统数据质量问题的主要来源,主要体现在:信息不完整、信息不正确、信息不一致

  • 统计口径引发
    统计口径引发的问题主要指KPI、报表等指标口径中存在的数据质量问题,包括指标的准确性、一致性及完整性问题等
    此类问题产生的原因主要有以下情况:
    1、不同源系统或不同的业务部门,对相同名称的指标定义和口径不同,造成最终的指标统计结果出现差异
    2、业务部门在描述或定义指标口径时,存在许多不明确和不完善的地方,造成了指标口径的二义性

  • 系统自身
    系统自身的问题主要是指系统在开发建设、日常运营和维护过程中引发的数据质量问题,比如数据模型质量问题、系统升级数据信息丢失问题、ETL数据清洗不够彻底带来的问题以及数据仓库流程调度等问题,原因主要有:

    • 数据仓库的建设过程中,由于缺乏规范化、体系化的建设思路,造成系统架构、数据模型、处理流程等不够优化和合理,从而带来数据质量问题;
    • 在系统运营中,由于普遍缺乏完善的日常管理和维护流程,在处理、监控数据时,没有可以依据和规范的处理手段,导致操作出现失误或遗漏,造成数据质量问题。

数据质量问题类型

  • 错误值
    由于字段类型与实际存放数据差异,或录入信息出错而导致的数据错误

  • 重复值
    数据记录中存在完全一样的重复记录,或从业务上理解不可能存在的关键信息出现重复记录

  • 数据不一致
    数据的记录是否符合规范,是否与前后及其他数据集合保持统一。数记的一致性主要包括数据记录的规范和数据逻辑的一致性

  • 数据完整性
    数据记录和信息是否完整,是否存在缺失的情况

  • 缺失值
    正常的数据记录中,存在信息缺失的情况
    数据的缺失主要有记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果的不准确,完整性是数据质量最基础的保障

  • 异常值
    数据记录中出现明显的数据偏差或数据错误的记录

阿里云相关产品介绍

大数据计算服务MaxCompute

大数据计算服务(MaxCompute,原ODPS )由阿里云自主研发,提供针对TB/PB级数 据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。阿里巴巴的数据业务都运行在ODPS上。

数据开发Data IDE简介

大数据开发集成环境(Data IDE) ,提供可视化开发界面、离线任务调度运维、快速数据集成、多人协同工作等功能,为您提供一个高效、安全的离线数据开发环境。并且拥有强大的0pen API为数据应用开发者提供良好的再创作生态。

Data IDE操作界面

MaxCompute除了提供MaxCompute Studio客户端、odpscmd客户端进行开发外,还提供另外一种更为方便的操作界面DatalDE,DatalDE包含可视化的工作流界面及周期性任务调度、监控报警等,一方面降低用户使用ODPS的使用成本,一方面可以使用ODPS强大的大数据处理能力构建大数据云数仓。

Datal DE开发操作

通过DatelDE来实现数据质量监控,首先使用PC登录阿里云网页,在控制台里,选择大数据开发套件功能模块,选择对应的项目,进行开发操作。DatelDE主要包括数据集成、数据开发、数据管理、运维中心、项目管理、机器学习平台等功能模块,此次数据质量核查主要涉及数据开发、运维中心两大模块。

  • 数据开发页面是根据业务需求,设计数据计算流程,并实现为多个相互依赖的任务,供调度系统自动执行的主要操作页面。
    • 任务开发,包含周期属性和依赖关系,是数据计算的主要载体,支持多种类型的任务和节点适应不同场景。
    • 脚本开发是对周期任务的补充,通常用于辅助数据开发过程,主要用于实现非周期的临时数据处理,如临时表的增删改等,因此不包含周期属性和依赖关系。
    • 在大数据开发套件中,当一个任务被成功提交后,底层的调度系统从第二天开始,将会每天按照该任务的时间属性生成实例,并根据上游依赖的实例运行结果和时间点运行。23:30 之后提交成功的任务从第三天开始才会生成实例。
  • 运维中心是日常运维的主要工具,可对已提交的工作流及其节点任务进行管理与维护,同时也可针对节点来添加监控报警。主要分为运维概览、任务管理、任务运维和监控报警四个模块。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容