hive字段级别血缘实现

背## 背景

为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源)，需要构建hive字段级别的数据血缘，hive本身提供提供了一个用于打印数据血缘的钩子类，我们可以借助其来进行实现。

准备工作

这个钩子类将血缘关系以日志的形式输出，为了拿到这里的血缘关系，首先我们要准备log4j的配置文件。

hive-log4j2.properties

status = INFO
name = HiveLog4j2
packages = org.apache.hadoop.hive.ql.log

property.hive.log.level = INFO
property.hive.root.loggr = DRFA
property.hive.log.dir = .
property.hive.log.file = hive.log

appenders = console, DRFA, lineage

# 这里省略 console, DRFA的配置 都是些常规配置
# ......
loggers = LineageLogger

# lineage
logger.lineageLogger.name = org.apache.hadoop.hive.ql.hooks.lineageLogger
logger.lineageLogger.level = INFO
logger.lineageLogger.additivity = false
logger.lineageLogger.appenderRefs = lineage
appender.lineage.type = RollingRandomAccessFile
appender.lineage.fileName = ${sys:hive.log.dir}/hive_lineage.log
appender.lineage.filePattern = ${sys:hive.log.dir}/hive_lineage.log.%d{yyyy-MM-dd}
appender.lineage.layout.type = PatternLayout
appender.lineage.layout.pattern = %m%n

hive脚本运行前指定日志配置文件，并设置钩子

set hive.log4j.file=hive-log4j2.properties
set hive.exec.post.hooks=org.apache.hadoop.hive.ql.hooks.LineageLogger

运行

经过以上配置，hive脚本执行完毕后，会在服务器本地生成一个日志文件: hive_lineage.log
解析该日志文件，即可得到字段级别的血缘关系

举例

如，执行下面的hiveQL

CREATE TABLE tmp_zone_info AS
SELECT z.zoneid AS zone_id,
         z.zonename AS zone_name,
         c.cityid AS city_id,
         c.cityname AS city_name
FROM dict_zoneinfo z
LEFT JOIN dict_cityinfo c
    ON z.cityid = c.cityid
        AND z.dt='20210218'
        AND c.dt='20210218'
WHERE z.dt='20210218'
        AND c.dt='20210218';

得到的日志文件，经格式化如下图所示(摘抄自网络):

{
    "version": "1.0",
    "user": "hadoop",
    "timestamp": 1510307578,
    "duration": 30629,
    "jobIds": [
        "job_1509088410884_16739"
    ],
    "engine": "mr",
    "database": "cxy7_dw",
    "hash": "4484378cebc5e2b0b55fb34368d861b0",
    "queryText": "CREATE TABLE tmp_zone_info AS SELECT z.zoneid AS zone_id,z.zonename AS zone_name, c.cityid AS city_id, c.cityname AS city_name FROM dict_zoneinfo z LEFT JOIN dict_cityinfo c ON z.cityid = c.cityid AND z.dt='20171109' AND c.dt='20171109' WHERE z.dt='20171109' AND c.dt='20171109'",
    "edges": [
        {
            "sources": [
                4
            ],
            "targets": [
                0
            ],
            "edgeType": "PROJECTION"
        },
        {
            "sources": [
                5
            ],
            "targets": [
                1
            ],
            "edgeType": "PROJECTION"
        },
        {
            "sources": [
                6
            ],
            "targets": [
                2
            ],
            "edgeType": "PROJECTION"
        },
        {
            "sources": [
                7
            ],
            "targets": [
                3
            ],
            "edgeType": "PROJECTION"
        },
        {
            "sources": [
                8,
                6
            ],
            "targets": [
                0,
                1,
                2,
                3
            ],
            "expression": "(z.cityid = c.cityid)",
            "edgeType": "PREDICATE"
        },
        {
            "sources": [
                9
            ],
            "targets": [
                0,
                1,
                2,
                3
            ],
            "expression": "(c.dt = '20171109')",
            "edgeType": "PREDICATE"
        },
        {
            "sources": [
                10,
                9
            ],
            "targets": [
                0,
                1,
                2,
                3
            ],
            "expression": "((z.dt = '20171109') and (c.dt = '20171109'))",
            "edgeType": "PREDICATE"
        }
    ],
    "vertices": [
        {
            "id": 0,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.tmp_zone_info.zone_id"
        },
        {
            "id": 1,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.tmp_zone_info.zone_name"
        },
        {
            "id": 2,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.tmp_zone_info.city_id"
        },
        {
            "id": 3,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.tmp_zone_info.city_name"
        },
        {
            "id": 4,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.dict_zoneinfo.zoneid"
        },
        {
            "id": 5,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.dict_zoneinfo.zonename"
        },
        {
            "id": 6,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.dict_cityinfo.cityid"
        },
        {
            "id": 7,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.dict_cityinfo.cityname"
        },
        {
            "id": 8,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.dict_zoneinfo.cityid"
        },
        {
            "id": 9,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.dict_cityinfo.dt"
        },
        {
            "id": 10,
            "vertexType": "COLUMN",
            "vertexId": "cxy7_dw.dict_zoneinfo.dt"
        }
    ]
}

日志文件中对表中的字段进行了编码，通过source/target表示字段的血缘关系，格式比较简单，不再赘述。这里说明一下，edgeType 有 PREDICATE(谓语) 和 PROJECTION（投射）两种取值，PROJECTION投射就是我们要的数据血缘， PREDICATE谓语则是一些过滤逻辑。
需要注意的是，这里使用with语法时，无法打出血缘。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

hive字段级别血缘实现

背## 背景

准备工作

运行

举例

推荐阅读更多精彩内容