使用Flink批处理完成数据比对(对账)二

使用Flink批处理完成数据比对(对账)一中,我们只是简单的实现了F000/F113/F114的情况,如果我的需求场景需要实现F115的场景该怎么办呢?

编写代码

在上一篇文章的基础上完成代码如下:

import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.operators.MapOperator;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.java.BatchTableEnvironment;

import java.util.List;

/***
 * <strong>对账流程</strong>
 * <ol>
 * <li>两方文件处理如下:</li>
 * <ul>
 * <li>所有唯一性字段(如OrderNO)存放到一个table1</li>
 * <li>所有唯一性字段+比较字段(如OrderNO+OrderMoney)存放到一个table2</li>
 * </ul>
 * <li>比对
 * <ul>
 * <li>两个文件的table1做差集可以得到F113、F114</li>
 * <li>两个文件的table1做交集可以得到F000+F115</li>
 * <li>两个文件的set2做差集可以得到F113+F115</li>
 * <li>F113+F115去除比较字段,只留下关键字段</li>
 * <li>去除F113+F115中的F113,得到F115</li>
 * <li>去除F000+F115中的F115,得到F000</li>
 * </ul>
 * </ol>
 */
public class BatchJob2 {

    public static void main(String[] args) throws Exception {
        // set up the batch execution environment
        final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // Table Environment
        BatchTableEnvironment tableEnvironment = BatchTableEnvironment.getTableEnvironment(env);

        /**
         * 构造两个数据集,实际生产从自己需要的source中获取即可
         */
        // 只包含唯一性(用于关联)字段的数据源
        DataSource<String> dataSourceA_unique = env.fromElements("orderId_1_f113", "orderId_2_f000", "orderId_3_f115");
        DataSource<String> dataSourceB_unique = env.fromElements("orderId_2_f000", "orderId_3_f115", "orderId_4_f114");
        // 包含唯一性字段和比较字段
        DataSource<String> dataSourceA_compare = env.fromElements("orderId_1_f113:payment_1", "orderId_2_f000:payment_2", "orderId_3_f115:payment_33");
        DataSource<String> dataSourceB_compare = env.fromElements("orderId_2_f000:payment_2", "orderId_3_f115:payment_333", "orderId_4_f114:payment_4");

        // 转换成table
        Table tableA_unique = tableEnvironment.fromDataSet(dataSourceA_unique);
        Table tableB_unique = tableEnvironment.fromDataSet(dataSourceB_unique);
        Table tableA_compare = tableEnvironment.fromDataSet(dataSourceA_compare);
        Table tableB_compare = tableEnvironment.fromDataSet(dataSourceB_compare);

        /**
         * 核心对账逻辑
         */
        Table f113_table = tableA_unique.minusAll(tableB_unique);
        Table f114_table = tableB_unique.minusAll(tableA_unique);
        Table f000_f115_table = tableA_unique.intersect(tableB_unique);

        Table f113_f115_compare_table = tableA_compare.minusAll(tableB_compare);
        // 拆分,留下唯一性字段
        Table f113_f115_table = convert(tableEnvironment, f113_f115_compare_table);

        Table f115_table = f113_f115_table.minusAll(f113_table);
        Table f000_table = f000_f115_table.minusAll(f115_table);

        DataSet<String> f000 = tableEnvironment.toDataSet(f000_table, String.class);
        DataSet<String> f113 = tableEnvironment.toDataSet(f113_table, String.class);
        DataSet<String> f114 = tableEnvironment.toDataSet(f114_table, String.class);
        DataSet<String> f115 = tableEnvironment.toDataSet(f115_table, String.class);


        /**
         * 输出,实际输出到自己需要的sink即可
         */
        List<String> f000_list = f000.collect();
        List<String> f113_list = f113.collect();
        List<String> f114_list = f114.collect();
        List<String> f115_list = f115.collect();

        System.out.println("==============================");
        System.out.println("f000 ->" + f000_list);
        System.out.println("==============================");
        System.out.println("f113 ->" + f113_list);
        System.out.println("==============================");
        System.out.println("f114 ->" + f114_list);
        System.out.println("==============================");
        System.out.println("f115 ->" + f115_list);

    }

    private static Table convert(BatchTableEnvironment tableEnvironment, Table inputTable) {
        DataSet<String> f000_compare_dataset = tableEnvironment.toDataSet(inputTable, String.class);
        MapOperator<String, String> map = f000_compare_dataset.map(e -> {
            return e.split(":")[0];// 留下前半段,关键字段
        });
        return tableEnvironment.fromDataSet(map);
    }
}

中间的处理逻辑在代码中对注释清楚了。

源码

源码

总结

需要知道两边都有数据(订单号相同)但存在差异的情况需要处理的步骤多点。
如果你有更好的想法,欢迎留言,多多指教。
转载请注明出处

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容