海量数据文件交互技术路线

同步方式

全量同步:周期的将源系统特定表的所有数据复制到目标系统中。

  • 简单可靠
  • 数据量较小,数据实时性要求不高的场景下首选
  • 不满足增量同步条件的场景下选择
  • 不适合大量数据同步的场景

增量同步:仅同步上一个同步周期之后,源系统表变动的数据。

  • 时间戳+业务主键:源系统增加时间戳,周期抽取时根据时间戳圈定抽取范围,落库时根据业务主键更新对应数据
  • 必须存在更新时间戳及业务主键
  • 暂不支持数据物理删除
  • 数据量较大,数据实时性要求较高场景下推荐
  • 建议兼容全量

表结构设计

获取源系统表结构,目的系统数据库中建立以下类型表

临时表:临时表暂存批量提交的数据。定时任务触发,从SFTP、共享目录下,获取推送的文件;批量解析并提交到临时表中;数据完全插入临时表

影子表:影子表对照业务系统建表,用于保存业务系统源数据(全局临时表效果更佳)。临时表入库阶段完成后,将临时表中数据单次提交至影子表中。临时表-影子表,分段提交的设计,实现大批量数据的事务管理

结果表:结果表面向业务逻辑,提供虚拟数据层服务。结果表屏蔽了源系统表设计的细节,保存源数据预处理后的结果

在数据预处理过程中,抽取业务流程所需字段需撰写SQL实现,则保证源系统与目的系统表结构设计一致尤为重要。

文件入库流程

文件获取:从SFTP或NFS中获取源数据文件,瓶颈在网速,调整数据量是解决问题的关键

数据加载:将文件载入内存,为后续解析入库做准备,瓶颈在IO,选择合适的IO模型是解决问题的关键

数据解析与预处理:例如header与body遵循不同的解析逻辑,瓶颈在CPU,满足任务划分、数据划分的前提下,多线程是解决问题的关键

数据入库:将处理好的数据落库,瓶颈在DB,批量提交与事务管理是解决问题的关键。

Tips:

  • 定时任务触发文件入库流程,xxljob集群调度存在多次发起的风险,目的系统解析入库亦建议单台服务器执行,需要实现分布式锁,建议采用数据库CAS锁的方式实现

  • 源系统按批次进行抽数、推送,相同批次中可能既有增量也有全量,设计初期需考虑增量全量兼容的问题

  • 交互数据为文本,且数据文件中有中文,采用字符流实现,批次读入,禁止未判定数据文件大小的全量Load操作

  • 下载、载入瓶颈在IO,单线程即可,解析数据及数据入库考虑多线程实现,为文件服务单独配置线程池,批量读取后多线程解析并入库

  • 合并SQL,减少SQL语句解析次数,减少IO,减少数据库日志量,降低日志刷盘的数据量和频率,但需要注意合并后SQL的长度,以及事务大小,即预估批量数据大小,设置合适的阈值

  • 数据首先批量提交至临时表中,待所有数据落库完成,再刷入影子表中,分段提交能够在海量数据的场景下实现事务管理

  • 线程池采用ArrayBlockingQueue、ThreadPoolExcecutor.callerRunsPolicy即可,不允许丢失数据

  • 读取文件时,需判定大小,尽量批次读入

  • 记得关闭流

  • 事务管理,包括临时表落库批量提交

  • 文件生成时按行生成,读取时按行读取,达到批量提交阈值,则触发自动提交

  • 文件处理可拆分为读取、解析、入库三个阶段,海量数据还可以考虑数据划分、任务划分,并行实现

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容