01 什么是数据漂移 数据漂移指的是在数据同步过程之中,ODS表同一个业务日期包含前一天的数据或丢失了当天的数据、或者包含后一天的数据。 02 为什么会产生数据漂移 数仓OD...
01 什么是数据漂移 数据漂移指的是在数据同步过程之中,ODS表同一个业务日期包含前一天的数据或丢失了当天的数据、或者包含后一天的数据。 02 为什么会产生数据漂移 数仓OD...
Spark任务通过application id在Spark UI查看任务执行状态,任务大多数以on yarn的形式提交到Spark集群。 1、定义:yarn是一种hadoop...
Spark有BroadCastJoin、ShuffleHashJoin、SortMergeJoin三种join方式。首先讲一下hash join的过程。 hash join过...
1、union 和 union all的区别 union会对结果进行去重,union all会保留重复数据 2、窗口函数rank() over(order by )、dens...
1 整体优化思路 1、从数据任务本身出发,优化业务逻辑代码,偏业务优化 2、 从集群的资源参数进行优化,偏技术优化 3、从全局的角度观察任务的调度设置是否合理,优化任务优先级...
也许是因为我的盆友圈中有太多的程序员盆友吧!前几天一份关于宫保鸡丁的需求管理的文章刷爆了我的盆友圈。其文大意是一个客人来到饭店要了一份宫保鸡丁,逐次提出了不要肉、加腐竹、加茄...
给大家分享一些只有经历了才能深切感同身受的几句话,与君共勉: 1、人生没有彩排,看似有意无意的安排,都会成为成为界定结果。 2、愿你好好珍惜现在的每分每秒,结果不会说谎。 3...
01 国外有一个叫摩根的青年,每天闲的蛋疼,有天突发奇想——连续吃三十天麦当劳会怎样? 他说干就干,一日三餐都吃麦当劳,连吃三十天。 他还用摄像机记录下了这一过程。 三十天后...
2021 年,我给自己定的一个关键词是「平衡」。 说到平衡,可能很多人会想到工作和生活的平衡,所谓的 Work-Life Balance。但我并不喜欢这种说法,因为这意味着,...
Apache Flink是一个开源的分布式、高性能、高可用、准确的流处理框架。 主要由Java代码实现。 支持实时流(stream)处理和批(batch)处理,批数据只是流数...
1、在外面混,姿态别太卑微,有个性的人更能赢得别人尊重。 有些人遇到大佬,说话都发抖。就问你怕个啥?你花他钱了?吃他大米了?做过对不起他的事了? 越卑微,别人觉得你越弱,不如...
伏尔泰说过一句富有哲理的话,不经巨大的困难,不会有伟大的事业。这似乎解答了我的疑惑。 我认为, 我们不得不面对一个非常尴尬的事实,那就是, 从这个角度来看, 要想清楚,...
1.当你觉得自己想要死去时,你真的不是真想死,你只是不想这样活着。 2.认真做事的人,领导永远会把难干的工作派给你,因为只有你靠谱,指得住,不会连累到他被上级批评。好处永远是...
有两位老人,带着一头牛,用他们的半辈子,给这个问题做出了最好的回答。 分享给大家: “这是我父亲日记里的文字 这是他的青春 留下来的散文诗 多年以后我看着 泪流不止 我的父亲...
十几年前,还没有微博、微信、知乎。 但在网络上却有这样一个江湖——“天涯社区”,和它的名字一样,这里鱼龙混杂,又有情有义。当年的天涯孕育了一个又一个爆点:慕容雪村和他的《...