什么是小文件 Spark官方的推荐文档中,parquet格式的文件的推荐大小是128M,小于该值的文件均可以称为小文件。但在实际工作中,小文件的定义不是这么绝对,可能存在文件...
什么是小文件 Spark官方的推荐文档中,parquet格式的文件的推荐大小是128M,小于该值的文件均可以称为小文件。但在实际工作中,小文件的定义不是这么绝对,可能存在文件...
前几日在MySQL执行一条update语句时报错,报错信息如下: 通过搜索查到有很多类似的报错例子,区别只是在于有的是3072 bytes,有的是768bytes,于是总结了...
我们在通过Canal把MySQL的Binlog数据发送到MQ(kafak/rocketmq)时,需要关注mq的顺序性问题。Binlog本身是有序的,写入到mq之后如何保障顺序...
利用clickhouse中的toStartOf*()函数,将时间归属到相同点,然后利用分组统计即可。 toStartOf*()函数: toStartOfInterval() ...
现状 使用DataX从生产DB拉取数据时,正常的业务场景我们都是通过增量拉取做Merge的方式来限制抽取的数据量,但存在以下几种情况需要做大数据量的同步: 大表全量初始化 生...
在建设实时数仓的过程中,用到了Mysql存放增量的结果数据,所以需要定时清理历史数据,为了避免影响的线上的实时数据写入,采用了按照最后更改时间,分段删除的方法。对应的存储过程如下:
周末的时候在家收到了工作的告警通知,远程登录后发现是自运维的CK集群硬盘空间不足,通过命令查看各个目录的大小,确定是Zookeeper的日志及snapshot占用了绝大部分空...
Hive Join common join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Red...
前言 忙乱的1月马上就要过去了,连续20多天没更新,还是写点什么找找状态比较好。 最近我们服务ClickHouse集群的ZooKeeper znode数量一度突破了300万,...
转载文章,原文链接[https://www.jianshu.com/p/f219d207d853] 1. 查看CPU 1.1 查看CPU个数 1.2 查看CPU核数 1.3...
近期在自建数据分析平台的时候,遇到了事实表包含两个业务时间语义的问题,结合数仓事实表建设方面的方法论,整理记录一些自己的想法。事实表的通常可以划分为如下三类: 事务事实表 周...
背景 工作中遇到一个需求,需要按天划分窗口,并且每隔固定时间段触发一次窗口计算,时间语义为ProcessingTime。在测试过程中发现,使用ContinuousProces...
先上一张官方给出的1.10版本的内存模型图示: 然后再贴一张现在正在运行的flink任务与TaskManager内存有关的参数信息: 现在开始看图说话:从启动参数配置上,我们...
兄dei加油啊!在你这学到了不少东西👍👍👍
2020。2020年最后一天的最后一个小时了,还是来随便写两句吧。 技术/工作 有幸见证了我司业务的急速扩张,当然也全程参与了大数据架构的迭代与演进过程,特别是主导了实时数仓体系的建设...
更多大数据技术干货,欢迎关注“大数据技术进阶”微信公众号。 Shuffle简介 Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapR...
http://blog.csdn.net/yu616568/article/details/51868447背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,...