坨坨的大数据 - 简书

发简信

坨坨的大数据

1
关注
278
粉丝
95
文章
224047

字数
420

收获喜欢
82

总资产

IP属地：广东

坨坨的大数据

where 1=1 是什么意思？？？
where 1=1 先来看一段代码上面的代码很熟悉，就是查询符合条件的总条数。在mybatis中常用到if标签判断where子句后的条件，为防止首字段为空导致sql报错。 ...

1167 0 12
坨坨的大数据

Hive参数与性能企业级调优（建议收藏）
Hive作为大数据平台举足轻重的框架，以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建...

430 1 2

坨坨的大数据

千万级数据查询：CK、ES、RediSearch怎么选?
目录前言初版设计方案 CK 分页查询使用ES Scroll Scan 优化深翻页 ES+Hbase 组合查询方案 RediSearch+RedisJSON 优化方案总...

1818 1 13
坨坨的大数据

如何解决Elasticsearch的深度翻页问题
使用ES做搜索引擎拉取数据的时候，如果数据量太大，通过传统的from + size的方式并不能获取所有的数据（默认最大记录数10000），因为随着页数的增加，会消耗大量的内存...

2443 0 22
坨坨的大数据

一次SQL查询优化原理分析：900W+数据，从17s到300ms（减少回表查询）
有一张财务流水表，未分库分表，目前的数据量为9555695，分页查询使用到了limit，优化之前的查询耗时16 s 938 ms (execution: 16 s 831 m...

338 0 1
坨坨的大数据

7000字，详解仓湖一体架构！
一、什么是数据仓库、数据集市和数据湖？ 1、数据仓库早期系统采用数据库来存放管理数据，但是随着大数据技术的兴起，大家想要通过大数据技术来找到数据之间可能存在的关系，所以...

2117 0 2
坨坨的大数据

Kafka 万亿级消息实践之资源组流量掉零故障排查分析
一、Kafka 集群部署架构为了让读者能与小编在后续的问题分析中有更好的共鸣，小编先与各位读者朋友对齐一下我们 Kafka 集群的部署架构及服务接入 Kafka 集群的流程...

237 0 1

坨坨的大数据

数据狂欢-解析数据集市|学习笔记
一、怎么正确理解数据集市举个例子：数据集市就像宜家楼上的展厅，这是一个面向最终用户的数据市场，在这里，数据（家具）以一种更加容易被业务人员接受的方式组合在一起，这些组合方...

2701 0 6
坨坨的大数据

Flink重点难点：维表关联理论和Join实战
Flink 案例实战演练 Flink维表Join实践常见的维表Join方式有四种：预加载维表热存储维表广播维表 Temporal table function joi...

1469 0 2
坨坨的大数据

kafka+flink 流级别顺序保证
1 、顺序保证难点 Kafka 作为一款性能优秀的消息队列，在分布式事务中有着广泛地应用，其为了做到水平扩展，达到提高并发的目的，将一个 topic 分布到多个 broker...

2926 0 1
坨坨的大数据

一文读懂元数据管理！
数字化时代，企业需要知道他们拥有什么数据，数据在哪里、由谁负责，数据中的值意味着什么，数据的生命周期是什么，哪些数据安全性和隐私性需要保护，以及谁使用了数据，用于什么业务目的...

3228 1 12
坨坨的大数据

Flink双流实时对账
背景在电商、金融、银行、支付等涉及到金钱相关的领域，为了安全起见，一般都有对账的需求。比如，对于订单支付事件，用户通过某宝付款，虽然用户支付成功，但是用户支付完成后并不算...

2653 0 14

坨坨的大数据

数据倾斜导致子任务积压
业务背景：一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合落hbase，两个子任务接的是同一个Topic GroupI...

488 0 6
坨坨的大数据

Flink水印不能触发窗口计算问题详解
遇到的问题按道理窗口为4s,允许最大延迟是3s，那么当第一条数据01,1586489566000–2020-04-10 11:32:46进来后的窗口是 44s-48s。然...

937 0 1
坨坨的大数据

记一次 Flink 反压问题排查过程
问题出现根据subtask的watermark发现延迟了10几分钟，然后查看是否有异常或者BackPressure的情况最终发现，source->watermarks->f...

1190 0 2
坨坨的大数据

Flink CDC 原理、实践和优化
CDC 变更数据捕获技术可以将源数据库的增量变动记录，同步到一个或多个数据目的。本文基于腾讯云 Oceanus 提供的 Flink CDC 引擎，着重介绍 Flink 在变更...

14385 1 29
坨坨的大数据

Flink SQL 性能优化实战
缘起最近我们组在大规模上线Flink SQL作业。首先，在进行跑批量初始化完历史数据后，剩下的就是消费Kafka历史数据进行追数了。但是发现某些作业的追数过程十分缓慢，要运...

2072 1 6

坨坨的大数据

flink - 实时 - UV统计 - 布隆过滤器实现
1.知识点 scala输入输出样例类 keyBy并行度为1计算UV的技巧 map(data => ("uv", data.userId))..keyBy(_._1) keyB...

1557 0 5
坨坨的大数据

Flink - 实时 - 广告分析
1.知识点 scala样例类 flink读文件 assignAscendingTimestamps水位线 KeyedProcessFunction<K, I, O>使用 fl...

731 0 4

个人介绍

搜罗大数据相关文章、大数据面试题、用户画像、供应链