IP属地:广东
引用:Spark SQL架构和原理[https://zhuanlan.zhihu.com/p/107904954]Spark SQL 性能优化再...
现象 可以通过以上异常看到“Block rdd_722700_5 could not be removed as it was not foun...
Spark参数调优: num-executors建议:一般设置50~100左右 executors-memory建议:4G8G,不超过整个集群资...
Hive分析函数 Example: Ntile(分片) 使用场景:计算百分之几的用户的结果 给了用户和每个用户对应的消费信息表, 计算花费前50...
1.Hbase的特点 分布式面向列存储 主从结构 合适存储半结构化数据或者非结构化数据 Null不会存储,没有数据类型 cell存储的是字节数组...
1.Kafka定义 Kafka是分布式的发布订阅消息系统,可划分的,冗余备份的持久性日志服务 2.Kafka的作用 缓冲削峰 解耦可扩展 异步 ...
’## 数仓特征: 面前主题:数据分析问题,一个主题对应一个分析领域,如:用户行为 集成:面向企业级的数据,数据具有完整性,一致性,精准性 变化...
SparkStreaming限速 Spark端限速 调整spark.streaming.kafka.maxrateperpartiton参数,它...