240 发简信
IP属地:广东
  • Resize,w 360,h 240
    Spark sql 解析原理

    引用:Spark SQL架构和原理[https://zhuanlan.zhihu.com/p/107904954]Spark SQL 性能优化再...

  • 关于SparkStreaming 缓存KafkaCosumer导致多个线程使用一个Cosumer对象报错解决思路

    现象 可以通过以上异常看到“Block rdd_722700_5 could not be removed as it was not foun...

  • Spark调优

    Spark参数调优: num-executors建议:一般设置50~100左右 executors-memory建议:4G8G,不超过整个集群资...

  • Resize,w 360,h 240
    Hive分析函数

    Hive分析函数 Example: Ntile(分片) 使用场景:计算百分之几的用户的结果 给了用户和每个用户对应的消费信息表, 计算花费前50...

  • Hbase面试题

    1.Hbase的特点 分布式面向列存储 主从结构 合适存储半结构化数据或者非结构化数据 Null不会存储,没有数据类型 cell存储的是字节数组...

  • Resize,w 360,h 240
    Kafka面试题

    1.Kafka定义 Kafka是分布式的发布订阅消息系统,可划分的,冗余备份的持久性日志服务 2.Kafka的作用 缓冲削峰 解耦可扩展 异步 ...

  • Resize,w 360,h 240
    数仓初探

    ’## 数仓特征: 面前主题:数据分析问题,一个主题对应一个分析领域,如:用户行为 集成:面向企业级的数据,数据具有完整性,一致性,精准性 变化...

  • SparkStreaming限速

    SparkStreaming限速 Spark端限速 调整spark.streaming.kafka.maxrateperpartiton参数,它...