240 发简信
IP属地:广东
  • 自定义分词器

    前言 es能够实现快速的全文搜索,除了依赖其本身倒排索引的思想,还依赖其分词器 分析器 es本身内置了一些常用的分析器(analyzer),分析...

  • awk与sed命令用法整理

    awk awk是一种处理文本文件的语言,在对数据分析并生成报告时,表现的十分强大,简单来说awk就是八人间逐行的读入,以空格为默认分割符将每行切...

  • hive字段级别血缘实现

    背## 背景 为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源),需要构建hive字段级别的数据血缘,hive本身提供提供...

    11.8 4339 4 18
  • Resize,w 360,h 240
    jvm问题排查

    写在前面 线上系统中:如果突然运行缓慢,CPU 100%,以及Full GC次数过多的问题,最终导致的直观现象就是系统运行缓慢。本文主要针对系统...

  • Resize,w 360,h 240
    akka编程demo

    AKKA akka基于actor模型, 是一个用于构建可扩展的弹性的快速响应的应用程序的平台;actor模型:是一个并行计算模型。 它把acto...

  • spark Streaming 背压实现(对接kafka)

    本文的介绍以DirectDStream为例进行介绍 启动sparkStreaming的背压 涉及类 RateController: 背压入口,了...

  • Resize,w 360,h 240
    kylin cube优化

    1. 查看相关统计 1.1 查看cuboid物化状态 命令:./kylin.sh org.apache.kylin.engine.mr.comm...

  • kylin hbase迁移

    一、背景 现kylin作为数据源提供报表支撑的场景持续增多,经常出现查询慢的问题,为提高hbase支撑的稳定性,同时可以应对读写组合的情况,考虑...

  • es写优化

    es写入流程 写入lucene缓存,此时数据不可见,同时会写一份数据到translog; 如果此时写入成功,会将写请求转发到对应的副分片上. 到...