240 发简信
IP属地:上海
  • 120
    从Kylin入门到大数据老司机

    一、UML基础 为什么要使用UML 对象是面向对象世界的核心。面向对象软件分析和设计,最基本的需求是高效的识别对象,完成对象识别之后,赋予每个对象相应的功能或职责。在完成以上...

  • 开源数据流管道-Luigi vs Azkaban vs Oozie vs Airflow

    随着企业的发展,他们的工作流程变得更加复杂,越来越多的有着错综复杂依赖关系的工作流需要增加监控,故障排除。如果没有明确的血缘关系。就可能出现问责问题,对元数据的操作也可能丢失...

  • 120
    由一条SQL分析SparkSQL执行过程(三)

    对于下面一段SQL 在由一条SQL分析SparkSQL执行过程(二)中,我们分析到Spark如何封装SessionState,使得用户只需要通过SparkSQL入口Spark...

  • 120
    由一条SQL分析SparkSQL执行过程(二)

    对于下面一段SQL 在上一部分,我们分析了SparkSQL的建议执行流程图。我们知道一条SQL在Spark执行要经历以下几步: 用户提交SQL文本 解析器将SQL文本解析成逻...

  • 120
    由一条SQL分析SparkSQL执行流程(一)

    现有下面这段SQL语句 这段SQL是从日志表中拿出用户点击PV(clk_pv),再去和用户表关联,按照用户分组,再对点击pv求和,同时,还过滤了fr(平台)是android的...

  • 120
    根据分子运动预测双色球走势(三)-数据清洗和机器学习

    一、问题 在爬取到双色球开奖的历史数据和开奖当日20-22点的气候数据之后,我们面临的问题是: 选择什么样的算法寻找天气数据和双色球开奖结果的关系(只选择蓝球) 为实现1的算...

  • Spark On ElasticSearch初探

    一、写在前面 ElasticSearch 是一个快速索引检索的库。在实践中,我们用Hbase 存储海量业务数据,再通过ES存储索引,以这种相互结合的方式,将数据暴露给Web服...

  • Hbase-Spark BulkLoad 解析

    一、背景 项目中有需求,要频繁地、快速地向一个表中初始化数据。因此如何加载数据,如何提高速度是需要解决的问题。一般来说,作为数据存储系统会分为检索和存储两部分。检索是对外暴露...

  • Scala爬虫刷博客阅读量

    一、写在前面 最近尝试在简书上写一些技术博客。每天看着可怜的阅读量很是着急。刚好最近接触爬虫,有需求就有办法。因此想到能否用爬虫刷阅读量呢?答案是可行的。 友情提示:酒香不怕...

  • 构建一个Spark project(Spark 开发入门)

    一、写在前面 由于Spark 的速度,API 的易用性,Spark在行业中的使用越来越广泛。Hbase 在2.0 alpha 版之后也加入对Spark的支持;ElasticS...

  • 一种Join时数据倾斜的解决方法

    一、引子 在用Spark SQL编程时,不论是执行SQL语句,还是编写算子提交SparkSubmit 执行,在DataFrame 上的操作大致都会经历以下过程: 在关系型数据...

  • Spark SQL 多列聚合的几种方法

    一、引子 项目中遇到这样一张表:user 要求对这个表按照sid 进行聚合,将所有的id聚合成一个json,所有的tag聚合成一个json。在hive和Spark中,对tag...

  • Spark Sql Row 的解析

    在Spark SQL 编程时,经常需要对获取的DataFrame 对象进行map 操作。map 基于的元素是Row. 那么如何操作Row呢? 1. get 方法 2. 使用类...

  • Spark使用GeoLiteCity字典库解析IP

    一、背景 用户画像项目中,埋点数据获取到移动端、PC端用户IP, 业务需求从IP解析出IP对应的地址。分析发现,数据有以下特点:1. 用户类型为Global,IP 为全球范围...

  • Hbase rowKey 设计与预分区建表

    Hbase RowKey 设计 使用Spark或通过REST/API 方式存取Hbase,性能影响最大的因素在于Hbase 的结构设计。Hbase 结构设计包括两个方面 ro...

  • Spark 操作hbase(构建一个支持更新和快速检索的数据库)

    一、背景 在用户画像的系统中,需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。组件如下: 因而提出以下几个问题: Spark 作为内存计算引擎强于计算,Hbas...