阿海与蜗牛 - 简书

发简信

阿海与蜗牛

0
关注
60
粉丝
16
文章
14938

字数
73

收获喜欢
9

总资产

IP属地：上海

阿海与蜗牛

从Kylin入门到大数据老司机
一、UML基础为什么要使用UML 对象是面向对象世界的核心。面向对象软件分析和设计，最基本的需求是高效的识别对象,完成对象识别之后，赋予每个对象相应的功能或职责。在完成以上...

1557 0 1
阿海与蜗牛

开源数据流管道-Luigi vs Azkaban vs Oozie vs Airflow
随着企业的发展，他们的工作流程变得更加复杂，越来越多的有着错综复杂依赖关系的工作流需要增加监控，故障排除。如果没有明确的血缘关系。就可能出现问责问题，对元数据的操作也可能丢失...

11208 0 5

阿海与蜗牛

由一条SQL分析SparkSQL执行过程（三）
对于下面一段SQL 在由一条SQL分析SparkSQL执行过程（二）中，我们分析到Spark如何封装SessionState，使得用户只需要通过SparkSQL入口Spark...

3788 0 9
阿海与蜗牛

由一条SQL分析SparkSQL执行过程（二）
对于下面一段SQL 在上一部分，我们分析了SparkSQL的建议执行流程图。我们知道一条SQL在Spark执行要经历以下几步：用户提交SQL文本解析器将SQL文本解析成逻...

6446 3 12
阿海与蜗牛

由一条SQL分析SparkSQL执行流程(一)
现有下面这段SQL语句这段SQL是从日志表中拿出用户点击PV（clk_pv），再去和用户表关联，按照用户分组，再对点击pv求和，同时，还过滤了fr(平台)是android的...

2617 1 9
阿海与蜗牛

根据分子运动预测双色球走势（三）-数据清洗和机器学习
一、问题在爬取到双色球开奖的历史数据和开奖当日20-22点的气候数据之后，我们面临的问题是：选择什么样的算法寻找天气数据和双色球开奖结果的关系（只选择蓝球）为实现1的算...

2684 1 0
阿海与蜗牛

Spark On ElasticSearch初探
一、写在前面 ElasticSearch 是一个快速索引检索的库。在实践中，我们用Hbase 存储海量业务数据，再通过ES存储索引，以这种相互结合的方式，将数据暴露给Web服...

1566 0 4

阿海与蜗牛

Hbase-Spark BulkLoad 解析
一、背景项目中有需求，要频繁地、快速地向一个表中初始化数据。因此如何加载数据，如何提高速度是需要解决的问题。一般来说，作为数据存储系统会分为检索和存储两部分。检索是对外暴露...

2380 0 2
阿海与蜗牛

Scala爬虫刷博客阅读量
一、写在前面最近尝试在简书上写一些技术博客。每天看着可怜的阅读量很是着急。刚好最近接触爬虫，有需求就有办法。因此想到能否用爬虫刷阅读量呢？答案是可行的。友情提示：酒香不怕...

1640 1 2
阿海与蜗牛

构建一个Spark project(Spark 开发入门)
一、写在前面由于Spark 的速度，API 的易用性，Spark在行业中的使用越来越广泛。Hbase 在2.0 alpha 版之后也加入对Spark的支持；ElasticS...

993 0 2
阿海与蜗牛

一种Join时数据倾斜的解决方法
一、引子在用Spark SQL编程时，不论是执行SQL语句，还是编写算子提交SparkSubmit 执行，在DataFrame 上的操作大致都会经历以下过程：在关系型数据...

2336 0 1
阿海与蜗牛

Spark SQL 多列聚合的几种方法
一、引子项目中遇到这样一张表：user 要求对这个表按照sid 进行聚合，将所有的id聚合成一个json，所有的tag聚合成一个json。在hive和Spark中，对tag...

11924 0 4

阿海与蜗牛

Spark Sql Row 的解析
在Spark SQL 编程时，经常需要对获取的DataFrame 对象进行map 操作。map 基于的元素是Row. 那么如何操作Row呢？ 1. get 方法 2. 使用类...

24907 0 1
阿海与蜗牛

Spark使用GeoLiteCity字典库解析IP
一、背景用户画像项目中，埋点数据获取到移动端、PC端用户IP，业务需求从IP解析出IP对应的地址。分析发现，数据有以下特点：1. 用户类型为Global，IP 为全球范围...

1739 0 1
阿海与蜗牛

Hbase rowKey 设计与预分区建表
Hbase RowKey 设计使用Spark或通过REST/API 方式存取Hbase，性能影响最大的因素在于Hbase 的结构设计。Hbase 结构设计包括两个方面 ro...

5656 0 10
阿海与蜗牛

Spark 操作hbase(构建一个支持更新和快速检索的数据库)
一、背景在用户画像的系统中，需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。组件如下：因而提出以下几个问题： Spark 作为内存计算引擎强于计算，Hbas...

3319 1 10
阿海与蜗牛

音乐
简书编，10167 篇文章，701968 人关注

音乐会友，用笔尖记录行走的音乐故事。投稿要求请参照音乐专题投稿要求:http://www.jianshu.com/p/1a526dfdf1f5。音乐是这里的一抹光芒，不论你是喜欢暖心求真的民谣风情，还是追求热情如火的摇滚巨星，不管你想要高冷帅气的爵士音乐，还是学习情满全身的流行小曲，rap、民歌。。只要有你喜欢音乐这里就会遇到。

阿海与蜗牛

创业
简书编，10121 篇文章，2156572 人关注

本专题仅收录与创业相关的内容，如：创业者经历、大学生创客心得、电子商务、创业项目分析、团队管理、商业模式、创客时评等。投稿指南详见：https://www.jianshu.com/p/40acca11e9ee 投稿须知： 1. 文章内容必须原创。 2. 字数在800—3000字（优秀文章可放宽）。图片不宜过多，800字/图。 3. 文章内容：思路清晰、一目了然、排版整洁 4. 文章內不得有任何推广信息。包括但不限于公众号、微博、微信，更不得在通过投稿后再修改文章加入推广信息。你可以将这些推广以及个人信息放在个人主页介绍里。