[dataguru]04SparkSQL原理和实践

//01Spark生态和安装部署.pdf
01Spark生态和安装部署图文百度文库
http://wenku.baidu.com/link?url=eCG-dk97jxI0wxtnywW3Sfqa5uZrY2yADQ3jbAvrxBAcnEsHTlV940CwMLg2dQgaJMSVGFED5R4H0fbJBRBtFuKhnTxtJovRlASDB_UGXf_

课程回顾





Spark 是一个大数据处理引擎(或者说是开发包),其核心是 Spark Core ,基础是 RDD ;
Spark 应用程序有两部分组成: driver 和 executor
Spark 应用程序可以在多种集群里运行: Mesos 、 YARN 、 Spark Standalone 、 AWS 。。。
Spark 应用程序的部署工具是 spark-submit
Spark 的源码编译方法
– Maven
– Sbt
– make-distribution
 Spark 应用程序之所以快不仅仅是由于基于内存计算,还和其工作原理相关
– DAG
– Schedule
– Cache()
– ...

例子解析.png

集群中运行架构.png

04SparkSQL原理和实践图文百度文库
http://wenku.baidu.com/view/f24bb3e65727a5e9856a61e4.html

什么是 hive
 由 facebook 开源 , 最初用于解决海量结构化的日志数据统计问题 ;
– ETL(Extraction-Transformation-Loading) 工具
 构建于 hadoop 的 hdfs 和 mapred 之上 , 用于管理和查询结构化 / 非结构化数据的数据仓库
 设计目的是让 SQL 技能良好 , 但 Java 技能较弱的分析师可以查询海量数据
– 使用 HQL 作为查询接口
– 使用 HDFS 作为底层存储
– 使用 MapRed 作为执行层
 2008 年 facebook 把 hive 项目贡献给 Apache

为什么 hive
大数据的挑战
 海量数据时代的到来
– IDC 数据表明 , 全球企业数据正以 55% 的速度逐
年增长 ,IDC 预计 , 到 2020 年 , 全球数字信息总
量将增长 44 倍。以某网络视频公司为例 : 每天
新增数据量高达 500G 。
 非结构化数据的爆炸式增长
– 有超过 80% 的数据都是非结构化的 , 如网站访问
日志、移动互联网数据和聊天交流工具记录等。
 存储和查询分析需要
– 愈加激烈的竞争要求对客户进行更加深入细致的
分析。
 传统技术无法胜任大数据的存储、管理、分析和挖掘
– 传统的关系型数据库以及 BI 分析工具通常只能
处理 GB 级别的结构化数据

hive 的缺点
 Hive 的 HQL 表达的能力有限
– 有些复杂运算用 HQL 不易表达
 Hive 效率较低
– Hive 自动生成 MapReduce 作业 , 通常不够智能 ;
– HQL 调优困难 , 粒度较粗
– 可控性差

//hive 的运行架构
hive 系统架构
元数据存储( Metastore )
驱动( Driver )
– 编译器
– 优化器
– 执行器
接口
– CLI
– HWI
– ThriftServer
Hadoop
– 用 MapReduce 进行计算
– 用 HDFS 进行存储

Paste_Image.png

hive 的运行架构.png

//
元数据存储( MetaStore )
– Derby
– MySQL

Paste_Image.png

//
hive 的运行架构
 驱动( Driver )
– 编译器( hive 的核心)
●
语法解析器( ParseDriver )
– 将查询字符串转换成解析树表达式
●
语法分析器( SemanticAnalyzer )
– 将解析树转换成基于语句块的内部查询表达式。
●
逻辑计划生成器( logical plan generator )
– 将内部查询表达式转换为逻辑计划,这些计划由逻辑操作树组成。
– 操作符是 hive 的最小处理单元 , 每个操作符处理代表一道 HDFS 操作或 MR 作业
●
查询计划生成器( query plan generator )
– 将逻辑计划转化成物理计划( MR Task )
– 优化器
●
优化器是一个演化组件。当前,它的规则是:列修剪,谓词下压。
– 执行器
●
编译器将操作树切分为一个 Task 链( DAG ),执行器会顺序执行其中所有 Task ;如
果 Task 链( DAG )不存在依赖关系时,可采用并发执行的方式进行 Job 的执行

//
hive 的运行架构
 接口
– CLI :为命令行工具,为默认服务
●
启动方式 bin/hive 或 bin/hive --service cli
– hwi :为 web 接口,可以通过浏览器访问 hive ,默认端口 9999
●
启动方式为 bin/hive --service hwi 。
– ThriftServer :通过 Thrift 对外提供服务,默认端口 10000
●
启动方式为 bin/hive --service hiveserver 。
 其他服务( bin/hive --service –help )
– metastore ( bin/hive --service metastore )
– hiveserver2 ( bin/hive --service hiveserver2 )
●
HiveServer2 是 HiveServer 的改进版本,它提供新的 Thrift
API 来处理 JDBC 或者 ODBC 客户端, Kerberos 身份验证,
多个客户端并发
●
HiveServer2 还提供了新的 CLI : BeeLine , Beeline 是 hiv
e 0.11 引入的新的交互式 CLI ,它基于 SQLLine ,可以作为
Hive JDBC Client 端访问 Hive Server 2 ,启动一个 beeline
就是维护了一个 session 。

//
 Hadoop
– 用 MapReduce 进行运算
– 存储在 HDFS
●
hive 中所有数据存储在 HDFS 上,包括数据模型中的 Table 、 Partition 、 Bucket
●
hive 的默认数据仓库目录是 /user/hive/warehouse ,在 hive-site.xml 中由 hive.meta
store.warehouse.dir 项定义
●
除了 External Table ,每个 Table 在数据仓库下都有一个相应的存储目录
●
当数据被加载至表中时 , 不会对数据进行任何转换,只是将数据移动到数据仓库目录。
●
Table 被删除时,表数据和元数据都被删除
●
External Table 被删除时,元数据都被删除,表数据不删除
●
表中的一个 Partition 对应表下的一个子目录
– 表 log -> /user/hive/warehouse/log
– log 中含 year 和 month 两个 partition ,则:
– 对于 year=2014 , month=6 的子目录为 log/year=2014/month=6
– 对于 year=2014 , month=7 的子目录为 log/year=2014/month=7
●
每个 Bucket 对应一个文件

//
hive 的数据模型





Database
Table
Partition
Bucket
File

//
shark 运行架构

Paste_Image.png

//
SparkSQL 运行架构

Paste_Image.png

SparkSQL 运行架构
 TreeNode 体系
Logical Plans 、 Expressions 、 Physical Opera
tors 都可以使用 Tree 表示
– TreeNode 具备一些 scala collection 的操作能力
和树遍历能力,树的修改是以替换已有节点的方
式进行的。
– TreeNode ,内部带一个 children: Seq[BaseTyp
e] 表示孩子节点,具备 foreach 、 map 、 collec
t 等针对节点操作的方法,以及 transformDow
n 、 transformUp 这样的遍历树上节点,对匹配
节点实施变化的方法。
– 三种 trait
●
UnaryNode 一元节点,即只有一个孩子节
点。 Linit 、 Filter
●
BinaryNode 二元节点,即有左右孩子的二叉
节点。 Jion 、 Union
●
LeafNode 叶子节点,没有孩子节点的节点。
SetCommand

//
整体运行过程

Paste_Image.png

05Spark Streaming原理和实践图文百度文库
http://wenku.baidu.com/view/03f5fe1e71fe910ef02df83f
05Spark Streaming原理和实践

//06Spark 机器学习入门.pdf
06Spark 机器学习入门图文百度文库
http://wenku.baidu.com/link?url=cexKzbgLGg9EYB8kqcb9XaxC3aaQm1r8RYFqjGwNulGxBXWVsvILFQQzT1akmsUVuWw5RMQ0cIs5okgDldxfVzehpBUadyiAsnDfDRKjnGa

什么是机器学习
 机器学习应用十分广泛
– 数据挖掘
– 计算机视觉
– 自然语言处理
– 生物特征识别
– 搜索引擎
– 医学诊断
– 检测信用卡欺诈
– 证券市场分析
– DNA 序列测序
– 语音和手写识别
– 战略游戏和机器人运用

机器学习分类
 监督学习从给定的训练数据集中学习出一个函数(模型),当新的数据到来时,可以根据这个函
数(模型)预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练
集中的目标是由人标注(标量 ) 的。常见的监督学习算法包括回归分析和统计分类。
– 二元分类是 ML 要解决的基本问题,将测试数据分成两个类。如垃圾邮件的判别、房贷是否允
许等等问题的判断。
– 多元分类是二元分类的逻辑延伸。例如,在因特网的流分类的情况下,根据问题的网页可以
被归类为体育,新闻,技术,或成人 / 色情,依此类推。
 无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
 半监督学习介于监督学习与无监督学习之间。
 增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到
的周围环境的反馈来做出判断。

实例演示
– K-Means 算法介绍和实例
– 协同过滤算法介绍和实例

Paste_Image.png

K-Means
 K-Means 是聚类的一个算法,是一个无监督学习,目标是将一部分实体根据某种意义上的相似度
和另一部分实体聚在一起。聚类通常被用于探索性的分析。
 算法:
– 1 选择 K 个点作为初始中心
– 2 将每个点指派到最近的中心 , 形成 K 个簇 ( 聚类 )
– 3 重新计算每个簇的中心
– 4 重复 2-3 直至中心不发生变化
 距离
– 绝对值距离
– 欧氏距离
– 闵可夫斯基距离
– 切比雪夫距离
– 马氏距离

协同过滤
 协同过滤常被应用于推荐系统。这些技术旨在补充用户 - 商品关联矩阵中所缺失的部分。
 MLlib 当前支持基于模型的协同过滤,其中用户和商品通过一小组隐性因子进行表达,并且这些
因子也用于预测缺失的元素。 MLLib 使用交替最小二乘法 (ALS) 来学习这些隐性因子。
 在 MLlib 中的实现有如下的参数 :
– numBlocks 是用于并行化计算的分块个数 ( 设置为 -1 为自动配置 ) 。
– rank 是模型中隐性因子的个数。
– iterations 是迭代的次数。
– lambda 是 ALS 的正则化参数。
– implicitPrefs 决定了是用显性反馈 ALS 的版本还是用适用隐性反馈数据集的版本。
– alpha 是一个针对于隐性反馈 ALS 版本的参数,这个参数决定了偏好行为强度的基准

最后编辑于：2017.12.04 06:15:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

[dataguru]04SparkSQL原理和实践

推荐阅读更多精彩内容