spark从入门到放弃三十九:Spark Sql(12)SparkSql工作原理以及性能优化

文章地址：http://www.haha174.top/article/details/257073
1工作原理

1.大家都知道，只要在数据库类型的技术里面，比如,最传统的mysql,Oracle包括现在大数据领域的数据仓库如Hive ，他的基本Sql 执行的模型，都是类似的，首先生成一条SQL 语句的执行计划。例如Select name from names => 解析成从哪里去查询（names 表在那个文件里面，从文件中查询那么些数据（name 列））此外复杂的sql 比如查询时对表中的数据进行筛选，函数操作；还有更复杂的如多表join ，在传统数据库中（如mysql ）还涉及到如何扫描和利用索引。

2.实际上比如说传统的orical数据库，通常就会生成多个执行计划，然后呢，最后有一个优化器，针对多个计划选择一个最好的计划。而sparkSql z这里的优化指的是，刚生成的执行计划中，有些地方的性能是显而易见的。比如说这里有一个sql 语句select name from (select name from .....) where ...... 此时在执行计划解析出来的时候，其实呢就是按照它原封不动的样子来解析成，可是执行的计划呢，在这里就会进行优化，，比如说发现where 条件其实可以放到子查询中，这样子查询的数据量就会大大减少，可以优化执行数据，此时可能就会编程如下这样，select name from (select name from ..... where ...... )
3.执行物理计划，就类似于从哪个文件去读取数据，从那几个文件读取数据进行怎样的关联等等，
4执行物理计划
5.转换RDD
图解如下：

这里写图片描述

2性能优化

1.设置shuffle 过程中的并行度： spark.sql.shuffle.partitions
2.在Hive 仓库建设过程中，合理这是数据类型，比如设置能设置Int，就不要设置BIGINT 较少数据类型导致的不必要的内存开销。
3.编写sql 时尽量给出明确的列明比如select name 这种方式不要使用 select * 方式
4.并行处理查询结果：对于sparkSql 查询结果如果数据量比较大的，比如超过了1000条那么不要一次性的collent 到driver 在处理。使用foreach 算子并行处理查询结果。
5.缓存表：对于一个SQL语句中可能多次使用到的表，可以进行缓存，使用
Sqlcontext.cacheTable(tableName) 或者DataSet.cache 即可SparkSql 会用内存列存储的格式进行表的缓存，然后SparkSql 就可以仅仅扫描需要使用到的列，并且自动优化压缩，来最小化内存使用和gc 开销。sqlContext.unCachetable(tableName)可以将表从缓存中移除。使用sqlContext .setconf()设置spark.sql.inMemoryColumnarStorage.batchSize参数（默认10000），可以配置列存储的单位
6.广播join表：spark.sql.autoBtoadcastJoinThresould 默认10485760（10M）在存储足够的情况下，提高其大小，最大在多大以内可以被广播出去，而不用进行网络数据传输。
7.钨丝计划 spark.sql.tungsten.enabled 默认是true 自动管理内存
欢迎关注，更多福利

这里写图片描述

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

spark从入门到放弃三十九:Spark Sql(12)SparkSql工作原理以及性能优化

2性能优化

推荐阅读更多精彩内容