黑猴子的家:Spark Sql 开窗函数

1、SparkSession

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
case class Score(name: String, clazz: Int, score: Int)
object OverFunction extends App {
  val sparkConf = new SparkConf().setAppName("over").setMaster("local[*]")
  val spark = SparkSession.builder().config(sparkConf).enableHiveSupport()
    .getOrCreate()

      ... ...

  spark.stop()
}

2、原始的班级表数据

(1)原始的班级表 -> code

  import spark.implicits._
  println("***************  原始的班级表数据  ****************")
  val scoreDF = spark.sparkContext.makeRDD(Array( Score("a", 1, 80),
    Score("b", 1, 78),
    Score("c", 1, 95),
    Score("d", 2, 74),
    Score("e", 2, 92),
    Score("f", 3, 99),
    Score("g", 3, 99),
    Score("h", 3, 45),
    Score("i", 3, 55),
    Score("j", 3, 78))).toDF("name","class","score")
  scoreDF.createOrReplaceTempView("score")
  scoreDF.show()

(2)原始的班级表数据

***************  原始的班级表数据  ****************
+----+-----+-----+
|name|class|score|
+----+-----+-----+
|   a|    1|   80|
|   b|    1|   78|
|   c|    1|   95|
|   d|    2|   74|
|   e|    2|   92|
|   f|    3|   99|
|   g|    3|   99|
|   h|    3|   45|
|   i|    3|   55|
|   j|    3|   78|
+----+-----+-----+

3、求每个班最高成绩学生的信息(方式一 开窗函数)

(1)rank()

spark.sql("select name,class,score,rank() over(partition by class order by " +
    "score desc) rank from score").show()

(2)rank() -> show()

+----+-----+-----+----+
|name|class|score|rank|
+----+-----+-----+----+
|   c|    1|   95|   1|
|   a|    1|   80|   2|
|   b|    1|   78|   3|
|   f|    3|   99|   1|
|   g|    3|   99|   1|
|   j|    3|   78|   3|
|   i|    3|   55|   4|
|   h|    3|   45|   5|
|   e|    2|   92|   1|
|   d|    2|   74|   2|
+----+-----+-----+----+

(3)rank = 1

spark.sql("select * from " +
    "( select name,class,score,rank() over(partition by class " +
    "order by score desc) rank from score) " +
    "as t " +
    "where t.rank=1").show()

(4)rank = 1 -> show()

+----+-----+-----+----+
|name|class|score|rank|
+----+-----+-----+----+
|   c|    1|   95|   1|
|   f|    3|   99|   1|
|   g|    3|   99|   1|
|   e|    2|   92|   1|
+----+-----+-----+----+

(5)row_number()

spark.sql("select name,class,score,row_number() over(partition by class " +
    "order by score desc) rank from score").show()

(6)row_number() -> show()

+----+-----+-----+----+
|name|class|score|rank|
+----+-----+-----+----+
|   c|    1|   95|   1|
|   a|    1|   80|   2|
|   b|    1|   78|   3|
|   f|    3|   99|   1|
|   g|    3|   99|   2|
|   j|    3|   78|   3|
|   i|    3|   55|   4|
|   h|    3|   45|   5|
|   e|    2|   92|   1|
|   d|    2|   74|   2|
+----+-----+-----+----+

4、求每个班最高成绩学生的信息(方式二 Group By)

(1)先求出每个班级的最高成绩

spark.sql("select class, max(score) max from score group by class").show()

(2)先求出每个班级的最高成绩 -> show()

+-----+---+
|class|max|
+-----+---+
|    1| 95|
|    3| 99|
|    2| 92|
+-----+---+

(3)再求每个班最高成绩学生的信息

spark.sql("select a.name, b.class, b.max from score a, " +
    "(select class, max(score) max from score group by class) as b " +
    "where a.score = b.max").show()

(4)再求每个班最高成绩学生的信息 -> show()

+----+-----+---+
|name|class|max|
+----+-----+---+
|   e|    2| 92|
|   c|    1| 95|
|   f|    3| 99|
|   g|    3| 99|
+----+-----+---+

5、group by 和 开窗函数的区别

(1)group by 和 开窗函数都能实现
(2)group by 是做了一个join操作
(3) 所以不管是 Hive 还是 Spark Sql 都会发生数据倾斜,都会shuffle
(4)开窗函数 rank() over(partition by class order by score desc)
over就是开窗函数, over前面的rank叫做分析函数
执行分析函数rank,这个rank就是排名,怎么排呢??
先按照 class班级分区,再按照成绩降序排序
rank 做了什么事呢?? 就是把降序排序全部加上来,辅助列

6、rank()等常用函数

  println("rank()跳跃排序,有两个第二名时后边跟着的是第四名\n" +
    "dense_rank() 连续排序,有两个第二名时仍然跟着第三名\n" +
    "over()开窗函数:\n" +
    "       在使用聚合函数后,会将多行变成一行,而开窗函数是将一行变成多行;\n" +
    "       并且在使用聚合函数后,如果要显示其他的列必须将列加入到group by中,\n" +
    "       而使用开窗函数后,可以不使用group by,直接将所有信息显示出来。\n" +
    "        开窗函数适用于在每一行的最后一列添加聚合函数的结果。\n" +
    "常用开窗函数:\n" +
    "   1.为每条数据显示聚合信息.(聚合函数() over())\n" +
    "   2.为每条数据提供分组的聚合函数结果" +
    "          (聚合函数() over(partition by 字段) as 别名) \n" +
    "         --按照字段分组,分组后进行计算\n" +
    "   3.与排名函数一起使用(row number() over(order by 字段) as 别名)\n" +
    "常用分析函数:(最常用的应该是1.2.3 的排序)\n" +
    "   1、row_number() over(partition by ... order by ...)\n" +
    "   2、rank() over(partition by ... order by ...)\n" +
    "   3、dense_rank() over(partition by ... order by ...)\n" +
    "   4、count() over(partition by ... order by ...)\n" +
    "   5、max() over(partition by ... order by ...)\n" +
    "   6、min() over(partition by ... order by ...)\n" +
    "   7、sum() over(partition by ... order by ...)\n" +
    "   8、avg() over(partition by ... order by ...)\n" +
    "   9、first_value() over(partition by ... order by ...)\n" +
    "   10、last_value() over(partition by ... order by ...)\n" +
    "   11、lag() over(partition by ... order by ...)\n" +
    "   12、lead() over(partition by ... order by ...)\n" +
    "lag 和lead 可以 获取结果集中,按一定排序所排列的当前行的上下相邻" +
    "                若干offset 的某个行的某个列(不用结果集的自关联);\n" +
    "lag ,lead 分别是向前,向后;\n" +
    "lag 和lead 有三个参数,第一个参数是列名," +
    "第二个参数是偏移的offset," +
    "第三个参数是 超出记录窗口时的默认值\n" +
    "UDAF 函数  多对一\n" +
    "UDF  函数  一对一\n" +
    "开窗函数   一对多\n")

7、Code

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

case class Score(name: String, clazz: Int, score: Int)

object OverFunction extends App {

  val sparkConf = new SparkConf().setAppName("over").setMaster("local[*]")

  val spark = SparkSession.builder().config(sparkConf).enableHiveSupport()
    .getOrCreate()

  import spark.implicits._
  println("//***************  原始的班级表  ****************//")
  val scoreDF = spark.sparkContext.makeRDD(Array( Score("a", 1, 80),
    Score("b", 1, 78),
    Score("c", 1, 95),
    Score("d", 2, 74),
    Score("e", 2, 92),
    Score("f", 3, 99),
    Score("g", 3, 99),
    Score("h", 3, 45),
    Score("i", 3, 55),
    Score("j", 3, 78))).toDF("name","class","score")
  scoreDF.createOrReplaceTempView("score")
  scoreDF.show()

  println("//***************  求每个班最高成绩学生的信息  ****************//")
  println("    //********  开窗函数的表  *********//")
  //rank()分析函数
  //over()开窗函数   ()里面的是开窗的方式
  spark.sql("select name,class,score,rank() over(partition by class order by " +
    "score desc) rank from score").show()

  //group by 和 开窗函数都能实现
  //group by 是做了一个join操作
  // 所以不管是 Hive 还是 Spark Sql 都会发生数据倾斜,都会shuffle
  //开窗函数 rank() over(partition by class order by score desc)
  // over就是开窗函数, over前面的rank叫做分析函数
  //执行分析函数rank,这个rank就是排名,怎么排呢??
  // 先按照 class班级分区,再按照成绩降序排序
  //rank 做了什么事呢?? 就是把降序排序全部加上来,辅助列
  println("    //********  计算结果的表  *********//")
  spark.sql("select * from " +
    "( select name,class,score,rank() over(partition by class " +
    "order by score desc) rank from score) " +
    "as t " +
    "where t.rank=1").show()

  spark.sql("select name,class,score,row_number() over(partition by class " +
    "order by score desc) rank from score").show()

  println("//******求每个班最高成绩学生的信息(groupBY)  *********//")

  spark.sql("select class, max(score) max from score group by class").show()

  spark.sql("select a.name, b.class, b.max from score a, " +
    "(select class, max(score) max from score group by class) as b " +
    "where a.score = b.max").show()

  spark.stop()
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容