1. 创建键值对RDD ( Pair RDD)
RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD元素类型,在分组和聚合中经常会用到。
首先在本地创建一个word.txt,然后上传到hadoop目录中。
方法a:从文件中加载,来创建键值对RDD
pyspark --queue 队列名 [进入spark]
lines = sc.textFile("hadoop地址/word.txt") [加载文件到rdd中]
1. 创建键值对RDD ( Pair RDD)
RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD元素类型,在分组和聚合中经常会用到。
首先在本地创建一个word.txt,然后上传到hadoop目录中。
方法a:从文件中加载,来创建键值对RDD
pyspark --queue 队列名 [进入spark]
lines = sc.textFile("hadoop地址/word.txt") [加载文件到rdd中]