7.Spark数据读取与保存

1. 常见数据源

  • 文件格式与文件系统
    对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3 等)中的数据,Spark 可以访问很多种不同的文件格式,包括文本文件、JSON、SequenceFile,以及protocol buffer。

  • Spark SQL中的结构化数据源
    Spark SQL 模块,它针对包括JSON 和Apache Hive 在内的结构化数据源,为我们提供了一套更加简洁高效的API。

  • 数据库与键值存储
    Spark 自带的库和一些第三方库,可以用来连接Cassandra、HBase、Elasticsearch 以及JDBC 源。

2.文件格式

Spark支持的一些文件格式
2.1 文本文件
  • 将一个文本文件读取为RDD 时,输入的每一行都会成为RDD 的一个元素。

  • 将多个完整的文本文件一次性读取为一个pair RDD,其中键是文件名,值是文件内容。

2.1.1 读取本地文件
  • 读取单个文件:textFile(fileName,minPartitions) ,如果要控制分区数的话,可以指定minPartitions。

注意:textFile()方法也可以读取文件夹,将目录作为参数,会将目录中的数据都读入到RDD中。

//在Scala中读取一个文件
val input = sc.textFile("file:///home/holden/repos/spark/README.md")
//在Java中读取一个文件
JavaRDD<String> input = sc.textFile("file:///home/holden/repos/spark/README.md")
  • 读取一个目录中的文件:wholeTextFiles(),方法会返回一个pair RDD,其中键是输入文件的文件名。

Spark 支持读取给定目录中的所有文件,以及在输入路径中使用通配字符(如part-*.txt)。

//使用wholeTextFiles读取文件夹
val input = sc.wholeTextFiles("/user/admin/mrwinter/chapter05/txt/")
input.collect().foreach(println)
使用wholeTextFiles读取文件夹输出结果
使用textFile读取文件夹
val input = sc.textFile("/user/admin/mrwinter/chapter05/txt/")
input.collect().foreach(println)
使用textFile读取文件夹输出结果
//在Scala 中求每个文件的平均值
val input = sc.wholeTextFiles("file://home/holden/salesFiles")
val result = input.mapValues{y =>
  val nums = y.split(" ").map(x => x.toDouble)
  nums.sum / nums.size.toDouble
}
2.1.2 保存本地文件

saveAsTextFile() 方法接收一个路径,并将RDD 中的内容都输入到路径对应的文件中。Spark 将传入的路径作为目录对待,会在那个目录下输出多个文件。

//在Scala中将数据保存为文本文件
inputRDD.saveAsTextFile(outputFile)
2.2 JSON文件
  • 读取JSON 数据的最简单的方式是将数据作为文本文件读取,然后使用JSON 解析器来对RDD 中的值进行映射操作。
  • 也可以使用JSON 序列化库来将数据转为字符串,然后将其写出去。
  • 在Java 和Scala 中也可以使用一个自定义Hadoop 格式来操作JSON 数据。
  • 还可以使用Spark SQL 读取JSON 数据。

测试json文件:

{"name":"王阳","age":32}
{"name":"李伟","age":22}
{"name":"刘涵","age":41}
{"name":"张丽","age":23}
{"name":"杨梅","age":34}

读取JSON文件
使用Jackson来解析JSON文件

import org.json4s.ShortTypeHints
import org.json4s.jackson.JsonMethods._
import org.json4s.jackson.Serialization

case class Person(name:String,age:Int)

implicit val formats = Serialization.formats(ShortTypeHints(List()))
val input = sc.textFile("/user/admin/mrwinter/chapter05/person.json")
val result = input.collect().map(x => parse(x).extract[Person])

//保存JSON文件用saveASTextFile(outputFile)即可
val save_json = sc.parallelize(result)
save_json.saveAsTextFile("/user/admin/mrwinter/chapter05/save_person.json")
运行结果
2.3 逗号分隔值与制表符分隔值

逗号分隔值(CSV)文件每行都有固定数目的字段,字段间用逗号隔开(在制表符分隔值文件,即TSV 文件中用制表符隔开)。

2.3.1 读取CSV

读取CSV/TSV 数据和读取JSON 数据相似,都需要先把文件当作普通文本文件来读取数据,再对数据进行处理。

//CSV文件
holden,panda
hotholden,notpanda
spark,bear
//在Scala 中使用textFile() 读取CSV
import java.io.StringReader
import au.com.bytecode.opencsv.CSVReader

val input = sc.textFile("/user/admin/mrwinter/chapter05/animal.csv")
val result = input.map{ line =>
  val reader = new CSVReader(new StringReader(line))
  reader.readNext()
}
result.collect().foreach(x => println(x(0), x(1)))
输出结果
//在Java 中使用textFile() 读取CSV
import au.com.bytecode.opencsv.CSVReader;
import Java.io.StringReader;

JavaRDD<String> csvFile1 = sc.textFile("/user/admin/mrwinter/chapter05/animal.csv");
JavaPairRDD<String[]> csvData = csvFile1.map(line ->
  new CSVReader(new StringReader(line)).readNext();
);

如果在字段中嵌有换行符,就需要完整读入每个文件,然后解析各段。如果每个文件都很大,读取和解析的过程可能会很不幸地成为性能瓶颈。

2.3.2 保存CSV文件
saveAsTextFile(outputFile)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容

  • 从周三考完到今天 放纵了三天 我想 应该重新振作起来 开始前行了 一遍又一遍的问自己 自己以后想变成什么模样 想成...
    平底鞋小王子阅读 390评论 1 1
  • 今天推荐的信息图表设计师是:Steve Duenes 和 Xaquín G.V.,这两位设计师曾在NYT有过工作经...
    HungerLyndon阅读 194评论 0 0
  • 本文参加【六专题】八月征文《月圆之夜》www.jianshu.com/p/46e015dd7ad9 今年中秋,老九...
    张张不吃鱼阅读 456评论 2 10
  • 文/雅雅 01/ “关于创作” 只是用情感活着是悲剧,只是用明智活着是正剧。我喜欢情感与理智之间的喜剧。 人们太喜...
    Sophia雅雅阅读 345评论 0 0