内存计算

by 清华大学

为什么并行计算？

计算量大
- 单进程算得不够快，多CPU算
内存需求大
- 单机内存不够大
- 内存随机访问比硬盘随机访问快100,000倍
I/O 量大
- 单个硬盘读写太慢，多个硬盘读写

并行计算的挑战

编程困难
- 并行性识别与表达，难写
- 同步语句，难写对
性能调优难，难写快（并行计算目标就是提升性能，性能调优难）
-负载平衡
- 局部性（高速缓存cache，使用cache可以快10倍左右）
容错难

并行计算中的局部性

矩阵相乘，按列访问会造成cache失效

image.png

分块算法，得到更高的局部性

高可用性

大数据处理系统通常是由大量不可靠服务器组成的，如果处理1个10天的大数据处理任务时在第8天机器坏掉怎么办？
重新计算不一定能解决问题
传统的容错方法不适用

锁步法（性能会有较大影响），多版本编程（多个人来编程，对比结果，软件容错）
检查点设置与恢复（保存程序状态，从保存状态位置继续执行，IO量大）

大数据处理并行系统

image.png

内存计算需求

Map Reduce成功之处

用户只需要编写串行程序
自动并行化和分布式执行
自动容错
自动负载平衡
用户对系统提出了更高的要求
更复杂的多阶段任务
交互式查询
Map Reduce 的局限性
表达能力有限
- 只有Map 和Reduce两种操作
复杂任务通常需要迭代的 MapReduce
- 需要将中间结构保存在硬盘上
- 大量I/O操作造成性能急剧下降
引入的I/O操作多，只能做离线分析，很难支持数据的交互式查询

MapReduce 文件传递数据

image.png

如果能用内存保存数据？

image.png

比采用硬盘方案快10-100倍
In Memory Computing

内存计算的可行性

问题：

内存是否足够大能够装下所需要的数据？
内存有多贵？与硬盘相比性价比如何？
数据保存在硬盘上，可以保证数据的可用性，放在内存里如何容错？
如何高效表示内存里的数据？
input -> iter1 -> memory -> iter2 -> memory

image.png

单位芯片上集成的晶体管数量随着时间（每两年）可以成倍增长

各个内存层次的延迟

image.png

DRAM比硬盘快100,000倍，但是DRAM比片上cache慢6-200倍

内存计算的实例：SPARK

SPARK设计理念：着重效率和容错
如何抽象多台机器的内存？

分布式共享内存（DSM）
- 统一地址空间
- 很难容错
分布式键-值存储（Piccolo，RAMCloud）
- 允许细粒度访问
- 可以修改数据（mutable）
- 容错开销大

DSM和键值对的容错机制

副本或Log
- 对数据密集应用来说开销很大
- 比内存写要慢10-100倍

解决方案

RDD（Resilient Distributed Datasets）
- 基于数据集合，而不是单个数据
- 由确定性的粗粒度操作产生（map,filter,join等）
- 数据一旦产生，就不能修改（immutable）
- 如果要修改数据，要通过数据集的变换来产生新的数据集

高效容错方法

数据一旦是确定性的产生，并且产生后不会变化
- 就可以通过“重复计算”的方法恢复数据
- 只要记住rdd生成过程就可以了，这样一次log可以用于很多数据，在不出错的时候几乎没有开销
  
  image.png

大数据处理并行系统

用编程模型上的限制获取好的容错能力和高性能

image.png

K-V 对，细粒度修改； HDFS 只能添加数据
RDD 高吞吐率，不允许做细粒度修改，换取好的容错能力和好的性能

SPARK 编程接口

基于Scala 语言
- 类似Java的一种函数语言
- 可以在Scala控制台上交互式地使用Spark
- 现在也支持Java 和Python
基于RDD的操作
- Transformation：从现有RDD产生新的RDD
  - map, reduce, filter, groupBy, sort, distinct, sample ...
- Action: 从RDD返回一个值
- count, collect, first ,foreach ...
  
  image.png

SPARK 编程实例--LOG挖掘
将数据从文件系统中调入内存，然后进行交互式的查询

image.png

lines = spark.textFile("hdfs://...")
errors = lines.filter(_.startsWith("ERROR"))
messages = errors.map(_.split('\t')(2))
cachedMsgs = messages.cache()
cachedMsgs.filter(_.contains("foo")).count // 包含foo的信息的数目
cachedMsgs.filter(_.contains("bar")).count

image.png

SPARK 实现技术

延迟估值（Lazy Evaluation）

val lines = sc.textFile("data.txt")  //transformation
val lineLengths = lines.map(s => s.length) //transformation
val totalLength = lineLengths.reduce((a,b) => a+b) //action, trigger computation

前面两行都不会触发计算（Transformation）
最后一行的reduce会引发计算，生成DAG

image.png

有向无环图

image.png

RDD性能的提高

对需要重用的RDD使用Persist和Cache提高性能

image.png

SPARK 应用和生态环境

image.png

SPARK 局限性

image.png

只能复制一份，标记少数节点。操作为网络操作、内存拷贝操作、IO操作（由于数据是只读的）-> 效率低，大量内存拷贝。
每次细粒度的数据更新，由于spark基于粗粒度RDD只读的数据对象模型，需要RDD变换，即有大量数据的复制，导致处理效率不高

最后编辑于：2017.12.11 05:02:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

内存计算

为什么并行计算？

并行计算的挑战

并行计算中的局部性

高可用性

大数据处理并行系统

内存计算需求

MapReduce 文件传递数据

如果能用内存保存数据？

内存计算的可行性

各个内存层次的延迟

内存计算的实例：SPARK

DSM和键值对的容错机制

解决方案

大数据处理并行系统

SPARK 编程接口

SPARK 实现技术

RDD性能的提高

SPARK 应用和生态环境

SPARK 局限性

推荐阅读更多精彩内容