内存计算

by 清华大学

为什么并行计算?

  • 计算量大
    • 单进程算得不够快,多CPU算
  • 内存需求大
    • 单机内存不够大
    • 内存随机访问比硬盘随机访问快100,000倍
  • I/O 量大
    • 单个硬盘读写太慢,多个硬盘读写

并行计算的挑战

  • 编程困难
    • 并行性识别与表达,难写
    • 同步语句,难写对
  • 性能调优难,难写快 (并行计算目标就是提升性能,性能调优难)
    -负载平衡
    • 局部性 (高速缓存cache,使用cache可以快10倍左右)
  • 容错难

并行计算中的局部性

矩阵相乘,按列访问会造成cache失效


image.png

分块算法,得到更高的局部性

高可用性

大数据处理系统通常是由大量不可靠服务器组成的,如果处理1个10天的大数据处理任务时在第8天机器坏掉怎么办?
重新计算不一定能解决问题
传统的容错方法不适用

  • 锁步法(性能会有较大影响),多版本编程(多个人来编程,对比结果,软件容错)
    检查点设置与恢复(保存程序状态,从保存状态位置继续执行,IO量大)

大数据处理并行系统

image.png

内存计算需求

Map Reduce成功之处

  • 用户只需要编写串行程序
  • 自动并行化和分布式执行
  • 自动容错
  • 自动负载平衡
    用户对系统提出了更高的要求
  • 更复杂的多阶段任务
  • 交互式查询
    Map Reduce 的局限性
  • 表达能力有限
    • 只有Map 和Reduce两种操作
  • 复杂任务通常需要迭代的 MapReduce
    • 需要将中间结构保存在硬盘上
    • 大量I/O操作造成性能急剧下降
  • 引入的I/O操作多,只能做离线分析,很难支持数据的交互式查询

MapReduce 文件传递数据

image.png

如果能用内存保存数据?

image.png

比采用硬盘方案快10-100倍
In Memory Computing

内存计算的可行性

问题:

  • 内存是否足够大能够装下所需要的数据?
  • 内存有多贵?与硬盘相比性价比如何?
  • 数据保存在硬盘上,可以保证数据的可用性,放在内存里如何容错?
  • 如何高效表示内存里的数据?
    input -> iter1 -> memory -> iter2 -> memory
image.png

单位芯片上集成的晶体管数量随着时间(每两年)可以成倍增长

各个内存层次的延迟

image.png

DRAM比硬盘快100,000倍,但是DRAM比片上cache慢6-200倍

内存计算的实例:SPARK

SPARK设计理念:着重效率和容错
如何抽象多台机器的内存?

  • 分布式共享内存(DSM)
    • 统一地址空间
    • 很难容错
  • 分布式键-值存储(Piccolo,RAMCloud)
    • 允许细粒度访问
    • 可以修改数据(mutable)
    • 容错开销大

DSM和键值对的容错机制

  • 副本或Log
    • 对数据密集应用来说开销很大
    • 比内存写要慢10-100倍

解决方案

  • RDD(Resilient Distributed Datasets)
    • 基于数据集合,而不是单个数据
    • 由确定性的粗粒度操作产生(map,filter,join等)
    • 数据一旦产生,就不能修改(immutable)
    • 如果要修改数据,要通过数据集的变换来产生新的数据集

高效容错方法

  • 数据一旦是确定性的产生,并且产生后不会变化
    • 就可以通过“重复计算”的方法恢复数据
    • 只要记住rdd生成过程就可以了,这样一次log可以用于很多数据,在不出错的时候几乎没有开销


      image.png

大数据处理并行系统

用编程模型上的限制获取好的容错能力和高性能


image.png

K-V 对,细粒度修改; HDFS 只能添加数据
RDD 高吞吐率,不允许做细粒度修改,换取好的容错能力和好的性能

SPARK 编程接口

  • 基于Scala 语言
    • 类似Java的一种函数语言
    • 可以在Scala控制台上交互式地使用Spark
    • 现在也支持Java 和Python
  • 基于RDD的操作
    • Transformation: 从现有RDD产生新的RDD
      • map, reduce, filter, groupBy, sort, distinct, sample ...
    • Action: 从RDD返回一个值
    • count, collect, first ,foreach ...


      image.png

SPARK 编程实例--LOG挖掘
将数据从文件系统中调入内存,然后进行交互式的查询


image.png
lines = spark.textFile("hdfs://...")
errors = lines.filter(_.startsWith("ERROR"))
messages = errors.map(_.split('\t')(2))
cachedMsgs = messages.cache()
cachedMsgs.filter(_.contains("foo")).count // 包含foo的信息的数目
cachedMsgs.filter(_.contains("bar")).count
image.png
image.png
image.png
image.png

SPARK 实现技术

延迟估值(Lazy Evaluation)

val lines = sc.textFile("data.txt")  //transformation
val lineLengths = lines.map(s => s.length) //transformation
val totalLength = lineLengths.reduce((a,b) => a+b) //action, trigger computation
  • 前面两行都不会触发计算(Transformation)
  • 最后一行的reduce会引发计算,生成DAG
image.png

有向无环图


image.png
image.png
image.png
image.png

RDD性能的提高

对需要重用的RDD使用Persist和Cache提高性能


image.png
image.png

SPARK 应用和生态环境

image.png
image.png
image.png
image.png

image.png

SPARK 局限性

image.png
image.png

只能复制一份,标记少数节点。操作为网络操作、内存拷贝操作、IO操作(由于数据是只读的)-> 效率低,大量内存拷贝。
每次细粒度的数据更新,由于spark基于粗粒度RDD只读的数据对象模型,需要RDD变换,即有大量数据的复制,导致处理效率不高

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容