BerkeleyX: CS105x Introduction to Apache Spark 上课笔记 Week 1

前言

课程是UC Berkeley的关于Spark 的课程,地址如下:

Data Science and Engineering with Apache Spark

他们这系列课分为三门,这是最基础的一门的课堂笔记,我在前几天刚刚开始学,因为上课总是在印象笔记上写,觉得拿出来可能会帮到大家整理笔记。我本人对NLP 和 Deep Learning,比较感兴趣,以后也会自己继续学习相关课程,然后分享笔记。之前对Machine Learning 有粗略的涉及,希望以后通过积累,慢慢变强。

在网上学了这门课,看这个笔记才有帮助,我觉得。

第一讲:先是入门介绍 什么是big data?

先粗略讲一下这么多data从哪里来

User generate content

Health and Scientific Computing

data from network, computer network…)

Web server

Internet of Things

然后就是基本概念的介绍, 如data model, schema

Structure Spectrum

    A data model is a collection of concepts for describing data.

    A schema is a description of a particular collection of data using a given data model.

如图

Unstructured data, 像纯文本文件 没有schema(摘要),像什么微博啊,图片,视频

Semi-Structured data : XML,被标注的视频等等

Structured Data(RDB 就是一个例子),但是只有不到20%,会越来越少,因为unstructured data 越来越多。

我们倾向于处理 structured or semi-structured data. 所以我们需要 ETL ,把unstructed data 转换成我们喜欢处理的。

第二讲:Analysis, Big Data and Apache Spark

先介绍传统的 分析工具, r, pandas 什么的, 但是局限性在,他只在一个机器上跑。

大数据带来的问题

数据成长的比计算速度快

Storage 和 相对停滞的计算速度,已经成为一个计算的瓶颈了

例如,硬盘的读写速度

解决方法, 分布式储存和计算。 partition后存在内存里,是spark的关键

  4.    Spark 的 组成结构 

当跑spark 程序时,一个driver program, 和很多个worker program 

第三讲:Apache Spark DataFrames

这一讲,开始说spark中基础的东西。

首先,什么是 DataFrames

Spark 中 有两种 operations:

transformations

actions

transformations 是 ‘lazy‘的,这些命令 直到action才真正的被执行(executed)

第四讲:Apache Spark Transformations

这节课主讲Spark 中 transformation 的东西,入什么select,drop等。 有基础的人这部分很好理解,注意的是,这些命令没有真正的被执行,就像是写了个“菜谱”

诸如一些例子,这些当自己写的时候,再查是最好的

第五讲:Apache Spark Actions

之前都是 lazy evaluation, 直到action的时候,其实什么都没做,相当于存了个 菜谱

collect 收集所有的record,所以要注意. 建议不要用collect, 用show 和 take

注意:count() 在处理group data 时候 是transform, 在处理df时,是action

.cache() 能把你想要的存起来,这样不用每次都算一遍

注意: 在写spark 程序时,有些思维需要变一下,因为要处理的数据量很大,例如把两张表合起来这个事情,之前的思维就是 A + B 就好了,但是在spark里不要这么做,因为内存可能会溢出,举个例子:

这样做就是错的!

正确的做法应该如下:

这就是 Spark 的第一周的课的笔记。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容