[概览]《Hadoop/Spark企业应用实战》 - 小象学院

《Hadoop/Spark企业应用实战》 - 小象学院 - 中国最专业的Hadoop,Spark大数据在线教育平台——权威课程:Hadoop培训,Spark培训,HBase培训,Hive培训,Mahout培训等
http://www.chinahadoop.cn/course/113

课程介绍



课 程 名 称
《Hadoop/Spark企业应用实战》——企业使用 Hadoop / Spark 的真实案列
时 间
共八周
培 训 方 式
视频学习 + 在线答疑 + 每周作业 + 结业考试

授 课 对 象
商业智能(BI)和企业数据仓库(EDW)的管理人员、建模人员、分析和开发人员、系统管理员等;
有意将Hadoop生态系统中的组件,作为现有EDW的补充,或未来替代产品的项目负责人及开发人员;
企业中牵涉到大数据处理的数据中心运行、规划、设计负责人;
Hadoop企业级应用、整合项目的成员、负责人、开发人员;
熟悉Hadoop生态系统,想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友。

课 程 大 纲
本课程会介绍 Hadoop / Spark 各组件的架构,但不会涉及任何安装的内容,安装的教程、录像视频什么的网上到处都是,讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决,建议用Cloudera CDH或者Hortonworks HDP 本课程目标是:给大家分享一些在网上不能随便就搜到的内容和窍门,展示企业线上生产系统中应用 Hadoop、Spark 的成功案例,以及与现有企业BI平台整合的方案
第一周:企业级Hadoop/Spark应用概述,Hadoop/Spark生态系统与现有企业级应用的整合
企业级集群部署、数据管理、任务调度、集群监控

Hadoop架构介绍、Spark / Shark 介绍

Spark与Hadoop的关系

现有Hadoop架构的种种问题和限制,HA

企业数据仓库的选型,Hadoop世界与EDW世界中的TPC(TPC DS与TPC H)

Hadoop世界中的DBA

成本考量 —— 人?物?物是人非……

第二周:Hadoop Eco System 进阶应用基础知识
HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优

玩转Hive ETL高级应用:权限管理、external table、partition、中文支持、HiveServer2 JDBC接口

Hive的Windowing and Analytics Functions

Hive 0.13的新功能

Impala与Hive对比,各种Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join)

第三周:进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用
企业级应用实例1:物流行业 — 订单跟踪

—〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表,避免LOAD DATA

—〉 Hive和Impala的Join优化Hints,MapJoin、Shuffle Join 实例

企业级应用实例2:广告行业 — 基于用户行为分析的用户归类标签 (客户画像)

—〉 Hive复合数据类型array

—〉 array与collect_set、collect_list、array_contains、sort_array

—〉 impala的group_concat

—〉 array与lateral view、LATERAL VIEW OUTER

企业级应用实例3:电商/零售行业 — 简单的推荐系统 Recommender System 实现 (基于用户标签/客户画像)

—〉 Hive复合数据类型map、str_to_map、map_keys、map_values,map与lateral view

—〉 通过Hive、Impala转换函数进行数据保护,确保企业应用信息安全(通过translate进行简单数据脱敏Data Masking)

—〉 HiveServer2 JDBC接口实例应用、中文支持Bug纠错

—〉 Hive的窗口和分析函数入门(row_number、rank、dense_rank等)

企业级应用实例4:互联网行业 — 访问量业绩报表

—〉 Hive的窗口和分析函数进阶(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)

—〉 ROWS BETWEEN ... AND ... (CURRENT ROW,rows PRECEDING,rows FOLLOWING)

本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结

第四周:Hadoop & Spark / Shark 进阶应用基础知识
HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优,Spark / Spark SQL / Shark 简介

HBase Shell 与 HBase REST API 应用

HBase的Region进阶应用Compact、Split与Merge

HBase进阶脚本应用:jruby script

HBase与Hive的整合高级应用:binary(byte) value,lateral view explode

Hive 0.13:posexplode

Spark / Spark SQL / Shark 架构介绍、Spark Scala / Python 开发介绍

第五周:进阶应用实例 — Hadoop/Spark平台企业级开发框架
Hadoop生态系统中为企业级开发提供的测试框架应用实例

Spark实现“物流行业 — 订单跟踪 SLA”的实例,Scala语言及Python语言实现,Spark SQL + Parquet文件实现,Spark Scala Maven项目实例

HBase开发实例:REST API使用、JRuby脚本编写、Region进阶应用

Continuous Integration系统整合的可能

—— 软件/互联网行业Hadoop企业级开发框架

第六周:Hadoop & Spark / Shark 企业级应用整合
HBase与Hive整合的大坑

HBase Python 客户端 happybase 使用介绍、编程实例

HBase Coprocessor与HBase + Hive 特征特点比较、分别适用的场景

企业中应用 HBase,Hive,Impala,Spark / Shark 的注意事项,资源分配方案

Hadoop与现有企业级BI平台的整合

Pentaho PDI / Kettle

Oracle or In-Memory Database

MicroStrategy / Tableau

第七周:进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合
互联网行业时间序列(time series data)数据处理实例 —— 整合 HBase 与 Hive:增量数据与全量数据,冷数据与热数据分治

互联网行业时间序列(time series data)数据处理实例 —— 整合 Spark 与 HBase

Spark 访问 HBase 数据实例:通过 Spark 对 HBase 表进行 scan,Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray

通过 Kettle / Spoon 工具整合Hadoop与现有RDBMS的企业级BI解决方案

其它整合Hadoop与RDBMS构建企业级BI应用平台的可能(如使用PostgreSQL FDW,使用Presto的****JDBC connector等)

—— 互联网行业Hadoop企业级大数据BI应用整合方案

第八周:总结与展望
企业级大数据应用总结

构建企业大数据团队探讨

Hadoop方面工作面试秘籍:应用开发方向、数据分析方向、技术架构方向、团队带头人

现有几大Hadoop平台比较:Cloudera CDH,Hortonworks HDP,MapR

Hadoop大数据还能干什么?通过Spark整合Streaming与Batch processing?

金融 / 工业 / 能源 / 智慧城市 / 医疗行业 / Smart Data

德国汽车、新能源行业的大数据创新项目分享

德国医疗行业大数据应用现状

Hadoop大数据企业应用面临的问题

课程源码列表(全部会放到百度网盘提供下载)


主讲人:邱腾
柏林工业大学,计算机科学,硕士,专注于BI大数据架构及解决方案,精通网络数据、市场数据分析,在互联网、电商、通信、能源、工业自动化、医疗、传媒广告等行业拥有丰富经验,早年泡过sunnet IRC,架过firebird BBS。
2006年至2011年间,曾先后任职于新浪网络系统部、诺基亚西门子网络(NSN)、西门子公司能源自动化输配电(PTD)部门,参与了中国移动、中国联通、德国电信等不同国家电信运营商项目,在变电站自动化系统数据传输国际标准 ISO/IEC 61850 的第一版和第二版制订过程中,参与了技术架构、实现及评测工作。
后转战德国科研机构Fraunhofer,参与了德国电子病例(eFA)、电子医疗卡(eHBA/HPC)改革项目的技术架构及数据安全保护实现。
08年开始接触Hadoop/MapReduce,曾主导项目,通过整合Hadoop的各种组件使德国联盟广告商Zanox公司将海量tracking数据转化为DMP并成功与多家RTB和DSP平台对接。
现在欧洲最大的电商平台德国Zalando公司任BI部门经理、大数据架构师
网名:chutium,个人主页:http://www.abcn.net/
微博:@邱腾邱导导 http://weibo.com/tengqiu/

常见问题:
请点击 http://www.chinahadoop.cn/page/questions

试听视频:
请点击 http://www.chinahadoop.cn/course/19

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容