Shanghai SQL on Hadoop Meetup第一次聚会-CSDN活动
http://huiyi.csdn.net/activity/product/goods_list?project_id=3476
会议介绍
这是Shanghai SQL on Hadoop Meetup的第一次线下聚会, Intel携手Cloudera,Kyligence 为大家准备了精彩的技术内容分享。活动将于5月13日举办于英特尔(中国)有限公司上海分公司。上海市延安西路2299号上海世贸商城22楼。 举办地点交通方便,靠近地铁10号线伊犁路站。座位有限(~100),先到先得。
活动日程
12:30 – 13:00 签到,签署,进入会场 / sign in, entry
13:00 – 13:15 主题发言 / Keynote
嘉宾:陈海峰 英特尔大数据团队软件开发经理,其团队负责大数据SQL的优化和开源社区推动。海峰曾负责英特尔大数据安全方向,是Apache Commons Crypto的发起者,自由软件色彩风暴的作者。
13:15 – 13:55 技术演讲 / session - 《Apache Kylin 2.0 之Spark构建引擎》
演讲嘉宾:施继成,Kyligence高级软件工程师,Apache Kylin committer,专注于大数据技术研发和系统性能调优。毕业于复旦大学软件工程系,在校期间专注于操作系统和系统虚拟化性能优化,研究工作多次发表于世界顶级会议。曾就职于微软交易系统部门,参与微软交易系统与支付宝、银联等系统的集成工作。
主题简介:Apache Kylin 作为领先的大数据OLAP分析平台步入了2.0时代,正逐渐从Hadoop上的传统OLAP演变为一个实时数据仓库,新的版本支持灵活的雪花模型和更加全面的SQL语法,引入了更加先进的Spark Cubing构建引擎,更好地支持实时流式数据接入等等。 其中新引入的Spark Cubing构建引擎大幅度提升了Cube预计算过程的效率。本次演讲将结合实际案例,重点介绍这一技术的设计思考和最佳实践。
13:55 – 14:35 技术演讲 / session - 《Spark SQL 表达式计算》
演讲嘉宾:郭晨钊,英特尔大数据团队软件工程师,Spark,HiBench社区开发者。
主题简介:表达式计算在Spark SQL中随处可见,本演讲将简介表达式、UDF、UDAF、UDTF的概念,主要的API,以及如何扩展Spark SQL函数库。本演讲还将提及Catalyst在计划阶段和Project Tungsten在执行层做的优化,以及未来性能提升可能的方向:向量化。
14:35 – 14:55 茶歇 / Tea Break
14:55 – 15:35 技术演讲 / session - 《利用Impala+Kudu构建准实时分析应用》
演讲嘉宾:苏昌锋 (Kevin),Cloudera资深售前顾问,曾在Oracle、Teradata、HP等公司从事研发、架构和咨询工作,主要专注与BI、大数据领域的应用落地。
主题简介:Kudu是Cloudera开源的新型列式存储系统,Apache Hadoop生态圈的顶级项目之一,解决了传统Lamda架构处理Hadoop上快速变化数据的存储和处理技术过于复杂的问题,同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark、Flume和Kafka等组件集成,大大降低了对快速变化的数据进行准实时分析的架构设计和实现的门槛。本演讲主要对Kudu的动机、背景,以及架构进行简单介绍,并通过实际的应用场景介绍Impala+Kudu的组合实现通过SQL技术对快速变化的数据实现准实时分析的能力。
15:35 – 16:15 技术演讲 / session - 《提速Hive性能: 从数据存储到计算引擎》
演讲嘉宾:徐铖(Ferdinand), Intel大数据团队软件工程师,Apache Hive,Apache ORC和Apache Commons Crypto的committer以及Apache Spark,Parquet的社区贡献者。
主题简介:Apache Hive是Hadoop生态圈中比较流行的大数据数据库引擎。在Hive中,数据可以存储为不同格式,Hive还支持多种执行引擎,包括Spark和Tez。在本次演讲中,我们将会涵盖一些新的Hive性能提升的优化,包括了最新Spark引擎升级到2.0,Parquet数据类型的向量化支持,以及nested column pruning等新特性。对于这些新功能,我们将会介绍配置选项从而达到优化的性能。最后我们还会提供benchmark数据来展现这些特性能够给Hive带来的性能提升。
16:15 – 16:45 活动收尾及社交/Ending and Social