引言
移动互联网、物联网时代的到来,使得数据量级呈几何级爆炸性增长, 百亿级数据处理已经不新鲜,数据量猛增也对大数据处理链条的各个环节提出了新的要求和挑战,这态势也使得国内的大数据技术得以崭露头角,出现了不少由国人主导的国际性项目。
大数据前沿到底发生了哪些变化,数据技术专场特别邀请了 12 位一线大咖来分享国内外最前沿的先进技术和全球的开源现状及趋势。由于疫情原因,非常欢迎大家直播时多多交流,也欢迎为开源献上一份自己的力量。
1
第一场 10月24日 13:30 开始
主持人
缪翎
百度高级研发工程师 & Apache Doris PPMC
主持人介绍:缪翎,百度高级研发工程师 & Apache Doris PPMC, 负责 Apache Doris(Incubating) 设计研发工作。负责百度分布式数仓平台的设计开发,以及 Apache Doris 的开源推广工作。主要在数据分析,查询优化,开源等相关领域进行探索。
数据库化的分布式数据库中间件生态圈极简使用策略
潘娟
京东数科 - 高级DBA & Apache ShardingSphere PMC
讲师介绍:潘娟,京东数科高级DBA&Apache ShardingSphereza wa PMC,主要负责京东数科分布式数据库开发、数据库运维自动化平台开发等工作。曾负责京东数科数据库自动化平台设计与开发,现专注于Apache ShardingSphere分布式数据库中间件平台的开发。主要在分布式数据库、开源、分布式架构等相关领域进行探索。
分享摘要:作为 Apache 顶级项目的 ShardingSphere,将会在最新发布版本中迈向从分布式数据库中间件生态圈到分布式数据库的转型。已在 GitHub 上收获 12k+ Star 的开源人气项目将进一步根据用户需求和应用场景,在这个数据库化的过程中全力打造更为简单、丰富、一体化、可插拔的分布式数据库产品体系,从而为用户提供最简单易用、功能强大、性能稳定的分布式数据库化产品。本次分享将为详细阐述数据库化的产品特性、架构体系、极简落地方案实践等核心内容。
通过 DataQL 在数据展现类项目中提升3倍人效
赵永春
DataQL - 项目发起人
讲师介绍:赵永春,10 多年软件开发经验,多年架构设计经验。曾经就职于阿里巴巴、淘宝技术部、阿里云数据库团队。是开源项目 DataQL 的发起者。
分享摘要:基于 DataQL 的数据聚合能力,为应用提供一个接口配置“界面”。使得使用者无需开发任何代码就能配置一个满足需求的接口。整个接口配置、测试、冒烟、发布。一站式都通过配套图形化 UI 界面完成。这种研发模式的变革使得,研发流程中对后端依赖大大降低从而提升近3倍人效。
开源、高效的物联网大数据平台
桑树多
涛思数据 - 应用架构师
讲师介绍:哈工大毕业,曾经效力于英特尔、摩托罗拉、Ubuntu等公司,在智能手机、无人驾驶、物联网等方向的开源软件研发和推广应用有20年以上的经验。对 Linux 内核、MeeGo OS、Ubuntu 等开源软件产品有代码贡献。对 TDengine 贡献了上万行代码和 400 个以上测试用例。
分享摘要:充分利用物联网数据的特点,针对通用大数据处理平台的挑战,涛思数据推出了一高性能、高可靠、可伸缩、零管理的物联网大数据平台TDengine,而且将核心代码,包括集群功能全部开源,获得全球开发者的高度关注,在GitHub上的star已经超过14K。本演讲将介绍TDengine的技术创新之处,包括存储引擎、计算引擎、流式计算、多维分析等等。
Apache Doris: 一款支持对海量数据进行快速分析的 MPP 数据库
陈明雨
百度 - 资深研发工程师 & Doris PPMC
讲师介绍:陈明雨,百度资深研发工程师 & Apache Doris PPMC,负责Apache Doris(Incubating) 设计研发工作。同时维护Doris在百度内部超过千台的部署规模,为超过200个业务线提供稳定可靠的数据分析服务。6年分布式系统研发经验,一直专注于分布式可扩展分析型数据库领域,主导参与了ApacheDoris从百度开源到进入Apache孵化器的全过程。
分享摘要:Apache Doris(Incubating)是一款支持对海量数据进行快速分析的 MPP 数据库。Doris 自设计之初,就秉承着极简运维、高效可靠、易学易用的原则,为用户提供全面而高效的海量数据分析能力。自 2018 年底进入 Apache 孵化器后,Doris 已经发布了 5 个大版本,接收了来自社区 100 多位开发者的贡献,并在多家互联网头部企业和垂直领域企业落地和应用。本次演讲主要包含 Doris 的发展历程、系统架构、主要特性和应用案例四个部分,帮助听众对 Doris 有一个全面而具象的认识。最后,陈明雨会介绍 Doris 社区目前的发展情况,希望能够帮助开发者更方便快捷的加入开源社区。
Github 2020全域分析报告
王皓月
华东师范大学 - 硕士研究生
讲师介绍:华东师范大学数据科学与工程学院硕士二年级,X-lab 实验室一员,开源社媒体组小编,负责Wuhan2020公众号的运营,之前参与了实验室GitHub 2019年报的撰写,目前是实验室发起的2020开源年报项目的committer。
分享摘要:在开源日益重要的今天,需要一份建立在全域大数据基础上的相对完整、可以反复进行推演的数据报告(报告、数据、算法均需开源)。GitHub分析报告是X-lab发起的GitHub开源分析报告项目,旨在通过分析Github全网的开发者行为日志,通过数据的视角,来观察全球范围内的开源现状、进展趋势、演化特征、以及未来挑战等问题,以帮助所有人更好地理解和参与开源。
隐私计算开源框架Rosetta:数据安全融合新方向
谢翔博士
矩阵元 - 算法科学家
讲师介绍:曾任职于华为上海研究所无线安全解决方案设计部,中国科学院软件研究所 可信计算与保障实验室 博士 & 信息安全国家重点实验室 硕士,是格理论、同态加密、零知识证明、安全多方计算等密码学算法和协议设计的专家,发表论文10余篇,曾在密码学的顶尖学术会议Eurocrypt上发表论文。
分享摘要:数据隐私问题已经成为大数据和AI行业最为核心的痛点,如何保证分布在机构间的数据在保护各自隐私的前提下进行融合计算已经成为迫切需求。隐私计算为机构间数据的安全融合提供了新的技术方向,而密码学则是隐私计算中最为核心的技术之一。本次报告中,谢翔将系统的讲述隐私计算整个行业的最新进展,密码学技术的基本原理以及密码学与大数据领域、AI领域的结合。最后,将介绍基于TensorFlow的隐私计算开源框架Rosetta,让不熟悉密码学的大数据、AI研究人员/开发者也可以无门槛的使用隐私计算技术。
2
第二场 10月25日 13:30 开始
Apache DolphinScheduler是如何支撑每日十万级大数据任务调度的
代立冬
易观数科 - 大数据平台总监
讲师介绍:易观大数据平台总监 & Apache DolphinScheduler PPMC,负责每日数百亿条数据处理链条的流程规划,技术选型,技术攻关及人才梯队建设等工作。专注于数据领域研发数据平台架构10年,擅长于数据平台建设、集群性能调优、数据仓库建设,曾任多家大数据公司数据架构师。
分享摘要:本次分享首先会介绍DolphinScheduler(Incubating)社区的发展情况,接着介绍我们当时为何要重复造轮子再造大数据任务调度,DolphinScheduler整体的设计思想、考量以及DolphinScheduler的特性和能力,然后介绍DolphinScheduler架构的变迁过程。分享中我也会讲述我们在做大数据任务调度时遇到的挑战和积累下来的经验,也会介绍一些用户案例和使用场景及开源的历程。
从 ClickHouse 的名字来历说起
朱凯
远光软件 - 大数据/平台开发部 总经理
讲师介绍:开源爱好者,Apache DolphinScheduler Committer、ClickHouse Contributor,《ClickHouse原理解析与应用实践》、《企业级大数据平台构建:架构与实现》作者,公众号《ClickHouse的秘密基地》运营者,ClickHouse 布道者。
分享摘要:ClickHouse是一款开源的OLAP数据库,自2016年开源以来它一直保持着飞速的发展速度。其闪电般的查询性能和活跃的社区,让它成为目前业界公认的OLAP数据库黑马。这次分享将带大家快速领略ClickHouse的全貌特征,ClickHouse它是什么、它的核心功能有哪些以及它可以用在哪些场景。与此同时,朱凯也将和你一同分享2020年ClickHouse最令人期待的 top 5 新功能。
Apache IoTDB:工业物联网数据库管理系统
黄向东
清华大学 - 助理研究员
讲师介绍:黄向东博士,清华大学软件学院助理研究员。研究方向为大数据系统架构与时间序列数据管理技术。他是Apache IoTDB项目的初始源码提交者之一,同时也是 Apache IoTDB 项目 VP。
分享摘要:工业物联网数据的主体是机器产生的时序数据,是工业互联网的原矿。与其他大数据不同,其具有高通量、低质量、弱模式、查询分析复杂等特点。Apache IoTDB 是从中国高校发起的,经过多年迭代,在多个工业生产系统中经过验证的新一代工业物联网数据库管理系统,目前已成为Apache顶级项目。本报告将详细介绍工业物联网中的挑战,Apache IoTDB的基本概念和特性,并简单介绍基于Apache IoTDB的相关实际案例,帮助听众了解如何基于Apache IoT生态,解决工业物联网数据应用需求。
Apache Kylin 4:凤凰涅槃,浴火重生
张智超
上海跬智信息 - 大数据架构师
讲师介绍:张智超目前就职于上海跬智信息技术有限公司(Kyligence)开源组,参与了Apache Kylin和Apache CarbonData等开源项目。
分享摘要:Apache Kylin 4.0 Alpha版本日前已经发布,它是Apache Kylin 4的第一个早期预览版本,是继Kylin 3之后的一个重大架构升级版本,采用Parquet这种真正的列式存储来代替HBase存储,提升文件扫描性能;同时重新实现了基于Spark的构建引擎和查询引擎,使得计算和存储分离变为可能,更加适应云原生的技术趋势。本次演讲嘉宾张智超将从架构升级,原理讲解,重大特性等几个方面来介绍Apache Kylin 4.0。
T3出行构建数据湖上低延迟数据管道的实践
杨华
T3 出行 - 大数据平台负责人
赵玉威
T3 出行 - 调度平台高级研发工程师
讲师介绍:
杨华,T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。前腾讯高级工程师,曾主导 Flink 框架在腾讯从落地到支撑日均近 20 万亿消息的处理规模。
赵玉威,T3 出行调度平台高级研发工程师。
分享摘要:T3 出行是一家基于车联网驱动的网约车平台,拥有海量且丰富的数据源。为此在很早就基于Apache Hudi构建了企业级的数据湖。但数据湖从外界摄取的数据源绝大部分都是原始数据,而为了使原始数据变得更有业务价值和分析价值,T3出行 需要对数据进行ETL等进行脱敏。这时为了解决低延迟、高效的数据加工,最初引入了Easy Scheduler(DolphinScheduler前身),在使用过程中发现了不少问题。随着DolphinScheduler加入Apache孵化器进行孵化并快速迭代,T3出行也随之升级到了DolphinScheduler并围绕它打造了一个企业级的大数据调度管理平台。这次分享T3出行将会对基于Apache DolphinScheduler支撑数据湖上低延迟数据加工的实践进行介绍。
PowerJob:新一代分布式任务调度与计算框架
滕佶祺
阿里巴巴 - 开发工程师
讲师介绍:毕业于浙江大学,目前是阿里巴巴集团的一名开发工程师,开源项目任务调度中间件 PowerJob 作者,在公司内部做过一些技术分享,这次尝试下更大的舞台。
分享摘要:PowerJob是新一代的任务调度中间件,旨在解决大型离线任务的调度与计算问题。PowerJob立足于当前繁杂的业务特性,在任务调度的基础上,创新性地提供工作流 workflow 和分布式任务计算 MapReduce 两大核心功能。本次演讲将会为大家揭秘 PowerJob 项目的起源、旨在解决的问题和背后的技术剖析。
3
彩蛋
会场还设有 QA 和 抽奖 环节,奖品如抱枕、热火大数据书籍等赠送。数据技术专场 24 日特别邀请 Apache Doris PPMC 缪翎 女士主持(传说中一个明明可以靠颜值却偏偏拼才华的奇女子)!!!
数据技术专场欢迎您,期待直播间与您相遇。
大会已开启报名,欢迎报名 !!!
报名方式
对 COSCon'20 内容感兴趣的你可以通过下方的链接进行报名,期待您的到来!
报名链接
http://hdxu.cn/1l0R9