国家 2035 远景规划提出要加快全面数字化转型的步伐,而“大数据平台”是数字化转型的基础技术之一。对于任何企业来说,建立和维护一个大数据平台都不是一件容易的事情,而建设一个有特色的、完整易用的大数据平台,显然更是一件技术难度极高的事情。
经过七年多的探索和实践,微众银行打造了一套一站式、金融级、全连通、开源开放的大数据平台套件:WeDataSphere。
基础平台由数据交换、数据分发、计算、存储四大层次组成,关注底层数据传输计算存储能力;功能平台由平台工具、数据工具、应用工具三大层次组成,关注用户各类功能工具需求实现。形成了完整的大数据平台技术体系,提供一站式的丰富数据平台组件及功能支撑。
GitHub:https://github.com/WeBankFinTech/WeDataSphere
2019年开源以来,面向社区发布了 9 个开源组件,填补了业界 “开源体系化大数据平台套件”的空白,受到了各行业的广泛欢迎和采用。
沙箱用户超 1,600 个,自建试用企业超 800 家,收到超 80 家企业投入生产的反馈,生产环境支撑的数据量达 400 PB,生产用户超 5,000 ,开源社区成员人数近 7,000 ;涉及金融、互联网、通信、制造、教育等众多行业。其中,计算中间件 Linkis 已进入国际开源基金会 Apache 孵化。
近期WeDataSphere的各大开源组件已经完成了全面升级,从性能、功能、易用性等各方面得到了提升,是个重要的里程碑时刻。那么接下来由小编给大家介绍各大开源组件的最新情况。
01 Apache Linkis(incubating) 计算中间件
https://github.com/apache/incubator-linkis
02 DataSphereStudio 一站式数据应用开发管理门户
https://github.com/WeBankFinTech/DataSphereStudio
03 Qualitis 数据质量管理平台
https://github.com/WeBankFinTech/Qualitis
04 Schedulis 工作流任务调度系统
https://github.com/WeBankFinTech/Schedulis
05 Exchangis 数据交换平台
https://github.com/WeBankFinTech/Exchangis
06 Visualis 数据可视化工具
https://github.com/WeBankFinTech/Visualis
07 Prophecis 一站式机器学习平台
https://github.com/WeBankFinTech/Prophecis
08 Streamis 流式应用开发管理系统
https://github.com/WeBankFinTech/Streamis
说明:Scriptis项目已经集成到DSS,可以直接使用
01 Apache Linkis(incubating) 计算中间件
Linkis是一个打通了多个计算存储引擎如:Spark、Flink、Hive、Python和HBase等,对外提供统一REST/WS/JDBC接口,提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。
本次发布主要支持在无 HDFS 的环境下进行精简化部署(支持部分引擎),方便更轻量化的学习使用和调试;新增对数据迁移工具 Sqoop 引擎的支持;异常处理日志优化;部分安全漏洞组件升级等;修复社区反馈的已知 bug。
新版详情:版本动态 | Apache Linkis(Incubating) 1.1.2 版本发布
02 DataSphereStudio 一站式数据应用开发管理门户
DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。
在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。
DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。
DSS1.1.0 主要特性如下:
新版详情:【里程碑】| DataSphere Studio 1.1.0 新版本发布
03 Qualitis 数据质量管理平台
Qualitis 是微众银行开源的一款数据质量管理系统,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。它提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
本次发布的 0.9.2 版本,与上一版本 Qualitis 0.9.0 版本相比,主要完成了与 DSS 1.1.0 以及 Apache Linkis 1.1.1 的适配,修复了用户在使用过程中反馈的问题,完善了工作流接入的升级安装文档。推荐用户升级或直接使用该版本。
新版详情:版本动态 | Qualitis 0.9.2 新版本发布
04 Schedulis 工作流任务调度系统
Schedulis 是一个基于LinkedIn 的开源项目 Azkaban 开发的工作流任务调度系统。该调度系统具备高性能,高可用(去中心化多调度中心和多执行器)和多租户资源隔离等金融级特性;现已被集成到数据应用开发门户 DataSphere Studio。
本次发布的 0.7.0 版本,与上个版本 0.6.2 相比,主要完成与DSS 1.1.0 以及Apache Linkis 1.1.1 的适配,修复用户在使用过程中出现的一些问题和优化文档。推荐用户升级到此版本。
新版详情:版本动态 | Schedulis 0.7.0 新版本发布
05 Exchangis 数据交换平台
Exchangis1.0.0是微众银行联合中国电信天翼云和仙翁科技共建的全新数据交换工具,支持异构数据源之间的结构化和非结构化数据传输同步。
Exchangis1.0.0 还抽象了一套统一的数据源和同步作业定义插件,允许用户快速接入新的数据源,允许用户快速集成对接 Apache Linkis 新的数据同步引擎,用户只需在数据库中简单配置即可在页面中使用新的数据源和数据同步引擎。
借助于Linkis计算中间件的连接、复用和简化能力,Exchangis天生具备了高并发、高可用、多租户隔离和资源管控的金融级数据同步能力。
新版详情:版本动态 | Exchangis 1.0.0 版本发布
06 Visualis 数据可视化工具
Visualis是一个基于宜信开源项目Davinci开发的数据可视化BI工具。现已集成到一站式数据应用开发门户DataSphere Studio中。Visualis支持拖拽式报表定义、图表联动、钻取、全局筛选、多维分析、实时查询等数据开发探索的分析模式,并提供水印、数据质量校验等金融级增强功能。
本次发布的1.0.0版本,完成了针对DSS1.1.0和Linkis1.1.1的适配,对接了DSS的结果集可视化分析、工作流报表开发、邮件发送等多个功能,是接入DSS1.0和Linkis1.0的第一个正式版本,与1.0.0-rc1版本相比,新增工作流View节点,完成多个增强特性,修复多个功能缺陷。推荐用户升级到此版本。
通过Visualis可以制作出多种图形的数据看板,并支持在DSS工作流中通过数据输出节点发送邮件报表。
新版详情:版本动态 | Visualis 1.0.0 版本发布
07 Prophecis 一站式机器学习平台
Prophecis 是微众银行自研的一站式机器学习平台,集成多种开源机器学习框架,具备机器学习计算集群的多租户管理能力,提供生产环境全栈化容器部署与管理服务。
本次版本更新内容主要为Prophecis MLFlow模块对接DSS 1.1.0 版本,实验模块、MLFlow Appconn、MLSS Appconn均对DSS 1.1.0版本进行了适配。
新版详情:新版发布 | 一站式机器学习平台 Prophecis 0.3.2
08 Streamis 流式应用开发管理系统
Streamis是一个基于开源社区联合共建的流式应用开发管理系统,初期版本由微众银行、天翼云、仙翁科技和萨摩耶云参与共建开发。
Streamis在框架层面直接接壤DataSphere Studio,同时底层引擎层面又直接对接了Linkis的Flink引擎,可以让用户低成本完成流式应用的开发、调试、发布和生产管理。同时随着Linkis和DataSphereStudio开源版本的发布迭代,对Streamis的功能特性也是持续地优化和增强。
Streamis 0.2.0版本发布,主要增加了对架构的优化和调整,并提供了一些重要功能特性,为后续版本迭代打下基础。
新版详情:新版发布 | 流式应用开发管理系统 Streamis 0.2.0
— END —
如何成参与社区贡献
1 ► 官方文档贡献。发现文档的不足、优化文档,持续更新文档等方式参与社区贡献。通过文档贡献,让开发者熟悉如何提交PR和真正参与到社区的建设。参考攻略:保姆级教程:如何成为Apache Linkis文档贡献者
2 ► 代码贡献。我们梳理了社区中简单并且容易入门的的任务,非常适合新人做代码贡献。请查阅新手任务列表:https://github.com/apache/incubator-linkis/issues/1161
3 ► 内容贡献:发布WeDataSphere开源组件相关的内容,包括但不限于安装部署教程、使用经验、案例实践等,形式不限,请投稿给小助手。例如:
4 ► 社区答疑:积极在社区中进行答疑、分享技术、帮助开发者解决问题等;
5 ► 其他:积极参与社区活动、成为社区志愿者、帮助社区宣传、为社区发展提供有效建议等;