海量数据、大数据和数据仓库这些在当下都是非常热门的话题,大家都比较关心这个领域,所以这个领域也成为了各大厂商的必争之地。云捷亮数正在推出旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案,并成功将SQL接口与多维分析机制(OLAP)引入Hadoop,对规模极为庞大的数据集加以支持。
随着近年以来云捷亮数旗下中国首个中高端消费者在线社区:YooClub规模不断扩大,YooClub用户群体的多样化拓展数据规模也在水涨船高,云捷亮数意识到,没有任何一种外部解决方案能够切实满足云捷的具体要求——特别是在开源Hadoop社区当中。为了解决企业业务面临的这一系列状况,云捷决定从零开始自主打造一套平台,让YooClub用户可以通过秒级以下延迟水平实现与Hadoop数据的交互其性能表现优于Hive,能够为使用SQL兼容性工具的用户提供ANSI SQL.并支持大部分的SQL查询功能。利用MOLAP(立方体)对数百亿行数据进行查询时用户能够在系统中定义一套数据模型对其进行预构建,其中所能包含的原始数据记录超过百亿行。
其实该项设计思路其实并非全新产生。在过去三十年当中,已经有很多技术方案使用到同样的理论依据来实现分析流程加速。具体而言,此类技术包括将预先计算完成的结果保存起来以备分析查询、利用所有可能的维度组合为每个层级生成cuboid(基本方体)、或者是在不同层级上对全部指数进行计算;
在YooClub社区数据规模变得越来越大时,预计算处理机制就会变得无法实现。云捷亮数利用Hadoop强大的分布式计算能力,通过借助成百上千个计算节点的总体资源,保证了系统以并发方式对这些计算任务进行处理,并通过合并生成最终结果——这能够显著降低整体处理时间。
为了提升每一次查询的性能减少查询时间,云捷亮数将预先进行计算的结果加以存储,以备日后随时调用。在进行数据处理流程中是由Map Reduce进行计算的,它将生成的所有维度进行合并计算最终形成结果并加以保存或导出,在对YooClub的大规模数据进行处理时充分发挥了Hadoop生态系统的强大能力。
云捷亮数已将该技术应用于生产实践,专门负责处理规模极端庞大的数据集。这套平台拥有显著的性能优势,实践证明,其能够帮助分析师们轻松借助自己所为熟悉的工具对Hadoop当中的数据进行充分利用。
END
常永康 技术总监
近20年以上技术开发经验;曾任知名互联网公司平台开发负责人。分布式存储和NoSQL数据库技术(如MonogoDB、Redis、ElasticSearch等)专家,在深度学习、NLP、知识图谱、GAN等领域具有较为深厚的理论研究和实践经验。
云捷亮数(M.A.S DATA)是国内首家基于中高级消费者样本为核心的高新科技公司,以汽车社区“悠咖驾到”(公众号:Yoo_club)为平台载体、结合运用大数据分析,为品牌制造商提供高效的市场洞察。
云捷亮数依托十余年的汽车领域市场研究及数据采集经验,通过独有自主的平台生产海量数据,以科技提取数据,实现为以汽车市场为主导的中高端消费市场提供快速决策解决方案,全力推进中国市场研究的产业创新性升级。
获取更多信息或市场研究合作请联系云捷亮数