大数据自助分析系统的设计与实现
http://d.wanfangdata.com.cn/Thesis/D590636
近几年,互联网的高速发展,数据量呈指数上涨,我们已然进入了“大数据时代”。在这样的互联网时代里,数据发挥着越来越重要的作用。互联网先驱Google、IBM等公司首先意识到了大数据蕴含的巨大价值,率先投入资源进行研究。对于相对落后的中国互联网,各大公司也纷纷崛起追赶。 本课题通过对大数据研究,开发大数据产品,提供给用户一个数据提取和分析的自助化平台。此平台利用已有用户数据资源,通过提取和分析,将杂乱数据变为具有商业价值的可用资源,解决产品经理们面临的数据难题。 本系统基于腾讯分布式数据仓库(TDW)之上进行开发,利用TDW存储和计算资源实现数据提取和分析。本系统分为四大模块:TDW接入模块、任务调度模块、权限管理模块和Web功能模块。其中TDW接入模块将TDW存储数据表配置信息和各业务的分析指标接入本系统,供提取和分析使用,同时将计算任务通过任务调度,接入TDW中运行,获取或者上传数据。用户通过权限管理模块,获得相应数据表、分析指标的访问权限。而后,用户可在Web功能模块中完成数据提取和分析。其中用户可根据需求筛选数据子集、上传文件、对提取任务结果、上传数据或者大盘数据进行相应指标的分析。本文提供基本分析、对比分析、交叉分析、下钻分析、聚类分析、相关分析等分析方法,根据用户所选指标和数据包,自动选择分析方法进行分析。 目前系统可供用户提取的数据约为100PB,可分析指标超过5000个,能够满足产品经理日常产品运营、策划等需求。经过性能测试,结合产品运营报告,对系统进行了优化,提供给用户一个稳定、可用、易用的数据分析平台。