1 项目背景##
拍拍贷是我国知名的P2P平台,以极其前瞻的视角举办了魔镜杯金融数据应用大赛,共设风控算法大赛、数据产品开发大赛、金融产品创新大赛三个子赛题。我参加的是数据产品开发大赛,在经过了将近两个月的奋斗之后,拿到了数据产品开发大赛的金奖,以及三个赛题各自的金奖中再次筛选出的风云大奖。数据产品开发大赛的比赛背景如下:
P2P网贷平台在2007年乘着互联网浪潮引入国内,2013年开始蓬勃发展,平台数量和交易金额纷纷大幅增长,与此同时出现了越来越多的问题平台、跑路平台。面对变幻莫测、层出不穷的P2P平台和产品,用户们都在困惑:到底哪些P2P平台比较靠谱?各个平台差别在哪里?哪个平台的资金安全最有保障?如何快速选择适合自己的P2P产品?
设计一款数据舆情产品,对P2P相关主题的媒体新闻、用户评论、国家政策等文本数据进行抓取、清洗、整理、分析和展示,反映出P2P产业的整体热度、行业事件,以及各家P2P企业的相关报道、重点事件、用户口碑,并对数据舆情产品提供在线访问服务,帮助千万互联网P2P用户做出明智的投融资决策。
比赛的评分维度包括以下七点:
- 数据源的选择
- 爬虫方法与工具应用
- 数据清洗方法
- 文本分析与数据分析
- 可视化展现
- 数据产品交互
- 产品使用价值
2 项目实施##
根据以上背景和需求,考虑到现有P2P平台中问题平台占了将近四成,我将比赛工作聚焦在如何进行客观精确的平台风险量化这一核心问题上。主要的工作包括以下六部分:
- 选取了客观的新闻报道、主观的民意评论、专业的网贷社区和各大平台的官方网站作为数据源;
- 开发和部署了一套爬虫框架,集成Redis和Hadoop,具有大规模分布式计算和灵活可扩展的特点;
- 对获取的数据进行了数据去重、空值处理、数据去噪、格式统一、对齐融合等清洗;
- 进行了文本理解、主题模型、知识图谱、情感分析等一系列分析;
- 提出了基于多维特征和深度学习的平台风险量化模型OMNIRank;
- 根据OMNIRank排名结果,对优秀的P2P平台进行了极其丰富的可视化和交互探索。
3 成果展示##
最终路演是在5月15号,拍拍贷租了个挺大的场子,这也是我人生中第一次在那么大的场合进行公开演讲,心里的紧张自然不用多说。
讲了大概十分钟,赛前已经练习过无数次,所以也算正常发挥,讲出了预期的水平。最后也迎来了圆满的结局,数据产品开发大赛的金奖+魔镜杯的风云大奖,晒两张照片(正中间那个就是我啦)。
决赛路演的ppt请参考我的另一篇文章:P2P深度透视 OMNIRank 平台风险量化。里面对我的工作有十分详细的阐述,因此在这就不重复叙述了。最后的结论是,半年以来根据OMNIRank评分所得的排名结果,前100名中没有出现任何问题平台,说明OMNIRank确实筛选出了一个高度安全的投资区间。
在线产品的链接在这里,内容极其丰富,不妨一试,来个首页截图。
本着开源的初心,我把可视化代码开源在这里,把大部分所使用的原始数据放在这里。
4 后记##
经过了EMC智慧校园、SODA、拍拍贷魔镜杯三个比赛,感觉个人各方面能力都得到了极大的提升。中国P2P行业的发展仍面临着诸多问题和挑战,任重而道远,开源的初衷是希望和大家一起进步,和大家一起构建一个和谐、安全、透明的P2P投资环境。