舆情分析平台又可称为“舆情监测分析及预警响应系统开发”,作为项目总结的第一篇文章,我会详细的介绍工作的中的各个流程。
项目描述:
该项目运用爬虫爬取互联网上新闻数据,采用自然语言处理方法对新闻数据进行分析,使得能够监测并预警互联网中的热点事件
地址:http://101.204.243.86:9000/index.html#pages-2
项目时间:
2015.12 - 2016.06
主要工作:
1、对元数据进行清洗
2、将清洗后的数据进行分词和词性标注
3、对数据进行去停用词和高频词统计
下面详细介绍项目工作流程及我做的主要工作:
该项目是我接触的第一个项目,刚刚接触该项目时是一种懵逼的状态。大师兄在知乎做算法工作,工作经验丰富,抽时间会带带我们。项目总共分为五组,分别是爬虫组、算法组、后端组、前端组、UI组。我和另外几个师兄弟主要承担算法工作。
爬虫组:负责爬取数据。在大数据时代,数据就是资源、数据就是金钱。我们的数据来源来期初来自于几个大的新闻网站,如今日头条、新浪新闻、搜狗新闻等等,到后来又陆续增加了几十个数据源,在此就不一一细说。
算法组:处理数据,是整个项目组的核心部分。在此,我将爬虫组的趴下来的某种格式的数据称之为元数据(这不是我起的名,早之前就有)。首先算法组要做的就是对数据进行数据清洗,清晰掉一些无用的格式(如url、图片格式等),这些东西对文本处理没有任何帮助。保留的部分主要有uuid、title、正文、等主要的部分。其次将处理后的数据进行用NLP的方式进行数据处理:分词、词性标注(jieba)、去停用词(整理的停用词典)、统计词频(高频词)、关键词与文本摘要(textrank4zh)、情感分析、事件聚类(LDA)、事件热度及事件影响力分析等,然后将数据入库(MongoDB)。此外,算法组另一个重要的工作就是和后端组进行数据对接。
后端组:主要具体做的工作我不是很清楚。下面我说下我的理解:后端组是实现整个demo的一部分,首选要和算法组进行对接数据,然后就是对整个demo的架构哟一个设计。总的来说,后端更多的是与数据库进行交互以处理相应的业务逻辑。需要考虑的是如何实现功能、数据的存取、平台的稳定性与性能等。
前端组:顾名思义就是泛指Web前端,也就是在Web应用中用户可以看得见碰得着的东西,包括Web页面的结构、Web的外观视觉表现以及Web层面的交互实现。
UI组:User Interface(用户界面),简称UI,是指对软件的人机交互、操作逻辑、界面美观的整体设计。简单的说,就是对设计各种没关的界面。
由于后面三个组的工作我不是很清楚,这里就不细说。
总之,除了爬虫组要和算法组之间进行一些数据格式的沟通外,剩下的几个组之间要不断沟通、相互协作才能共同推进项目的进展。在改项目中,我主要负责数据清洗、分词与词性标注、去停用词、高频词等工作。简而言之,在该该项目中,我也得到了初步的锻炼,让我对做工程充满了敬畏与期待!