项目“舆情分析平台”工作总结

舆情分析平台又可称为“舆情监测分析及预警响应系统开发”,作为项目总结的第一篇文章,我会详细的介绍工作的中的各个流程。

项目描述:

该项目运用爬虫爬取互联网上新闻数据,采用自然语言处理方法对新闻数据进行分析,使得能够监测并预警互联网中的热点事件

地址:http://101.204.243.86:9000/index.html#pages-2

项目时间:

2015.12 - 2016.06

主要工作:

1、对元数据进行清洗

2、将清洗后的数据进行分词和词性标注

3、对数据进行去停用词和高频词统计


下面详细介绍项目工作流程及我做的主要工作

该项目是我接触的第一个项目,刚刚接触该项目时是一种懵逼的状态。大师兄在知乎做算法工作,工作经验丰富,抽时间会带带我们。项目总共分为五组,分别是爬虫组、算法组、后端组、前端组、UI组。我和另外几个师兄弟主要承担算法工作。

爬虫组:负责爬取数据。在大数据时代,数据就是资源、数据就是金钱。我们的数据来源来期初来自于几个大的新闻网站,如今日头条、新浪新闻、搜狗新闻等等,到后来又陆续增加了几十个数据源,在此就不一一细说。

算法组:处理数据,是整个项目组的核心部分。在此,我将爬虫组的趴下来的某种格式的数据称之为元数据(这不是我起的名,早之前就有)。首先算法组要做的就是对数据进行数据清洗,清晰掉一些无用的格式(如url、图片格式等),这些东西对文本处理没有任何帮助。保留的部分主要有uuid、title、正文、等主要的部分。其次将处理后的数据进行用NLP的方式进行数据处理:分词、词性标注(jieba)、去停用词(整理的停用词典)、统计词频(高频词)、关键词与文本摘要(textrank4zh)、情感分析、事件聚类(LDA)、事件热度及事件影响力分析等,然后将数据入库(MongoDB)。此外,算法组另一个重要的工作就是和后端组进行数据对接。

后端组:主要具体做的工作我不是很清楚。下面我说下我的理解:后端组是实现整个demo的一部分,首选要和算法组进行对接数据,然后就是对整个demo的架构哟一个设计。总的来说,后端更多的是与数据库进行交互以处理相应的业务逻辑。需要考虑的是如何实现功能、数据的存取、平台的稳定性与性能等。

前端组:顾名思义就是泛指Web前端,也就是在Web应用中用户可以看得见碰得着的东西,包括Web页面的结构、Web的外观视觉表现以及Web层面的交互实现。

UI组:User Interface(用户界面),简称UI,是指对软件的人机交互、操作逻辑、界面美观的整体设计。简单的说,就是对设计各种没关的界面。

由于后面三个组的工作我不是很清楚,这里就不细说。

总之,除了爬虫组要和算法组之间进行一些数据格式的沟通外,剩下的几个组之间要不断沟通、相互协作才能共同推进项目的进展。在改项目中,我主要负责数据清洗、分词与词性标注、去停用词、高频词等工作。简而言之,在该该项目中,我也得到了初步的锻炼,让我对做工程充满了敬畏与期待!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容