UGC内容审核及过滤机制

为什么要对UGC内容进行审核?###

截至2016年12月,中国网名规模达到7.31亿人,其中手机网民达6.95亿。越来越多的用户通过互联网来表达个人立场及宣传主张,为维护互联网环境的和谐健康以及社会环境的安定有序,需对一些传播虚假信息、危害社会稳定以及有伤社会风化的信息及言论进行监控、过滤、删除、屏蔽或关闭。
以上是出于政府监管的目的需对用户发表内容进行审核,同时网站自身出于提升用户体验的考虑,也应对带有侮辱、歧视等性质的不文明词汇以及影响用户体验的广告等进行审核过滤,为用户提供愉悦健康的产品体验。

UGC内容审核的具体方面###

基本上,凡是用户生产的内容几乎都需要进行审核,审核的内容包括文字、图像及视频等,现今还包括用户直播等形式的内容。具体包括用户昵称、头像、签名、文章、评论、IM聊天、上传的视频等内容。

UGC内容审核的机制###

对于数据量少的,可以人工审核为主;对于数据量较多的采用机审为主,人工审核为辅(机审异常或用户举报等)的审核方法。
UGC内容主要有两种审核机制:先发布后审核和先审核后发布。先发布后审核即“先发后审”,指的是内容发表后,若该内容未命中敏感词或非法词(自定义屏蔽词),则进已审核列表,且直接在页面显示;先审核后发布即“先审后发”,指的是内容发表后,所有内容进待审核列表,需人工审核后才能显示。
先发后审并非内容在发布之前完全没有审核,而是需要通过机审后才会发布显示。机审依赖于审核规则及词库的积累,受制于如违禁词、内容长度、spam等可衡量的因子,并不能屏蔽所有需屏蔽的内容,同时由于无法根据语境辨别词汇,也容易存在误杀的可能。
人工审核虽无以上机审所说的种种不足,但对于大数据量的内容审核来说,全部采用人工审核的方式显然是不太现实的,也增加了内容的运营维护成本,对于具有及时性要求的内容,如IM聊天,会造成信息的延时,产生沟通不畅的产品体验。
因此需要根据自身产品的特点来选用审核机制,以达到在优化用户生产内容体验的同时,减小内容运营维护的成本之目的。如用户昵称,可采用机审的方式,只要内容不涉及敏感词均可发布;对于资讯文章的发布,可采用人工审核的方式,审核通过后再予以发布;而对于评论内容可结合机审和人工审核相结合的方式,机审通过后即予以发布显示,机审异常或收到用户举报的内容辅以人工审核的方式。

UGC内容审核的实现方法###

1、划分用户人群进行分类审核。
根据不同用户人群,采用不同的审核方式。例如将用户分为新人(注册7天内的用户)、KOL(Key Opinion Leader 关键意见领袖)、高危用户(有过违禁记录的用户)及普通用户等,由于他们的行为特征不同,可采用不同的审核方式:
● 对新用户的个别行为或异常行为进行重点审核或单独提取出来进行人工审核,可有效过滤垃圾信息。
● KOL具有粉丝效应,收获了大批的关注,他们的大部分行为多为可信的,对于他们发布的内容可以采取先发后审的机制,或给予信任权限直接发布。
● 高危用户有较多违禁记录,且通常在解禁后不久后就又开始有违禁行为,需对这类人群发布的内容做重点审核。
在此基础上,可建立白名单用户和黑名单用户库,
2、建立机器审核规则进行自动过滤。
一般原则是用户发布内容都需要进行机审,在机审未完成前或失败后,相关内容仅对发布者可见,机审成功后,此内容对所有用户可见。
机审的具体规则:
(1)建立并完善违禁词词库,如广告词,敏感词等
建立词库编辑的后台,可增减或批量导入违禁词,并可对词语进行分类(广告词,敏感词)和分级(轻微或严重),以便对不同分类和分级的词语采取不同的处理方式。如对于内容中包含3个以上广告词的内容进行屏蔽或进行可疑提示,少于3个广告词的内容正常发布;对包含有敏感级别为轻微的内容允许正常发布,但将发布内容中的敏感词替换成或采取人工二次审核,当超过10个时,判定为机审失败,内容不予发布;对包含有敏感级别为严重的内容直接屏蔽,不予发布。
(2)建立并完善违禁号码库
用数据库将有严重违禁记录的用户及其发布内容中的号码记录下来,如系统删除、禁言过的号码或广告者的联系方式,作为数据沉淀组成违禁号码库。
(3)重复内容过滤
重复内容过滤对于限制广告内容是十分有效的,因为大部分广告发布者发布的内容大同小异,可将内容与同一用户上一条内容进行对比,10个汉字以上的若与其中一条重复率达70%(20字以上重复率达60%;30字以上重复率达50%)则弹出toast“请不要发布重复内容”;重复内容对比时需做字符串范围及去除除汉字外的无关符号,如空格、逗号等,例如“淘,宝”、“微sjenbs信”,对比时用“淘宝”“微信”,该项也适用于违禁词库对比;为规避广告用户换马甲、换文案的问题,可将用户拟发布内容与内容库或评论库中内容进行对比,如将评论与评论库最近发布50条的评论作对比,20个汉字以上的若与其中一条重复率达80%则机审失败(30字以上重复率达70%;50字以上重复率达60%)。
(4)限制用户发布次数
为降低或防止用户灌水、刷帖的行为,应对用户的发布次数进行限制,限制一名用户不可以无限制地发布内容。例如:同一用户1分钟内最多发送1条评论;1小时内最多发送10条评论,1天最多发送30条评论;评论次数超出时弹出toast“发言太多累了吧,请休息下”提示。
(5)其他限制条件
提高内容发布门槛,如用户需绑定手机号或完善资料后才可以发布内容,新用户需注册一段时间后才可发布内容等。对于有注册要求的还可以提高注册门槛,如采用邀请码等。
3、组建审核团队进行人工审核。
对于有高质量要求的内容多采用人工审核的方式,以及机审比较复杂或系统无法判定的内容也都需要进行人工审核。例如图片和小视频,由于涉及到复杂的图像识别算法,受限于技术水平条件,通常也较多采用人工审核。可以通过技术手段辅助来提高人工审核效率,如突出显示关键词或可疑信息等方式。
4、引导用户行为,培养用户习惯。
通过网站激励措施引导用户不发布违规内容和借助广大用户的力量,如建立举报、反馈机制过滤垃圾信息,培养用户举报的习惯,联合用户肃清网络环境。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容