什么是UGC内容审核
UGC即用户产生内容,目前很多产品都是以UGC为主要产生内容的方式,例如百度贴吧(社区)、抖音、快手、今日头条、新浪微博等。在用户量达到一定量级后我们会发现用户产生内容的质量参差不齐,甚至很多违规、低俗内容。这些违规、低俗内容不仅仅损害社区氛围还会给社区其他用户生成内容的导向,也就是说很多头部用户产生的内容(或者露出的内容,如快手的热门)形成了社区的内容调性进而影响其他用户产生内容的形式。到这里,内容审核的概念就格外明显。内容审核就是通过内部人员的审核以及产品方面其他手段去对用户产生的内容做限制,这样可以把以上危害降到最低。
为什么要进行内容审核
讨论这件问题之前,请看下面几张图片。
我们可以看到,如果没有内容审核的话那么各大平台每天会被大量垃圾信息攻击,广告、违规违法内容,不仅仅对青少年网民朋友造成不良影响也深深损害到产品自身,不仅仅造成用户体验不佳,更可能造成大量用户流失。截至17年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一,越来越多的人利用互联网表达自己的观点和看法。为维护互联网环境的和谐健康以及社会环境的安定有序,需对一些传播虚假信息、危害社会稳定以及有伤社会风化的信息及言论进行监控、过滤、删除、屏蔽或关闭。
内容审核体现在哪些方面
实际上用户所有产生的内容都需要经过审核,那么这里的内容会根据产品的不同而进行不同的分类。例如短视频社区快手,需要什么的内容不仅仅只有用户发布的短视频,甚至还有用户编辑的个人说明等所有露出能够让其他用户看到的内容。如百度网盘,可能在这里用户产生的内容就是上传到网盘的内容,这也是需要审核的。又如今日头条,不仅仅要审核头条号(个人、团队类似微信公众号)发布的内容,还要审核用户在新闻下的跟帖,经常会有一些人在新闻下跟帖发布一些不良言论。
我们可以看到不同的产品基本上都会有用户产生的内容,针对这些内容我们都需要做审核。实际上我认为审核的目的有二:一、更好的用户体验;二、良好的内容调性。每个用户在每个社区产生的内容实际上会受到该社区很多其他用户的影响,那么只有良好的内容调性才能让内容进入一个正向的循环。
UGC内容审核策略及方式
目前所有平台的内容审核都是人工结合机器,很多人工为主机器为辅的方式进行内容审核。内容审核策略分为两种:先发后审、先审后发。
审核策略
(1)先发后审
先发后审即用户先将内容发布出去,只需要通过机器过滤(如关键词过滤)即可显示,并对其他用户可见,然后进入审核列表等待人工审核。这里可能会考虑到用户发布内容的时效性,对于时效性强的产品适合使用先发后审的审核策略。
(2)先审后发
先审后发及用户将内容发布出去,先需要通过机器过滤,将用户产生内容根据阈值(命中关键词权重值)区分到高危待审列表、普通待审列表,不符合要求的将会直接置于审核不通过列表,其他内容等待人工进行审核。适合很多新闻平台,权威性较高的平台,对内容要求高。例如人人PM社区,用户发布的文章需要通过编辑的审核,审核通过后才能发出。
在策略选择上面需要考虑产品的特性,有针对性的选择。对于大量数据的审核,交给人工是非常浪费人力物力的,成本很高。那么在这样的场景之下只需要单纯的机器过滤,其他事情交给用户参与(用户举报)。这样我们只需要维护机器过滤的关键词词库,以及过滤的其他规则。同时处理用户举报的小部分内容,大大降低运营成本。
审核方式
(1)沉贴
沉贴即用户产生的内容只对他自己可见,其他用户无法看到。也就是说沉贴操作是用户感知不到的,也是被大量应用在很多场景之下。
(2)删除
删除即将用户产生内容删除,自己不可见,其他用户也无法看见。同时可能伴随站内消息提醒,告知用户内容违规等。
(3)禁言
禁言即在一个时间段内(时间规范)让用户无法发布内容,也就是经常说到的小黑屋。具体禁言的时间段是需要提前指定一个规范的,通过阈值实现。
(4)封号(黑名单)
封号即将用户帐号封掉,封后不能够发布内容,仅能浏览,甚至有些产品会直接将入口对封号用户不可见。封号实际上涉及到两种方式:一种是封uid,另一种是封imei(设备串号),不同方式使用在不同的场景。在这里我们需要考虑到把用户封号后对于用户之前产生的内容怎么操作,一般来说都是将用户产生的所有内容抹掉。
(5)内容转移
内容转移即将帖子内容不符合所在板块的,转移至相应的板块内。
机器过滤机制
(1)关键词过滤
建立违禁词库,词库可分为敏感、违禁等。在用户点击发布的同时对用户发布的内容进行关键词过滤,如帖子标题、内容进行关键词过滤,并且根据设定的命中关键词的权重值对其进行操作。这里的词库是需要通过运营维护的,人工定期的添加才能保证关键词过滤的效果。
(2)重复内容过滤
重复内容过滤能极大的限制广告内容、灌水,我们可以看到大部分广告内容都是CV工程师发布的。(CV即Ctrl+C Ctrl+V复制粘贴)大部分内容都是一模一样的可能会略微改动一些但是相似度不会低于80%,重复内容对比前需要对标点符号等无关信息屏蔽,在用户发布前对重复内容进行过滤并弹出toast提示用户不要发布重复内容。
(3)限制发布次数
这里同样能够很有效的降低用户刷帖、灌水、发布广告等内容。对用户发布次数进行限制,如每天只能发布10个帖子等,具体次数限制需要根据后台数据,对异常用户及普通用户行为数据进行分析对比进而设定对应的限制发布次数,因为我们不知道普通用户每天平均发布的帖子数量。
(4)根据用户属性过滤
根据不同用户人群,将用户发布的内容进行过滤。例如将用户分为新人(注册7天内的用户)、KOL(Key Opinion Leader 关键意见领袖)、高危用户(有过违禁记录的用户)及普通用户等,由于他们的行为特征不同,可以采取不同的审核策略。如新人,大部分新人都在消费内容,极少的新人会产生内容,因此对新人产生的内容我们是需要进行审核的,可以采取机器过滤+人工审核的方式。
其他
实际上审核方式、审核策略、人工审核、机器过滤等都是为了社区内良好的内容氛围,进而提升用户体验,那么以提升内容氛围为目的的话一下还有几种方式。
(1)通过产品机制提高用户生成内容门槛
例如用户在绑定手机号、完善资料前不能发布内容,新用户在注册X小时内不能发布内容等。
(2)举报/反馈机制
让用户参与到审核工作当中,通过举报给与用户一定积分奖励等,让用户有动力参与进来,同时通过积分等将用户引导到产品其他板块。让每个用户参与到审核工作中,既能够提升用户的参与度,还大大降低了公司的运营成本。另外,用户每次举报最好能够有一个对应的反馈,让用户看到他的举报是有效的并不是无疾而终的。
(3)内容调性
在内容冷启动阶段对社区内容调性做一个规范化,通过内容调性引导用户产生相应的内容。
以上则是我对UGC内容审核的一些浅薄的观点和看法,如有纰漏欢迎指正。