做过一段时间的垃圾信息处理,觉得处理机制也是一件蛮有意思的事情,在此写下自己的一些思路。 持续更新中=-=
如何界定为垃圾内容?
关键词计分规则—建立关键词数据库,用户发言时自动过滤,触碰关键词报警或删除。
步骤1:设置不同关键词分数,设立自动删除分数
步骤2:用户发言,后台过滤,段落中超过删除分数警戒线则用户可见or删除,不超过则进入运营人员管理后台,等二次处理。
其他:举报
如何界定垃圾用户
1.发言记录累计关键词总分
2.用户注册时间,资料信息完成度,有助判定此项条件。
对垃圾内容/用户的处理?
不是垃圾内容,正常显示
删除发言内容,
删除发言者所有可疑发言内容(防止遗漏)
拉黑发言者
拉黑发言者imei,禁止注册
垃圾内容&垃圾用户
如何界定图片中的垃圾信息?
如何处理故意用符号或错别字避开关键字行为?
如何界定软文用户?