原创作品,转载请注明出处。
关注公众号「热薯条」获取更多精彩文章。
前言
上一期我们介绍了如何进行绘图,从连通图中进行社区发现 (community detection),社区发现不同算法的介绍,以及是如何运用到我们的模型上找出红包黑产的。
这一期我们将介绍如何对单个维度的数据提取异常值,并应用到我们的模型上。
背景介绍
在上一期得到各个用户社区后,我将他们又放到数据仓库中关联他们的行为数据,环境数据等,找出猫币黑市社区群体,最后对猫币黑市中的角色分类并定性。
猫币黑市中的角色分以下三大类:
储户
储户分为不明储户和大R:
不明储户
- 该角色用户资金来源不明,可能为早期通过薅羊毛活动获得的猫币,paypal,apple pay 退款
- 由于数据只能追溯到2个月前,无法判别其资金来源,将不做具体讨论
大R
- 该角色资金来源为充值,可能想用发红包给喜欢的主播的方式支持主播,知道发礼物平台会扣钱
- 特征:充值比输出高,输出金额大,在房间未播时转移资金
“银行”
- 猜想1:该角色通过发、收红包的方式进行买卖,以此获利
- 猜想2:该角色资金来源为不明充值者,大R
- 特征: 输出比充值大,在房间未播时转移资金
贷方
- 该角色从“银行”购买猫币,并选择停止从平台充值,猫币流向为送礼物,至此,猫币停止流转。
- 特征: 来自同一个用户的收入占总收入较大部分,收入较大, 在房间未播时收到资金, 一直能抢到红包
资金流转流程图
以上的特征是对他们定性的分析,那么我们如何知道输出金额,未开播转移金额/总金额比例这样的数据多大才算异常值呢?
这个时候就可以用到箱形图了
箱形图 (box plot) 介绍
箱形图, 是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。
如果要了解什么是箱形图,那么一定要先了解五大因数,我们拿以下数据进行举例:
1, 2, 2,3,3,3,4,4,4,4,8
箱形图运用
我们将箱形图运用到我们的红包金额数据和未开播红包金额比例数据中:
红包金额数据箱形图
由于1.5倍区分出来的异常值规模过大,所以这边选用3倍和5倍来选出红包金额数据的最大异常值
红包未开播金额比例数据箱形图
可以看到箱形图在比例数据上效果不好,所以我们选用千分位图进行分析:
红包未开播金额比例数据千分位图
通过千分位图,我们可以看到大部分的用户聚集在 0或1之间,即要么一直在未开播情况下收发红包,要么一直在开播情况下收发红包。
这里认定只要是比例>0的数据即为异常数据
角色定义
参考文献
[1] 贾俊平、何晓群、金勇.统计学(第四版):中国人民大学出版社,2009年:66-67
更多精彩推荐:
猫币黑市第一期——通过大数据,机器学习揭露互联网直播行业黑产
原创作品,转载请注明出处。
关注公众号「热薯条」获取更多精彩文章。