从游戏到用户分类

困境

最近在做Antispam的过程中，遇到了这样一个困境：当策略调整的太严格的时候，就容易伤害到很多正常用户，当策略太宽松的时候，就很容易漏掉很多垃圾用户，不过这样一个问题也是在早期就已经预料到随着spammer的成长必然会遇到的问题，只不过没想到会来的这么快，于是我们就开始想着，如何解决这种困境。

思路

解决这个问题的思路有两个

利用站上的业务数据，比如赞同感谢神马的给用户分级；
利用用户自己的行为，给用户分类。
第一个思路牵涉到的场景和业务相关性很强，每个网站使用起来参考性不大，但是第二个思路却是一个通用性的解决方法，我们就来聊聊第二个思路。

利用用户自己的行为给用户分类，广义的分类方法在机器学习上可分为监督方法和无监督方法，两种的区别在于，监督方法需要事先对于训练集给出标准答案，然后将标准答案输入到学习算法中，然后建立模型，处理后续的输入方法；而无监督学习，是事先没有标准答案，利用个体之间在输入数据上的相近程度，自然聚成一类。

通过以上的描述，可能无监督的学习方法更适合我们，因为我们实现不知道用户有几类，也没有标准答案。那么问题就来了，目前大多数聚类算法，原理大多数都是利用空间点中的相近程度，将点分成若干类，差别可能是，有的用的是欧几里得距离，有的用的是余弦距离，有的用的是空间密度分布而已，那么摆在我们面前一个急需解决的问题就是，如何将用户的行为量化，也就是映射到一个n维空间中，用来对用户进行聚类呢？

启发

为了解决这个问题我也是想了很久，有一天实在无果，就玩起了一个手游，养成类游戏，大题思路就是一群人闯关，然后过程中给不同的人加点，然后这个英雄就会有不同的技能。玩的正无聊，我妹子问了我一句，这些英雄，你怎么知道把谁安排到前面，谁放在后面啊。我说，有的英雄体力高，可以放在前面挡着，有些英雄魔法高，就只适合放在后面作为远程攻击了，也许是听着无心，言者有意吧，我突然想到这么一个场景。

当一个英雄刚刚产生的时候，他在体力和魔法上的点数是一样，这个时候你分不清他是战士还是魔法师，但是当游戏不断进行，你购买了各种装置，每种装置在体力和魔法上加成都不一样，慢慢的，有的英雄体力更强，这个时候就比较适合物理战斗，有的魔法值更强，就适合魔法攻击，自然就分成了两类。

英雄的分类方法，是按照体力值和魔法值不同，分成两类，那么很自然的就想到，对于不同功能的使用偏好，是不是我们分类用户的思路呢？那么又怎么衡量一个用户的偏好呢？就是利用用户在不同功能模块上被加成的点数，我们可以按照用户访问每个模块的次数不同，来定义这个用户的习惯，进而根据用户的习惯，决定这个用户的类型。一下子思路就清晰了。

下面就用一个demo来解释一下吧：

求解

行为计数向量表示法

我们假设我们的网站有四个模块，分别是ABCD，有四个用户分别是1234。我们现在有了这四个用户的访问日志，格式是

<user>, <path>, <stamp>

比如说 1, A, 1234567 这个样子，那么我们对这些日志进行聚合，就可以得到一个用户访问每个模块的次数,如下表格：

	A	B	C	D
1	0	0	0	10
2	1	3	1	4
3	2	2	2	3
4	3	4	2	4

这样就可以分别用一个4维向量代表一个用户，比如1号用户就是 [0,0,0,10] 其他类似。

再这样数据的基础上，我们可以使用聚类算法比如KMeans，得到1号用户这个离群点，对这个离群点特征性比较强的D模块上，加大监控力度，在刚刚准备作恶的时候，就组织他，或者采用其他措施。

以上这种方法可以很自然的将用户转换成一个n维向量，但是转换过程中却丢失了一个很重要的属性，也就是时间属性，丢失了访问的先后次数，而这个先后次数对于定义用户的类别却十分有用。那么自然我们就有了第二个思路：行为序列向量表示法

行为序列表示法

依然是上面的四个模块: ABCD，我们现在得到了四个人的访问序列：

1: A -> C -> D -> B
2: C -> D -> B
3: A -> C
4: A -> A -> D -> A -> A -> A -> D

当有了上面数据以后，我们采用一些数据对齐的方法，比如采样相同时间段的数据相同长度的数据，就可以将每个人的行为序列，也转换成一个向量，然后对这些向量使用各种聚类模型，对用户分类。当然我们也可以模仿类似于贝叶斯中的基于先验概率的模型，实现我们的训练过程中，根据标记数据，我们获知，A -> A -> A这种情况出现的概率很小，这样我们就可以知道，4号用户很可能有什么异常，爬虫或者是spammer。

当然在实际模型建立过程中，不可能只依靠一种算法，对于数据也不会像例子上面那么清晰，会有很多的噪声和其他影响，需要其他的技术辅助处理，再配合策略作为限制，相信会有比较不错的效果，目前正在研究第一种思路，聚类效果明显，且某些类别的spam比例能到达99%，好了，就扯这么多了吧。

最后编辑于：2017.11.27 00:29:08

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342

从游戏到用户分类

困境

思路

启发

求解

推荐阅读更多精彩内容